Robots Meta 指令

    SEO基础 wuya 125次浏览 已收录 0个评论

    Meta 指令 – Robots Meta Directives

    Robots Meta 指令(有时也称为“Meta标籤”)是一些程式语法,它们提供网页爬虫如何抓取或索引网页内容的抓取指令,虽然robots.txt文件指令也可以帮网路爬虫提供了如何抓取网站的建议,但Robots Meta指令提供了更为严格的,指导网页爬虫如何抓取和索引页面的内容。

    有两种类型的Robots Meta 指令:属于HTML页面(如meta robots tag)的部分,以及Web服务器作为HTTP头部(如 x-robots-tag)发送的指令。meta robots tag和x-robots-tag都可以使用相同的参数(即Meta提供的抓取或索引指令,例如上述示例中的“noindex”和“nofollow”),不同的是这些参数如何传递给网页爬虫。

    Meta指令提供抓取工具并解释,如何抓取和索引特定网页上的内容,如果这些指令是被机器人搜索到,那幺参数就成为了规範爬虫行为的强有力的建议,但是与robots.txt文件相同,抓取工具不必遵循meta指令,所以可以肯定的是,一些恶意的web机器人可以忽略你的指令。

    以下是搜索引擎抓取工具在robots meta指令中使用的参数,这些参数不区分大小写,但请注意,有些搜索引擎可能只遵循这些参数的子集,或者可能会略微不同地处理某些指令。

    参数设定:

    Noindex: 告诉搜索引擎不要索引该网页。

    Index: 告诉搜索引擎索引该网页,不必特意加入此标籤,因为这是预设的。

    Follow:即使网页没有被索引,网页爬虫也应该追蹤网页上的所有链接,并将权限传递给连结的网页。

    Nofollow: 告诉网页爬虫也不要追蹤网页上的所有链接,并将不可以将权限传递给连结的网页。

    Noimageindex: 告诉网页爬虫不要索引该网页上的任何图像。

    None:相当于同时使用noindex和nofollow标籤。

    Noarchive:搜索引擎不应该在SERP(搜寻结果页面)上显示暂存的连结到这个网页。

    Nocache:与noarchive相同,但只用于Internet Explorer和Firefox浏览器。

    Nosnippet:告诉搜索引擎不要在SERP(搜寻结果页面)上显示该网页的一个片段(即Meta描述)。

    Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的网页描述作为此页面的SERP(搜寻结果页面)片段说明。但是,DMOZ在2017年初关站,这个标籤已经过时了。

    Unavailable_after: 搜索引擎不应该在特定的日期之后索引该网页。

    机器人Meta指令的类型

    有两种主要类型的机器人Meta指令: meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的参数也可以在x-robots-tag中指定。

    我们将在下面讨论meta robots tag和 x-robots-tag指令。

    Meta robots tag

    Meta robots tag(俗称“Meta标籤”或“robots 标籤”)是网页HTML代码的一部分,在网页的部分以程式码显示:

    程式码範例

    <meta name="robots" content="[PARAMETER]" >

    标籤是标準的设定方式,也可以使用特定使用者代理的名称来替换“robots”做为特定的搜寻。 例如,要专门针对Googlebot指定某个指令,您需要使用以下代码:

    <meta name="googlebot" content="[DIRECTIVE]" >

    想要在网页上使用多个Meta指令?只要他们是相同的“机器人”(使用者代理),多个指令可以包含在一个meta指令中 – 只需用逗号分隔即可。这是一个例子:

    <meta name="robots" content="noimageindex," "nofollow," "nosnippet" >

    这个标籤会告诉机器人不要索引网页上的任何图像、任何连结,或者当网页出现在SERP(搜寻结果页面)上时显示网页的说明片段。

    如果您针对不同的搜索用户代理使用不同的元机器人标籤指令,则需要为每个机器人使用不同的标籤。

    X-robots-tag

    meta robots tag允许您在网页层级控制索引行为,但是x-robots-tag可以作为HTTP表头的一部分并包含在内,以控制整个网页的索引,以及网页的特定元素。

    儘管您可以使用x-robots-tag来执行与meta robots相同的索引指令,但是x-robots-tag指令提供了更多的灵活性和X-robots-tag所不具备的功能。 具体而言,x-robots-tag允许使用正规表达式,在非HTML文件上执行爬行网页指令,并在全局层级使用参数。

    要使用x-robots-tag,您需要访问您网站的header .php,.htaccess或伺服器文件,从那里,添加您的特定服务器配置的x-robots-tag标记,包括任何参数,此网站提供了一些很好的示例,解说如何使用这三种方式中的其中一种,x-robots-tag的概述。

    以下是可能会使用到x-robots-tag状况的範例:

    控制未用HTML撰写的内容的索引(如Flash或视频)。

    阻止网页特定元素(如图像或影片)的索引,而不是整个网页本身

    如果您无法访问网页的HTML(特别是部分),或者您的网站使用了无法更改的全局层级标题。

    添加规则来判断是否应将网页编入索引(例如,如果用户留言了20多次,则将网页编入索引)

    SEO与robots meta指令的最佳做法

    所有meta指令(robots或其他)都是在抓取URL时发现的,这意味着,如果robots.txt文件不允许抓取网址,则网页上的任何meta指令(无论是在HTML还是在HTTP header)都将不会被看到,并且将被忽略。

    在大多数情况下,应该使用带有参数“noindex,follow”的robots meta tag来限制抓取或索引,而不是使用robots.txt文件禁止。

    需要注意的是,恶意爬虫很可能会完全忽略meta指令,因此这个协议并没有形成一个好的安全机制,如果您有不想公开搜索的隐私讯息,请选择更安全的方法(如密码保护),以防止浏览者查看机密网页。

    您不需要在同一页面上同时使用Meta robots tag和X-robots-tag – 这样做是多余的。

    资料来源:https://moz.com/learn/seo/robots-meta-directives


    学海无涯 , 版权所有丨如未注明 , 均为原创丨转载请注明Robots Meta 指令
    喜欢 (0)
    发表我的评论
    取消评论
    表情 加粗 删除线 居中 斜体 签到

    Hi,您需要填写昵称和邮箱!

    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址