Robots Meta 指令

ernestwang 899 0

Meta 指令 - Robots Meta Directives Robots Meta 指令(有时也称为“Meta标籤”)是一些程式语法,它们提供网页爬虫如何抓取或索引网页内容的抓取指令,虽然robots.txt文件指令也可以帮网路爬虫提供了如何抓取网站的建议,但Robots Meta指令提供了更为严格的,指导网页爬虫如何抓取和索引页面的内容。 有两种类型的Robots Meta 指令:属于HTML页面(如meta robots tag)的部分,以及Web服务器作为HTTP头部(如 x-robots-tag)发送的指令。meta robots tag和x-robots-tag都可以使用相同的参数(即Meta提供的抓取或索引指令,例如上述示例中的“noindex”和“nofollow”),不同的是这些参数如何传递给网页爬虫。 Meta指令提供抓取工具并解释,如何抓取和索引特定网页上的内容,如果这些指令是被机器人搜索到,那幺参数就成为了规範爬虫行为的强有力的建议,但是与robots.txt文件相同,抓取工具不必遵循meta指令,所以可以肯定的是,一些恶意的web机器人可以忽略你的指令。 以下是搜索引擎抓取工具在robots meta指令中使用的参数,这些参数不区分大小写,但请注意,有些搜索引擎可能只遵循这些参数的子集,或者可能会略微不同地处理某些指令。 参数设定: Noindex: 告诉搜索引擎不要索引该网页。 Index: 告诉搜索引擎索引该网页,不必特意加入此标籤,因为这是预设的。 Follow:即使网页没有被索引,网页爬虫也应该追蹤网页上的所有链接,并将权限传递给连结的网页。 Nofollow: 告诉网页爬虫也不要追蹤网页上的所有链接,并将不可以将权限传递给连结的网页。 Noimageindex: 告诉网页爬虫不要索引该网页上的任何图像。 None:相当于同时使用noindex和nofollow标籤。 Noarchive:搜索引擎不应该在SERP(搜寻结果页面)上显示暂存的连结到这个网页。 Nocache:与noarchive相同,但只用于Internet Explorer和Firefox浏览器。 Nosnippet:告诉搜索引擎不要在SERP(搜寻结果页面)上显示该网页的一个片段(即Meta描述)。 Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的网页描述作为此页面的SERP(搜寻结果页面)片段说明。但是,DMOZ在2017年初关站,这个标籤已经过时了。 Unavailable_after: 搜索引擎不应该在特定的日期之后索引该网页。 机器人Meta指令的类型 有两种主要类型的机器人Meta指令: meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的参数也可以在x-robots-tag中指定。 我们将在下面讨论meta robots tag和 x-robots-tag指令。 Meta robots tag Meta robots tag(俗称“Meta标籤”或“robots 标籤”)是网页HTML代码的一部分,在网页的部分以程式码显示: 程式码範例 <meta name="robots" content="[PARAMETER]" > 标籤是标準的设定方式,也可以使用特定使用者代理的名称来替换“robots”做为特定的搜寻。 例如,要专门针对Googlebot指定某个指令,您需要使用以下代码: <meta name="googlebot" content="[DIRECTIVE]" > 想要在网页上使用多个Meta指令?只要他们是相同的“机器人”(使用者代理),多个指令可以包含在一个meta指令中 - 只需用逗号分隔即可。这是一个例子: <meta name="robots" content="noimageindex," "nofollow," "nosnippet" > 这个标籤会告诉机器人不要索引网页上的任何图像、任何连结,或者当网页出现在SERP(搜寻结果页面)上时显示网页的说明片段。 如果您针对不同的搜索用户代理使用不同的元机器人标籤指令,则需要为每个机器人使用不同的标籤。 X-robots-tag meta robots tag允许您在网页层级控制索引行为,但是x-robots-tag可以作为HTTP表头的一部分并包含在内,以控制整个网页的索引,以及网页的特定元素。 儘管您可以使用x-robots-tag来执行与meta robots相同的索引指令,但是x-robots-tag指令提供了更多的灵活性和X-robots-tag所不具备的功能。 具体而言,x-robots-tag允许使用正规表达式,在非HTML文件上执行爬行网页指令,并在全局层级使用参数。 要使用x-robots-tag,您需要访问您网站的header .php,.htaccess或伺服器文件,从那里,添加您的特定服务器配置的x-robots-tag标记,包括任何参数,此网站提供了一些很好的示例,解说如何使用这三种方式中的其中一种,x-robots-tag的概述。 以下是可能会使用到x-robots-tag状况的範例: 控制未用HTML撰写的内容的索引(如Flash或视频)。 阻止网页特定元素(如图像或影片)的索引,而不是整个网页本身 如果您无法访问网页的HTML(特别是部分),或者您的网站使用了无法更改的全局层级标题。 添加规则来判断是否应将网页编入索引(例如,如果用户留言了20多次,则将网页编入索引) SEO与robots meta指令的最佳做法 所有meta指令(robots或其他)都是在抓取URL时发现的,这意味着,如果robots.txt文件不允许抓取网址,则网页上的任何meta指令(无论是在HTML还是在HTTP header)都将不会被看到,并且将被忽略。 在大多数情况下,应该使用带有参数“noindex,follow”的robots meta tag来限制抓取或索引,而不是使用robots.txt文件禁止。 需要注意的是,恶意爬虫很可能会完全忽略meta指令,因此这个协议并没有形成一个好的安全机制,如果您有不想公开搜索的隐私讯息,请选择更安全的方法(如密码保护),以防止浏览者查看机密网页。 您不需要在同一页面上同时使用Meta robots tag和X-robots-tag - 这样做是多余的。 资料来源:https://moz.com/learn/seo/robots-meta-directives

标签: meta 搜索引擎

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~

复制成功
微信号: irenyuwang
关注微信公众号,站长免费提供流量增长方案。
我知道了