Robots Meta 指令

ernestwang 2019-01-27 899 0

Meta 指令 - Robots Meta Directives Robots Meta 指令（有时也称为“Meta标籤”）是一些程式语法，它们提供网页爬虫如何抓取或索引网页内容的抓取指令，虽然robots.txt文件指令也可以帮网路爬虫提供了如何抓取网站的建议，但Robots Meta指令提供了更为严格的，指导网页爬虫如何抓取和索引页面的内容。有两种类型的Robots Meta 指令：属于HTML页面（如meta robots tag）的部分，以及Web服务器作为HTTP头部（如 x-robots-tag）发送的指令。meta robots tag和x-robots-tag都可以使用相同的参数（即Meta提供的抓取或索引指令，例如上述示例中的“noindex”和“nofollow”），不同的是这些参数如何传递给网页爬虫。 Meta指令提供抓取工具并解释，如何抓取和索引特定网页上的内容，如果这些指令是被机器人搜索到，那幺参数就成为了规範爬虫行为的强有力的建议，但是与robots.txt文件相同，抓取工具不必遵循meta指令，所以可以肯定的是，一些恶意的web机器人可以忽略你的指令。以下是搜索引擎抓取工具在robots meta指令中使用的参数，这些参数不区分大小写，但请注意，有些搜索引擎可能只遵循这些参数的子集，或者可能会略微不同地处理某些指令。参数设定： Noindex: 告诉搜索引擎不要索引该网页。 Index: 告诉搜索引擎索引该网页，不必特意加入此标籤，因为这是预设的。 Follow:即使网页没有被索引，网页爬虫也应该追蹤网页上的所有链接，并将权限传递给连结的网页。 Nofollow: 告诉网页爬虫也不要追蹤网页上的所有链接，并将不可以将权限传递给连结的网页。 Noimageindex: 告诉网页爬虫不要索引该网页上的任何图像。 None:相当于同时使用noindex和nofollow标籤。 Noarchive:搜索引擎不应该在SERP(搜寻结果页面)上显示暂存的连结到这个网页。 Nocache:与noarchive相同，但只用于Internet Explorer和Firefox浏览器。 Nosnippet:告诉搜索引擎不要在SERP(搜寻结果页面)上显示该网页的一个片段（即Meta描述）。 Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的网页描述作为此页面的SERP(搜寻结果页面)片段说明。但是，DMOZ在2017年初关站，这个标籤已经过时了。 Unavailable_after: 搜索引擎不应该在特定的日期之后索引该网页。机器人Meta指令的类型有两种主要类型的机器人Meta指令： meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的参数也可以在x-robots-tag中指定。我们将在下面讨论meta robots tag和 x-robots-tag指令。 Meta robots tag Meta robots tag（俗称“Meta标籤”或“robots 标籤”）是网页HTML代码的一部分，在网页的部分以程式码显示：程式码範例 <meta name="robots" content="[PARAMETER]" > 标籤是标準的设定方式，也可以使用特定使用者代理的名称来替换“robots”做为特定的搜寻。例如，要专门针对Googlebot指定某个指令，您需要使用以下代码： <meta name="googlebot" content="[DIRECTIVE]" > 想要在网页上使用多个Meta指令？只要他们是相同的“机器人”（使用者代理），多个指令可以包含在一个meta指令中 - 只需用逗号分隔即可。这是一个例子： <meta name="robots" content="noimageindex," "nofollow," "nosnippet" > 这个标籤会告诉机器人不要索引网页上的任何图像、任何连结，或者当网页出现在SERP(搜寻结果页面)上时显示网页的说明片段。如果您针对不同的搜索用户代理使用不同的元机器人标籤指令，则需要为每个机器人使用不同的标籤。 X-robots-tag meta robots tag允许您在网页层级控制索引行为，但是x-robots-tag可以作为HTTP表头的一部分并包含在内，以控制整个网页的索引，以及网页的特定元素。儘管您可以使用x-robots-tag来执行与meta robots相同的索引指令，但是x-robots-tag指令提供了更多的灵活性和X-robots-tag所不具备的功能。具体而言，x-robots-tag允许使用正规表达式，在非HTML文件上执行爬行网页指令，并在全局层级使用参数。要使用x-robots-tag，您需要访问您网站的header .php，.htaccess或伺服器文件，从那里，添加您的特定服务器配置的x-robots-tag标记，包括任何参数，此网站提供了一些很好的示例，解说如何使用这三种方式中的其中一种，x-robots-tag的概述。以下是可能会使用到x-robots-tag状况的範例：控制未用HTML撰写的内容的索引（如Flash或视频）。阻止网页特定元素（如图像或影片）的索引，而不是整个网页本身如果您无法访问网页的HTML（特别是部分），或者您的网站使用了无法更改的全局层级标题。添加规则来判断是否应将网页编入索引（例如，如果用户留言了20多次，则将网页编入索引） SEO与robots meta指令的最佳做法所有meta指令（robots或其他）都是在抓取URL时发现的，这意味着，如果robots.txt文件不允许抓取网址，则网页上的任何meta指令（无论是在HTML还是在HTTP header）都将不会被看到，并且将被忽略。在大多数情况下，应该使用带有参数“noindex，follow”的robots meta tag来限制抓取或索引，而不是使用robots.txt文件禁止。需要注意的是，恶意爬虫很可能会完全忽略meta指令，因此这个协议并没有形成一个好的安全机制，如果您有不想公开搜索的隐私讯息，请选择更安全的方法（如密码保护），以防止浏览者查看机密网页。您不需要在同一页面上同时使用Meta robots tag和X-robots-tag - 这样做是多余的。资料来源：https://moz.com/learn/seo/robots-meta-directives

标签： meta 搜索引擎

本文地址： http://www.zhengzhou888seo.com/193.html

Robots Meta 指令

复制成功