robots是什么:
robots是网站跟蜘蛛间的协议,当访问站点时,它首先检查机器人是否存在于站点的根目录中。如果找到,蜘蛛就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
一定要注意txt文件必须放在站点的根目录中,文件名必须为小写。
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。因此,机器人的优化将直接影响到搜索引擎对站点的收录。
只有在需要禁止抓取某些内容时,才写robots。一些服务器设置是问题:当机器人文件不存在时,它返回200个状态代码和一些错误消息,而不是404页面,这是因为搜索机器人误读了robots文件信息。
Robots.txt文件的写法
User-agent: *
Disallow: /i*/
Disallow: /a*d/
Disallow: /*.php
Disallow: /*/*.php
Disallow: /*/list*.html
Allow: /img/
Sitemap: https://域名/sitemap.xml
User-agent: *
(注释:这里的*代表所有的搜索引擎种类,*是一个通配符;当然你也可以针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)
Disallow: /i*/
(注释:Disallow为禁止爬行,如果需要禁止蜘蛛爬行images目录,可以写为Disallow: /images/ ;推荐本站采用的写法,Disallow: /i*/,可以在一定程度上提高网站的安全性,如果写成Disallow: /images/可能会暴露网站后台文件路径,特别是管理路径。采用通配符的写法需要注意一点,i*代表所有以w开头的目录。)
Disallow: /a*d/
(注释:禁止爬行所有以字母a开始、以字母d结束的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)
Disallow: /*.php
(注释:禁止爬行根目录下的所有以.php结尾的文件,实际情况可以根据你所使用的网站程序来决定。)
Disallow: /*/*.php
(注释:禁止爬行所有目录下的所有以.php结尾的文件。)
Disallow: /*/list*.html
(注释:网站栏目文章多的时候会有分页,如第1页、第2页……,如果需要禁止爬行分页,假设分页URL为www.xxx.com/news/list_1_32.html,我们可以采取Disallow: /*/list*.html这种写法来禁止爬行所有目录下的所有分页。)
Allow: /img/
(注释:Allow代表允许爬行。Disallow: /i*/为禁止爬行所有以i开头的目录,但是我们需要让蜘蛛爬行img这个目录,可以采用Allow: /img/这种写法。)
还木有评论哦,快来抢沙发吧~