robots协议,又称为爬虫协议、机器人协议,简单地可以理解为是网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。就像是一个门禁设置了规则一样,哪些搜索引擎可以进入并访问哪些内容;哪些搜索引擎不可以进入或不可以访问哪些内容。本文分享SEO教程:robots协议。
robots协议其实就是robots.txt文件,放在网站的根目录,申明网站中哪些内容可以被搜索引擎抓取。搜索引擎蜘蛛在访问某一个网站时,会检查该网站的根目录下是否有robots.txt纯文本:
①. 有robots.txt,蜘蛛就会遵守robots.txt申明来确定访问范围;
②. 没有robots.txt,蜘蛛就会访问网站上所有的内容。
《什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?》
1. robots协议如何查看?
在访问网站的域名后面加上“/robots.txt”,即可访问到该站点下的robots协议。
2. robots协议被限制后,如何解除?
有时候我们在操作的过程中错误地将robots协议限制,禁止搜索引擎蜘蛛抓取,那如何快速解除呢?
①. 将robots禁止抓取,修改为允许;
②. 在百度搜索资源平台检测并更新robots协议;
百度搜索资源平台 - 数据监控 - robots - 检测并更新。
③. 在百度搜索资源平台尝试“抓取诊断”。
百度搜索资源平台 - 数据监控 - 抓取诊断 - 输入“robots.txt” - 抓取。
④. 更新sitemap,并重新提交给百度;
百度搜索资源平台 - 链接提交 - sitemap。
⑤. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);
⑥. 到百度反馈中心说明是误操作导致了robots禁封。
3. robots与nofollow有什么区别?
有的小伙伴在某些情况下不清楚是使用robots.txt还是nofollow,推荐阅读《robots与nofollow在实际应用中有什么区别?》。
4. robots协议能禁止抓取死链吗?
在SEO优化过程中难免会产生死链,很多小伙伴采取的方式是使用robots.txt将死链屏蔽掉,但这种方式真的可取吗?May觉得robots协议禁止抓取和屏蔽死链不能混为一谈,robots.txt是告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。如果要是被百度收录了的链接,后来因为某种原因变成了死链,然后使用robots.txt屏蔽掉这条死链?真的可以吗?事实证明即使禁止抓取,但是百度已存的索引却无法删除。最佳的方法就是将死链在百度搜索资源平台后台进行死链提交,然后百度快照投诉,这样才能彻底删除百度收录及索引。因此,建议大家不要使用robots协议来禁止搜索引擎抓取死链。
5. 搜索引擎蜘蛛如何处理robots.txt?
一般说来,几乎所有的主流搜索引擎蜘蛛都会遵循robots协议,当然也会存在并不遵守此协议的蜘蛛。
①. 如果搜索引擎蜘蛛无法找到网站的robots.txt文件,则会继续抓取该网站;
②. 如果搜索引擎蜘蛛找到网站的robots.txt文件,它通常会遵守此协议上的内容并按照要求来抓取该网站;
③. 如果搜索引擎蜘蛛在尝试访问网站robots.txt文件时遇到了错误,但无法确定是否存在,则不会抓取该网站。
1. 手写规则生成
①. 新建一个.txt文档;
②. 手写规则,可以参考《什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?》中规则的写法;
③. 通过FTP上传到网站根目录;
④. 验证是否成功,在域名后面加“robots.txt”,检验是否能成功访问。
2. 站长工具生成
①. 打开站长工具网站 http://tool.chinaz.com;
②. robots文件生成 http://tool.chinaz.com/robots/;
③. 将生成的结果保存到.txt记事本,命名为robots.txt;
④. 通过FTP上传到网站根目录;
⑤. 验证。
3. 其他工具
百度搜索“robots.txt”生成工具。
以上,就是SEO教程:robots协议的全部内容。