Robots其实指的是robots协议(又称爬虫协议、机器人协议),全称是“爬虫排除标准”。网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么呢?如何编写robots协议以及注意事项将在今天的这篇文章中向您详细介绍。

一、robots.txt文件的含义,robots.txt的作用是什么?

如前所述,这个文本文件带有robots协议,它告诉所有搜索引擎这个网站的哪些页面可以被抓取,哪些页面禁止被抓取。这有两层意思:

1、保护隐私。

有些目录或页面不希望或不能被外界看到。搜索引擎可能不知道这些情况,但还是会照常抓取和显示这些页面。可以通过robots设置限制,搜索引擎蜘蛛就会放弃抓取,外界也不会通过搜索引擎知道这些机密信息。

robots协议是什么意思?插图

2、调整抓取网页面的数量。

众所周知,各个网站蜘蛛抓取的配额是有限的。如果我们禁止一些不重要的页面被抓取,那么把配额留给那些重要的页面,就会有更多的机会被抓取。

二、robots.txt文件的编写

Robots协议还可以设置特定的搜索引擎进行许可或禁止。其实一般情况下,并不需要区分搜索引擎,而是统一设置抓取权限。

1、禁止所有搜索引擎访问网站。

User-agent: *

Disallow: /

2、允许所有搜索引擎访问网站

User-agent: *

Allow: /

3、所有的蜘蛛都被禁止访问网站的某个目录。

User-agent:*

Disallow: /test/

这是最基本的用法。robots协议有很多技巧。我建议你仔细阅读它的协议。

三、与robots.txt文件相关的注意事项

有站长说我的网站没有禁止抓取的页面,所以不需要设置robots文件。这在理论上行得通。不过我建议即使网站完全开放,也最好建立一个robots文件,比如我的网站的件:http://www.70zyw.cn/robots.txt,一般放在网站的根目录下。