关于robots.txt文件

2024-03-02 14:48 小编

Robots协议，亦称爬虫协议或机器人协议，其全称为“网络爬虫排除标准（Robots Exclusion Protocol）”。该协议的作用在于，网站可通过其向搜索引擎指示哪些页面可以被抓取，哪些页面则不可被抓取。

承载此协议的文件即为robots.txt文件。关于robots.txt文件的用途，以及Robots协议该如何编写，以及编写过程中需注意的事项，本文将作出详细阐述。

一、robots.txt文件的含义，robots.txt有什么作用

前面有提到，这个文本文件承载着robots协议，它告诉所有搜索引擎本网站哪些页面可以被抓取，哪些页面禁止抓取。这样做有两方面的意义：

1.保护隐私。有些页面信息不想或者说不能让外界看到，单搜索引擎并不知道这些情况，它还是会照常抓取、展现。如果我们通过设置robots做了限制，搜索引擎蜘蛛就会放弃抓取，外界就不能通过搜索引擎了解到这些隐秘信息。

2.调节页面抓取量。我们都知道每个网站蜘蛛抓取的配额都是有限的，如果我们通过robots.txt文件禁止一些不重要的页面被抓取，那么就节约了配额，让那些重要的页面得到更多的抓取机会。

二、robots.txt文件的写法

robots协议针对的就是允许或者不允许，另外也可以设置具体的搜索引擎，笔者认为正常情况下不用去区分搜索引擎，统一设置即可。

1. 禁止所有搜索引擎访问网站

User-agent: *

Disallow: /

2. 允许所有搜索引擎访问网站

User-agent: *

Allow: /

这是最基本的用法，robots协议的用法还有很多技术。

三、robots.txt文件的位置

放在网站根目录下，在链接url的显示就是：http://www.abc.com/robots.txt，其中www.abc.com就是网站域名。

四、robots文件生成

有朋友提到有没有直接生产robots文件的工具，笔者认为这完全没有必要，robots文件应该手动去具体设置，这样才能发挥robots.txt文件最大的作用。

robots.txt

联络方式：

微信二维码

您感兴趣的内容