如何利用百度查看网站的Robots协议-百问十六

如何利用百度查看网站的Robots协议

的有关信息介绍如下：

如何利用百度查看网站的Robots协议

Robots协议，又称作爬虫协议，机器人协议，全名叫做网络爬虫排除标准（Robots Exclusion Protocol）,是用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取，通常为一个robots.txt文本文件，一般放在网站的根目录下，小编在这里通过举例子的方式，来向大家说明，如何利用百度这个工具查看一个网站的Robots文件

方法一：

通过百度网址，进入百度搜索引擎页面（https://www.baidu.com/）

在搜索框里面随便输入你想搜索的信息

如果出现这段文字：“由于该网站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述 - 了解详情”

鼠标移到了解详情，左键单击 --> 进入了解详情页面

可以输入你想要了解的网站的网址

我们在这里输入百度的网址，https://www.baidu.com/，输入之后点击检测

可以看到下面的文本框出现了很多的脚本语言，在这里我们详细解释下他们的意思

User-agent: Baiduspider（描述了搜索爬虫的名称，这里为Baiduspider，代表设置的规则是对百度爬虫是有效的，如果有很多条的User-agent:，就会有多个爬虫会受到限制）

Disallow: /baidu（指定了不允许抓取的目录，如果只为/，则表示不允许抓取所有页面）

注意：其他的测试链接可能还会有 Allow

Allow: /s?（用来排除某些限制，一般是和Disallow一起使用，不会单独使用）

方法二：

浏览器上直接输入：https://ziyuan.baidu.com/robots/index

也可以进入

方法三：

在搜索引擎（https://www.baidu.com/）上，直接搜索百度资源

进入百度资源之后 --> 网站支持 --> 最右边的Robots

进入Robots文件检测页面