您的位置首页百科问答

如何利用百度查看网站的Robots协议

如何利用百度查看网站的Robots协议

的有关信息介绍如下:

如何利用百度查看网站的Robots协议

Robots协议,又称作爬虫协议,机器人协议,全名叫做网络爬虫排除标准(Robots Exclusion Protocol),是用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取,通常为一个robots.txt文本文件,一般放在网站的根目录下,小编在这里通过举例子的方式,来向大家说明,如何利用百度这个工具查看 一个网站的Robots文件

方法一:

通过百度网址,进入百度搜索引擎页面(https://www.baidu.com/)

在搜索框里面随便输入你想搜索的信息

如果出现这段文字:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述 - 了解详情”

鼠标移到了解详情,左键单击 --> 进入了解详情页面

可以输入你想要了解的网站的网址

我们在这里输入百度的网址,https://www.baidu.com/,输入之后点击检测

可以看到下面的文本框出现了很多的脚本语言,在这里我们详细解释下他们的意思

User-agent: Baiduspider(描述了搜索爬虫的名称,这里为Baiduspider,代表设置的规则是对百度爬虫是有效的,如果有很多条的User-agent:,就会有多个爬虫会受到限制)

Disallow: /baidu(指定了不允许抓取的目录,如果只为/,则表示不允许抓取所有页面)

注意:其他的测试链接可能还会有 Allow

Allow: /s?(用来排除某些限制,一般是和Disallow一起使用,不会单独使用)

方法二:

浏览器上直接输入:https://ziyuan.baidu.com/robots/index

也可以进入

方法三:

在搜索引擎(https://www.baidu.com/)上,直接搜索百度资源

进入百度资源之后 --> 网站支持 --> 最右边的Robots

进入Robots文件检测页面