您的位置首页百科知识

如何采集孔夫子旧书网书籍数据及图片

如何采集孔夫子旧书网书籍数据及图片

的有关信息介绍如下:

如何采集孔夫子旧书网书籍数据及图片

本经验为大家介绍如何批量采集书籍数据及图片,这个网站比较特殊,详情页的链接需要点击图片才能获取到,如果需要深入采集到详情页的信息,在软件自动识别字段的基础上,可以新建一个字段采集主图图片,然后在提示“当前字段包含URL链接,是否抓取”时点击确定,这样子才能获取到正确的详情页链接,本教程还介绍了如何采集图片到本地,同类的电商网站适用这个图片下载到本地的方法。

步骤一:采集结果预览

步骤二:新建采集任务

1、复制网址

2、新建智能模式采集任务

您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。

步骤三:配置采集规则

1、设置提取数据字段

新建任务输入网址后,软件会自动识别分页及字段,我们可以右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。

字段设置效果如下:

2、使用深入采集功能提取详情页数据

由于我们需要采集更多的信息,因此我们需要右击书籍链接使用“深入采集”功能,跳转到详情页进行采集。

在详情页上,我们可以看到很多的宝贝图片,我们可以选中这个图片,然后在修改字段属性为“提取外部html”,具体操作如下动图所示:

详情页的字段设置效果如下:

步骤四:设置并启动采集任务

步骤五:导出并查看数据