如何采集孔夫子旧书网书籍数据及图片
的有关信息介绍如下:本经验为大家介绍如何批量采集书籍数据及图片,这个网站比较特殊,详情页的链接需要点击图片才能获取到,如果需要深入采集到详情页的信息,在软件自动识别字段的基础上,可以新建一个字段采集主图图片,然后在提示“当前字段包含URL链接,是否抓取”时点击确定,这样子才能获取到正确的详情页链接,本教程还介绍了如何采集图片到本地,同类的电商网站适用这个图片下载到本地的方法。
步骤一:采集结果预览
步骤二:新建采集任务
1、复制网址
2、新建智能模式采集任务
您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。
步骤三:配置采集规则
1、设置提取数据字段
新建任务输入网址后,软件会自动识别分页及字段,我们可以右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。
字段设置效果如下:
2、使用深入采集功能提取详情页数据
由于我们需要采集更多的信息,因此我们需要右击书籍链接使用“深入采集”功能,跳转到详情页进行采集。
在详情页上,我们可以看到很多的宝贝图片,我们可以选中这个图片,然后在修改字段属性为“提取外部html”,具体操作如下动图所示:
详情页的字段设置效果如下:
步骤四:设置并启动采集任务
步骤五:导出并查看数据