怎么采集淘宝商品评论数据(用爬虫)
的有关信息介绍如下:本经验为大家介绍怎么采集统一关键词下商品评论数据
步骤一:采集结果预览
步骤二:新建采集任务
1、复制网页地址
2、新建流程图模式采集任务
步骤三:配置采集规则
1、使用预登录功能登录网站
由于网站需要登录才能采集到更多的数据,因此我们需要使用预登录功能。
2、输入关键词并进行搜索
我们需要采集到具体关键字下的商品数据,我们选中输入框,在跳转出的提示框内输入文字“外套”。
然后点击搜索,在提示框内选择“点击此元素”按钮。
3、设置搜索列表页字段
在搜索结果页上选中宝贝,然后在提示框内选择“提取全部元素”按钮,去设置列表页上的字段
然后对提取字段进行设置
字段设置效果如下:
4、设置列表页下一页循环
在页面上选中下一页,在操作提示框内点击“循环下一页”按钮。
5、设置详情页提取数据字段
由于我们需要采集每个宝贝具体的评论,在列表页上的数据字段设置完毕之后,我们需要点击进入详情页去采集字段,在操作提示框内选中“依次点击元素”按钮。
在详情页上,我们需要采集的数据,然后在提示框内点击“提取该元素”按钮。
字段采集效果如下:
6、点击评论进行字段提取并设置循环
详情页上的字段采集完毕后,我们需要采集宝贝评论,我们点击评论按钮,在操作提示框内选择“点击该元素”按钮。
然后点击网页上的评论数据,在提示框内选择“提取全部元素”去提取评论数据。
字段设置效果如下:
单页的评论设置完毕之后,我们需要设置下一页的循环,我们点击下一页然后在提示框内选择“循环下一页”按钮。
下一页的循环设置完毕之后,我们可以看到出现了两个循环嵌套,由于循环之间的逻辑是包含与被包含,不是并列的关系,因此我们需要把评论的这个循环拖动到原先的循环内,拖动过程如下动图所示:
7、整体组件结果如下所示:
步骤四:设置并启动采集任务
步骤五:导出并查看数据