火车采集器分页怎么过滤网址重复

 我来答
科普小点子
2016-09-08 · 专注国内各媒体广告投放
科普小点子
采纳数:647 获赞数:1423

向TA提问 私信TA
展开全部
采集的网址重复,可以尝试用八爪鱼采集器去采集一下,八爪鱼会自动筛重。
有两个原因会导致这个情况:
1.采集的网页使用了Ajax技术,所以会重复采集到相同的网址;
2.采集的翻页设置出错,导致的重复采集;
解决方法:
1.在采集规则中设置好八爪鱼Ajax加载的时间,在去采集使用了AJax技术的网页;
2.可以使用八爪鱼中的XPATH工具来定位页面中翻页的按钮。
数阔八爪鱼采集器丨RPA机器人
2023-07-21 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
重复数据定义:两条数据的所有字段的内容都是一样的,那么软件就会判断这两条数据是重复的。云采集的数据在导入云服务器的数据库中时会自动去重,所以用户查看到的和导出的云采集数据都是不重复的。本地采集的数据可在导出时,会有弹窗提示是否去重,用户根据需要选择即可。另外八爪鱼也有自带的根据字段去重的功能,可以自己设置根据提取的某个字段去判定数据重复而选择去重。八爪鱼为用户准备了一系列简洁易懂的教程,帮助大家快速掌握采集技巧,轻松应对各类网站数据采集,请前往官网教程与帮助了解更多详细信息。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式