如何使用火车头采集器采集网页图片详细图文教程 10

 我来答
护肤达人IT宅族
推荐于2016-02-08 · 知道合伙人互联网行家
护肤达人IT宅族
知道合伙人互联网行家
采纳数:5637 获赞数:17441
毕业于曲阜师范大学,学士学位。互联网行业2年从业经验,读过SEO相关书籍。现任爱家网SEO优化专员。

向TA提问 私信TA
展开全部
  火车头采集器采集信息分两个步骤:
  1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。
  2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。
  1,采网址。
  网页上的产品信息就是所想采的,即为目标。
  在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。

  然后点击测试按钮测试所填信息的正确性:
  测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。

  2,内容的采集
  经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。
  明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:
  找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取<span>Description:</span>作为开始字符串,</span>为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。
  填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。
  这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:<li id="current">(*)Compare Prices(*)<a href="[参数]" onClick="(*)">Product Details,填入模块,并测试是否成功。
  如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。
  这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。
  这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。
镭速传输
2024-10-28 广告
深圳市云语科技有限公司专注于高效数据传输解决方案,我们开发的大文件传输软件,以用户体验为核心,支持高速、稳定的大文件分享与同步。无论是高清视频、大型项目文件还是海量数据集,都能轻松实现秒传与远程协作,极大提升工作效率。软件界面友好,操作简便... 点击进入详情页
本回答由镭速传输提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式