火车头采集器如何应用，请大家写出一个一个的步骤O(∩_∩)O谢谢

 我来答

1个回答

匿名用户
2014-04-22

展开全部

1、
首先讲一讲网站结构，通常网站结构为树形结构，一个网站主要包以下几种页面：首页、栏目页、文章页，其结构如下图。

其次讲一讲火车头采集原理，火车头的运行需要一套规则来指定该如何采集所需数据，即需要编写火车头采集规则，编写采集规则也是新手最头痛的问题。

火车头采集器通常通过网址抓取网站返回的源代码，然后在源代码中提取需要的信息。因此，采集数据需要先采集网址，然后再采集数据。

2、
下面开始编写采集规则：

运行LocoyPlatform.exe

3、
在左侧“任务列表树”选择一个分组点击右键，选择“新建任务”弹出新建任务对话框。填写任务名，网站编码一般选择自动即可。

4、
添加起始网址

填写“第一步：采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址，直至获取到内容页的网址。先填写起始网址，通常为目标站首页地址。点击“添加”，在单条网址处填上火车头博客的首页地址，然后依次点击“添加” ->“完成”。

5、
编写“多级网址获取”规则

这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域，先查看起始页地址的源码，找到如图所示代码区域：

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

火车头采集器 如何应用，请大家写出一个一个的步骤O(∩_∩)O谢谢

其他类似问题

为你推荐：

火车头采集器如何应用，请大家写出一个一个的步骤O(∩_∩)O谢谢