火车头如何自动采集

自动采集小说站,用每天定时爬取源站整站,但是源站数据很多呀,爬整站感觉费时又费力啊,几十万个url,有没有其他更好的思路... 自动采集小说站,用每天定时爬取源站整站,但是源站数据很多呀,爬整站感觉费时又费力啊,几十万个url,有没有其他更好的思路 展开
 我来答
热血CN
2019-07-30
知道答主
回答量:20
采纳率:100%
帮助的人:3.7万
展开全部
说下我做采集的方式哈,我这边主要有两种方式,第一个,常规站点,内容很全,那就先找一个采集源,然后爬取整站数据,注意,这种方式,如果源站小说比较多的话,会非常耗时,按火车头十个进程来计算的话,一个进程可以开十个线程,也就是一个火车头最多可以跑100个线程,平均采集一章大概时间为1秒(加上列表采集所耗时间进行平均),10万本书的站,大概5000万加的章节,数据采集完毕大概需要一周时间,这是在你服务器配置比较好的情况下。然后就是发布,发布不能多线程,那么时间就得翻倍,也就是差不多两个多月时间吧。这也是为什么有人说火车采集小说比较慢的原因了。原始内容采集完了,然后每天就采集更新了,方式如第二点。
那么第二个,就是直接采集每日更新,以前的旧书就不采集了。这样的话,速度会比较快。当时就能用。火车头设置好定时任务,自动触发。
这是火车头采集小说网站的传统方式。
我研究火车头采集一个月,找到一个比较合适的快速采集方式,经多方位,多客户测试,采集10万本书,发布完毕,大概就是两天的时间。
具体时间跟服务器配置有一定的关系,比如,硬盘读写速度快慢、网络带宽(火车头放在服务器上的可以忽略)等,测试2H4G美国服务器,10万本大概两天加几个小时,采集需要花几个小时,发布大概接近两天时间。然后每日定时更新即可。
可百度搜索“九七阅读”查看站点,有书库频道,时间一看就知道了。
易站之家
2020-03-12
知道答主
回答量:23
采纳率:100%
帮助的人:2.5万
展开全部
这有什么费力的 多线程一开 火车头丢那 睡觉去了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
真爱永远在嗨
2019-06-07 · 超过132用户采纳过TA的回答
知道小有建树答主
回答量:527
采纳率:45%
帮助的人:133万
展开全部
6.卞藏本存前十回正文及33-80回回目,卞亦文于2006年在上海以19.8万人民币拍得。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式