用nutch-1.2抓取腾讯的新闻网页,为什么下载的网页只有部分内容 50

我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到"#cmt_login"时就没有内容了,怎样修改才能将完整的网页抓下来... 我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到"#cmt_login"时就没有内容了,怎样修改才能将完整的网页抓下来 展开
 我来答
keven1006
2013-02-26 · TA获得超过684个赞
知道小有建树答主
回答量:820
采纳率:66%
帮助的人:372万
展开全部
你这个是因为后面的数据都是用js脚本ajax方式加载的吧,源文件估计下不下来的。要用支持ajax的采集器才可以。
另外看到你有成千上百个,还有一点很重要,就是要防止腾讯封你的ip,你访问量大的时候,超过一个人正常的访问,很有可能会被封锁ip。
有啥疑问我都可以帮到你,对网页数据采集我算是混了很多年经验了,你碰到的这些问题我基本都碰到过。呵呵,希望能帮到你。
追问
我抓取的是腾讯的新闻类的网页,就算是ajax方式加载的,爬虫也应该都能把文件抓取到本地来吧,就像你在浏览器里打开一个网页,数据不都是加载好了吗?
我看了抓取的网页,都是在要登陆的那个地方没有内容了,不登陆的话在浏览器中也能够看到新闻啊。
我用的是nutch-1.2在抓取数据
追答
这个跟登录没关系,ajax加载的爬虫现在比较牛逼的都是会加载这些数据的,但是你这样保存下来的一般只有源码,里面有javascript
数据时javascript运行后显示在界面上的。所以你用浏览器能看到,你说的这个采集器我没用过哦。不了解,你搜数据农场。看看,他们是专业突破各种防采集措施,我用过这个来采集亚*马逊的商品,很多ajax,比较牛叉能搞定。你参考一下。
百度网友ac64efc
2013-02-28 · TA获得超过107个赞
知道答主
回答量:77
采纳率:0%
帮助的人:25.2万
展开全部
有些需要模拟登陆在可以抓取的。你要做一下配置。或者对nutch进行二次开发。我都是二次开发之后抓取的。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
914256750
2013-02-26 · TA获得超过261个赞
知道答主
回答量:429
采纳率:0%
帮助的人:126万
展开全部
直接下载网页不就好了
追问
一个容易下,可是有成千上百个,而且还不知道在哪里?
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式