用nutch-1.2抓取腾讯的新闻网页,为什么下载的网页只有部分内容 50
我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到"#cmt_login"时就没有内容了,怎样修改才能将完整的网页抓下来...
我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到"#cmt_login"时就没有内容了,怎样修改才能将完整的网页抓下来
展开
展开全部
你这个是因为后面的数据都是用js脚本ajax方式加载的吧,源文件估计下不下来的。要用支持ajax的采集器才可以。
另外看到你有成千上百个,还有一点很重要,就是要防止腾讯封你的ip,你访问量大的时候,超过一个人正常的访问,很有可能会被封锁ip。
有啥疑问我都可以帮到你,对网页数据采集我算是混了很多年经验了,你碰到的这些问题我基本都碰到过。呵呵,希望能帮到你。
另外看到你有成千上百个,还有一点很重要,就是要防止腾讯封你的ip,你访问量大的时候,超过一个人正常的访问,很有可能会被封锁ip。
有啥疑问我都可以帮到你,对网页数据采集我算是混了很多年经验了,你碰到的这些问题我基本都碰到过。呵呵,希望能帮到你。
追问
我抓取的是腾讯的新闻类的网页,就算是ajax方式加载的,爬虫也应该都能把文件抓取到本地来吧,就像你在浏览器里打开一个网页,数据不都是加载好了吗?
我看了抓取的网页,都是在要登陆的那个地方没有内容了,不登陆的话在浏览器中也能够看到新闻啊。
我用的是nutch-1.2在抓取数据
追答
这个跟登录没关系,ajax加载的爬虫现在比较牛逼的都是会加载这些数据的,但是你这样保存下来的一般只有源码,里面有javascript
数据时javascript运行后显示在界面上的。所以你用浏览器能看到,你说的这个采集器我没用过哦。不了解,你搜数据农场。看看,他们是专业突破各种防采集措施,我用过这个来采集亚*马逊的商品,很多ajax,比较牛叉能搞定。你参考一下。
展开全部
有些需要模拟登陆在可以抓取的。你要做一下配置。或者对nutch进行二次开发。我都是二次开发之后抓取的。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
直接下载网页不就好了
追问
一个容易下,可是有成千上百个,而且还不知道在哪里?
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询