求java实现网络爬虫的原理(源代码更好)

最近需要实现一个java网络爬虫,去动态的抓取其他网站的热点新闻,求助于各路java高手...... 最近需要实现一个java网络爬虫,去动态的抓取其他网站的热点新闻,求助于各路java高手... 展开
 我来答
匿名用户
2013-12-02
展开全部
复杂的方法就是自己用java的相关类来模拟浏览器下载网页页面,然后使用DOM等技术从下载的网页中获取自己需要的内容。不过强烈建议你使用HttpClient和HttpParse框架来方便地实现网络爬虫功能。其中HttpClient框架主要实现从WEB服务器下载网页数据,功能极其强大。而HttpParse框架则是从网页文件中获取不同标签的内容,功能也很强大,而且使用十分方便,强烈推荐。
戎澈尧萦
2019-09-01 · TA获得超过3841个赞
知道大有可为答主
回答量:3191
采纳率:25%
帮助的人:234万
展开全部
apache上有个lucence项目,是开源的搜索引擎。 你可以下载一份源代码。 中国还有一个中文网站,还有像lucence in action 这本书到处都可以下载 估计 <a href="https://wenwen.sogou.com/login/redirect?url=www.xunlei.com" target="_blank">www.xunlei.com</a>上就有
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式