求java实现网络爬虫的原理(源代码更好)
最近需要实现一个java网络爬虫,去动态的抓取其他网站的热点新闻,求助于各路java高手......
最近需要实现一个java网络爬虫,去动态的抓取其他网站的热点新闻,求助于各路java高手...
展开
2个回答
2013-12-02
展开全部
复杂的方法就是自己用java的相关类来模拟浏览器下载网页页面,然后使用DOM等技术从下载的网页中获取自己需要的内容。不过强烈建议你使用HttpClient和HttpParse框架来方便地实现网络爬虫功能。其中HttpClient框架主要实现从WEB服务器下载网页数据,功能极其强大。而HttpParse框架则是从网页文件中获取不同标签的内容,功能也很强大,而且使用十分方便,强烈推荐。
展开全部
apache上有个lucence项目,是开源的搜索引擎。 你可以下载一份源代码。 中国还有一个中文网站,还有像lucence in action 这本书到处都可以下载 估计 <a href="https://wenwen.sogou.com/login/redirect?url=www.xunlei.com" target="_blank">www.xunlei.com</a>上就有
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询