详解如何基于Java用Jsoup爬虫HTML数据

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

秀乞群群
推荐于2016-05-08 · TA获得超过19万个赞

知道顶级答主

回答量：6.7万

采纳率：91%

帮助的人：2.4亿

我也去答题访问个人页

关注

展开全部

1、要爬虫一个html数据在之前可以使用HtmlParser，见链接http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.html 但自从jsoup诞生后，使用比HtmlParser更方面。此处就是利用jsoup解析html的，需要加载lib文件夹下的jsoup-1.7.2.jar、jsoup-1.7.2-sources.jar，自己add to build path即可。
后者是源码，可以查看，真正的包就第一个。
2、jsoup可以直接打开一个网页url，此处为了方便已经写了从url获取string类型的html代码了。所以可以直接利用Document doc = Jsoup.parse(htmlStr); 得到Document类。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

详解如何基于Java用Jsoup爬虫HTML数据

其他类似问题

为你推荐：