如何java写/实现网络爬虫抓取网页

 我来答
动力节点培训
2017-06-09 · TA获得超过1985个赞
知道大有可为答主
回答量:2339
采纳率:75%
帮助的人:1353万
展开全部
  1. 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

  2. java实现网页源码获取的步骤:

    (1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");

    (2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

    (3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

    (4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式