如何使用Java语言实现一个网页爬虫

 我来答
匿名用户
2016-12-02
展开全部
我给你代码
public class DEmo {
public static void match(String s1) {
Pattern p = Pattern.compile("<a(.*)>.*</a>");
Matcher m = p.matcher(s1);
while (m.find()) {
System.out.println(m.group(1));
}
}

public static void main(String args[]) {
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try {
// 生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
url = new URL("http://www.jb51.net/article/97787.htm");
// 打开URL
urlConnection = (HttpURLConnection) url.openConnection();
// 获取服务器响应代码
responsecode = urlConnection.getResponseCode();
String temp = "";
if (responsecode == 200) {
// 得到输入流,即获得了网页的内容
reader = new BufferedReader(new InputStreamReader(
urlConnection.getInputStream(), "GBK"));
while ((line = reader.readLine()) != null) {
temp = temp + line;
}
System.out.println(temp);
match(temp);

} else {
System.out.println("获取不到网页的源码,服务器响应代码为:" + responsecode);
}
} catch (Exception e) {
System.out.println("获取不到网页的源码,出现异常:" + e);
}

}
}
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式