用java编写 网络爬虫(又称网络蜘蛛)程序,即一个网络搜索引擎。寻求解决办法

本人出学,但是必须要在一周之内写出,今天看了许多相关资料还是毫无头绪,懂得的大侠们给我讲讲吧有没有人懂啊,网上我找了好多,但还是看不懂,根本不知道要从哪里下手,从哪方面开... 本人出学,但是必须要在一周之内写出,今天看了许多相关资料还是毫无头绪,懂得的大侠们给我讲讲吧

有没有人懂啊,网上我找了好多,但还是看不懂,根本不知道要从哪里下手,从哪方面开始做,网上的都很复杂,有没有人简述明白些,如果好我会再追加分的
展开
 我来答
AdanBaron
2014-10-31 · TA获得超过170个赞
知道答主
回答量:73
采纳率:100%
帮助的人:46.5万
展开全部
方法很多,我说一种方法吧。
你可以用HttpClient来获取网页的源码,然后在源码中分别查找每一个链接。
下面这一段代码就可以获取网页的的源码 strURL为网页链接
HttpClient client = new HttpClient();
client.getHttpConnectionManager().getParams().setConnectionTimeout(500);
client.getHttpConnectionManager().getParams().setSoTimeout(500);
method = new PostMethod(strURL);
client.executeMethod(method);
webStatus += method.getStatusLine().getStatusCode()+",";
if(! "200".equals(method.getStatusLine().getStatusCode()+"")){
if(! "".equals(method.getStatusLine().getStatusCode()+""))
return "";
}
InputStream is = method.getResponseBodyAsStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is, currEncoding));
StringBuffer stringBuffer = new StringBuffer();
String str = "";
while ((str = br.readLine()) != null) {
stringBuffer.append(str);
}
content = stringBuffer.toString();

我不知道你还有什么具体的问题,有的继续追问。
追问
你好,就是你想浏览哪个网站,进去之后会根据你的需求把想要的东西全部自动下载到数据库
840129536
2014-10-31 · TA获得超过220个赞
知道小有建树答主
回答量:302
采纳率:100%
帮助的人:222万
展开全部
先使用jsoup 爬取网络资源,再使用solr构建索引,就可以 了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
zhongSuiFa
2014-10-31 · 超过27用户采纳过TA的回答
知道答主
回答量:68
采纳率:0%
帮助的人:28.6万
展开全部
用nutch.改改就是了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式