7个回答
展开全部
由于题目是放在【编程语言】栏目下的,但没有指定希望使用哪种编程语言,我选择使用java语言来实现。
在Java中,使用HttpURLConnection即可连接URL,随后可以使用InputStreamReader获取网页内容文本。然后,使用正则表达式解析网页内容文本,找到所有的<a>标签即实现需求。
以下是详细代码:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlParser {
/**
* 要分析的网页
*/
String htmlUrl;
/**
* 分析结果
*/
ArrayList<String> hrefList = new ArrayList();
/**
* 网页编码方式
*/
String charSet;
public HtmlParser(String htmlUrl) {
// TODO 自动生成的构造函数存根
this.htmlUrl = htmlUrl;
}
/**
* 获取分析结果
*
* @throws IOException
*/
public ArrayList<String> getHrefList() throws IOException {
parser();
return hrefList;
}
/**
* 解析网页链接
*
* @return
* @throws IOException
*/
private void parser() throws IOException {
URL url = new URL(htmlUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setDoOutput(true);
String contenttype = connection.getContentType();
charSet = getCharset(contenttype);
InputStreamReader isr = new InputStreamReader(
connection.getInputStream(), charSet);
BufferedReader br = new BufferedReader(isr);
String str = null, rs = null;
while ((str = br.readLine()) != null) {
rs = getHref(str);
if (rs != null)
hrefList.add(rs);
}
}
/**
* 获取网页编码方式
*
* @param str
*/
private String getCharset(String str) {
Pattern pattern = Pattern.compile("charset=.*");
Matcher matcher = pattern.matcher(str);
if (matcher.find())
return matcher.group(0).split("charset=")[1];
return null;
}
/**
* 从一行字符串中读取链接
*
* @return
*/
private String getHref(String str) {
Pattern pattern = Pattern.compile("<a href=.*</a>");
Matcher matcher = pattern.matcher(str);
if (matcher.find())
return matcher.group(0);
return null;
}
public static void main(String[] arg) throws IOException {
HtmlParser a = new HtmlParser("http://news.163.com/");
ArrayList<String> hrefList = a.getHrefList();
for (int i = 0; i < hrefList.size(); i++)
System.out.println(hrefList.get(i));
}
}
深圳联雅网络科技有限公司
2020-02-18 广告
2020-02-18 广告
一、申请域名,二、申请空间,三、定位网站,四、分析网站功能和需求(网站策划)。五、网站风格设计,六、网站代码制作,七、测试网站,八、FTP上传网站,九、完善资料,十、网站推广维护,...
点击进入详情页
本回答由深圳联雅网络科技有限公司提供
展开全部
安装一个迅雷。然后在网页任何地方右键 选择使用迅雷下载全部链接!!
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
可以百度LmCjl在线工具,里面就有这个抓取链接的工具。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
可以百度LmCjl在线工具,有这个抓取链接的工具。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询