如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中

就是对html文件的一种预处理,做搜索引擎索引那块要用到的... 就是对html文件的一种预处理,做搜索引擎索引那块要用到的 展开
 我来答
山水阿锐
2015-04-13 · TA获得超过34.3万个赞
知道顶级答主
回答量:23.7万
采纳率:91%
帮助的人:3.2亿
展开全部
您好,您这样:提取链接的标签文本和url地址
将Html文件代码传入string参数s,代码如下州哪兄:

private void Reg_A_Href(string s)
{
string str = s;
Regex re = new Regex(@"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""缓铅]+)"册袭"|(?<href>[^>\s]+))\s*[^>]*>(?<text>.*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Singleline);

MatchCollection mc = re.Matches(str);
Console.WriteLine(mc.Count);
foreach (Match m in mc)
{
info_Add("[href] " + m.Groups["href"].Value);
info_Add("[text] " + m.Groups["text"].Value);
Console.WriteLine("{0}:{1}", m.Groups["href"].Value, m.Groups["text"].Value);
}

}
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式