急求C#正则表达式取网址列表,匹配html
已用C#取出列表格式:<atitle='标题'href="网址"target="_blank">标题</a><atitle='标题'href="网址"target="_b...
已用C#取出列表格式: <a title='标题' href="网址" target="_blank">标题</a><a title='标题' href="网址" target="_blank">标题</a><a title='标题' href="网址" target="_blank">标题</a><a title='标题' href="网址" target="_blank">标题</a><a title='标题' href="网址" target="_blank">标题</a>
1. 求正则表达式匹配html:取出其中的全部网址,只要网址;
2. 求正则表达式匹配标题:可以取出所有的标题。
本人学习写网页采集程序,急求。第一个必须帮忙拿下,第二个可以缓些。
一个小时帮忙解决加100财富值。谢啦!
public static ArrayList GetHtmlHrefTagALL(string htmlStr)
{ ArrayList arrlHref = new ArrayList();
string exp = @"<a\s+title='([^']+)'\s+href=""([^""]+)""" ;
Regex regex = new Regex(exp, RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(htmlStr);
for (int i = 0; i < mc.Count; i++)
{ Regex regObj = new Regex("http://.+.(?:jpg|gif|bmp|png|jpeg)", RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection picMCol = regObj.Matches(mc[i].ToString());
if (picMCol.Count == 0)
arrlHref.Add(mc[i].Groups["uri"].Value + "~" + mc[i].Groups["title"].Value);
}
return arrlHref;
}
htmlstr="<a title='标题' href=\"标题\" target=\"_blank\">标题</a>"
我试了取不到,帮我看看,谢谢哦。这是一朋友的程序,我编程水平很差,呵呵 展开
1. 求正则表达式匹配html:取出其中的全部网址,只要网址;
2. 求正则表达式匹配标题:可以取出所有的标题。
本人学习写网页采集程序,急求。第一个必须帮忙拿下,第二个可以缓些。
一个小时帮忙解决加100财富值。谢啦!
public static ArrayList GetHtmlHrefTagALL(string htmlStr)
{ ArrayList arrlHref = new ArrayList();
string exp = @"<a\s+title='([^']+)'\s+href=""([^""]+)""" ;
Regex regex = new Regex(exp, RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(htmlStr);
for (int i = 0; i < mc.Count; i++)
{ Regex regObj = new Regex("http://.+.(?:jpg|gif|bmp|png|jpeg)", RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection picMCol = regObj.Matches(mc[i].ToString());
if (picMCol.Count == 0)
arrlHref.Add(mc[i].Groups["uri"].Value + "~" + mc[i].Groups["title"].Value);
}
return arrlHref;
}
htmlstr="<a title='标题' href=\"标题\" target=\"_blank\">标题</a>"
我试了取不到,帮我看看,谢谢哦。这是一朋友的程序,我编程水平很差,呵呵 展开
4个回答
展开全部
(?<=href=")(?<wz>.*?)(?=")循序时用Group["wz"]就是你要的网址
同理
(?<=title=")(?<bt>.*?)(?=")循序时用Group["bt"]就是你要的标题
或者:
<a.*?title='(?<bt>(.|\n)*?)'(.|\n)*?href="(?<wz>(.|\n)*?)"
循环用:
Group["wz"]就是你要的网址
Group["bt"]就是你要的标题
使用:
Regex r = new Regex("<a.*?title='(?<bt>(.|\n)*?)'(.|\n)*?href=\"(?<wz>(.|\n)*?)\"",RegexOptions.Compiled | RegexOptions.IgnoreCase);
string str = "<a title='标题1' href=\"网址1\" target=\"_blank\">标题1</a><a title='标题2' href=\"网址2\" target=\"_blank\">标题2</a><a title='标题3' href=\"网址3\" target=\"_blank\">标题3</a><a title='标题4' href=\"网址4\" target=\"_blank\">标题4</a><a title='标题5' href=\"网址5\" target=\"_blank\">标题5</a>";
string title = string.Empty;
string url = string.Empty;
if(r.IsMatch(str))
{
foreach(Match item in r.Matchs(str)
{
title = item.Groups["bt"].Value;
url = item.Groups["wz"].Value;
}
}
同理
(?<=title=")(?<bt>.*?)(?=")循序时用Group["bt"]就是你要的标题
或者:
<a.*?title='(?<bt>(.|\n)*?)'(.|\n)*?href="(?<wz>(.|\n)*?)"
循环用:
Group["wz"]就是你要的网址
Group["bt"]就是你要的标题
使用:
Regex r = new Regex("<a.*?title='(?<bt>(.|\n)*?)'(.|\n)*?href=\"(?<wz>(.|\n)*?)\"",RegexOptions.Compiled | RegexOptions.IgnoreCase);
string str = "<a title='标题1' href=\"网址1\" target=\"_blank\">标题1</a><a title='标题2' href=\"网址2\" target=\"_blank\">标题2</a><a title='标题3' href=\"网址3\" target=\"_blank\">标题3</a><a title='标题4' href=\"网址4\" target=\"_blank\">标题4</a><a title='标题5' href=\"网址5\" target=\"_blank\">标题5</a>";
string title = string.Empty;
string url = string.Empty;
if(r.IsMatch(str))
{
foreach(Match item in r.Matchs(str)
{
title = item.Groups["bt"].Value;
url = item.Groups["wz"].Value;
}
}
追问
您好,您写的也不错,怎么给你分儿啊?
追答
分无所谓,只要您的问题解决即可,
祝您生活愉快!
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
string str = "<a title='标题1' href=\"网址1\" target=\"_blank\">标题1</a><a title='标题2' href=\"网址2\" target=\"_blank\">标题2</a><a title='标题3' href=\"网址3\" target=\"_blank\">标题3</a><a title='标题4' href=\"网址4\" target=\"_blank\">标题4</a><a title='标题5' href=\"网址5\" target=\"_blank\">标题5</a>";
Regex title = new Regex(@"(?<=title=('|""))(?<title>.*?)(?=('|""))", RegexOptions.IgnoreCase);
Regex href = new Regex(@"(?<=href=('|""))(?<web>.*?)(?=('|""))", RegexOptions.IgnoreCase);
MatchCollection matches = title.Matches(str);
MatchCollection matches2 = href.Matches(str);
foreach (Match match in matches)
{
string strTitle = match.Groups["title"].ToString();
}
foreach (Match match in matches2)
{
string strHref = match.Groups["web"].ToString();
}
Regex title = new Regex(@"(?<=title=('|""))(?<title>.*?)(?=('|""))", RegexOptions.IgnoreCase);
Regex href = new Regex(@"(?<=href=('|""))(?<web>.*?)(?=('|""))", RegexOptions.IgnoreCase);
MatchCollection matches = title.Matches(str);
MatchCollection matches2 = href.Matches(str);
foreach (Match match in matches)
{
string strTitle = match.Groups["title"].ToString();
}
foreach (Match match in matches2)
{
string strHref = match.Groups["web"].ToString();
}
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2017-10-01
展开全部
stringstr="标题1标题2标题3标题4标题5";Regextitle=newRegex(@"(?
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询