c# 正则表达式抽取网页问题
原网页部分源码:<divclass="blkContainerSblkCon"id="artibody"><!--publish_helpername='原始正文'p_i...
原网页部分源码:
<div class="blkContainerSblkCon" id="artibody">
<!-- publish_helper name='原始正文' p_id='1' t_id='1' d_id='23736280' f_id='3' -->
<p> 本报讯 据央广新闻报道 卫生部公开<a href="http://news.sina.com.cn/c/p/2011-12-14/023323627445.shtml" target="_blank">征集地沟油检测方法</a>于前天截止,共征集到近300种检测方法。相关负责人表示,公众提供的检测方法是否可行,还需要经过严格的专家验证。</p>
<p> <strong>检测方法要逐一筛选</strong></p>
<p> <strong>■ 他山之石</strong></p>
<div style="margin-right: 0px; margin-left: 0pt; padding-right: 0px;" class="blkComment otherContent_01">
<style>
.blkComment p a:link{text-decoration:none}
.blkComment p a:hover{text-decoration:underline}
</style>。。。。后面省略很多难处理的标签
<div>
我想抽取<div class="blkContainerSblkCon" id="artibody">。。。<div>之间的全文:
content = getRegex.GetRegexGroup(newsCode, @"<div\sclass=""blkContainerSblkCon""\sid=""artibody"">(?<content>[^<]*?)<div\sstyle=""margin-right[^<]*""\s*class=""[^<]*"">", "content");
实在看不出什么问题啊!!!
附GetRegexGroup方法:
public string GetRegexGroup(string inputStr, string pattern, string groupName)
{
// \B 不是字边界任意位置
try
{
string returnStr = "";
MatchCollection mc = Regex.Matches(inputStr, pattern, RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
returnStr += m.Groups[groupName].Value;
}
return returnStr;
}
catch (Exception e)
{
return e.Message;
}
} 展开
<div class="blkContainerSblkCon" id="artibody">
<!-- publish_helper name='原始正文' p_id='1' t_id='1' d_id='23736280' f_id='3' -->
<p> 本报讯 据央广新闻报道 卫生部公开<a href="http://news.sina.com.cn/c/p/2011-12-14/023323627445.shtml" target="_blank">征集地沟油检测方法</a>于前天截止,共征集到近300种检测方法。相关负责人表示,公众提供的检测方法是否可行,还需要经过严格的专家验证。</p>
<p> <strong>检测方法要逐一筛选</strong></p>
<p> <strong>■ 他山之石</strong></p>
<div style="margin-right: 0px; margin-left: 0pt; padding-right: 0px;" class="blkComment otherContent_01">
<style>
.blkComment p a:link{text-decoration:none}
.blkComment p a:hover{text-decoration:underline}
</style>。。。。后面省略很多难处理的标签
<div>
我想抽取<div class="blkContainerSblkCon" id="artibody">。。。<div>之间的全文:
content = getRegex.GetRegexGroup(newsCode, @"<div\sclass=""blkContainerSblkCon""\sid=""artibody"">(?<content>[^<]*?)<div\sstyle=""margin-right[^<]*""\s*class=""[^<]*"">", "content");
实在看不出什么问题啊!!!
附GetRegexGroup方法:
public string GetRegexGroup(string inputStr, string pattern, string groupName)
{
// \B 不是字边界任意位置
try
{
string returnStr = "";
MatchCollection mc = Regex.Matches(inputStr, pattern, RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
returnStr += m.Groups[groupName].Value;
}
return returnStr;
}
catch (Exception e)
{
return e.Message;
}
} 展开
1个回答
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询