c# 正则表达式抽取网页问题

原网页部分源码:<divclass="blkContainerSblkCon"id="artibody"><!--publish_helpername='原始正文'p_i... 原网页部分源码:
<div class="blkContainerSblkCon" id="artibody">
<!-- publish_helper name='原始正文' p_id='1' t_id='1' d_id='23736280' f_id='3' -->
<p>  本报讯 据央广新闻报道 卫生部公开<a href="http://news.sina.com.cn/c/p/2011-12-14/023323627445.shtml" target="_blank">征集地沟油检测方法</a>于前天截止,共征集到近300种检测方法。相关负责人表示,公众提供的检测方法是否可行,还需要经过严格的专家验证。</p>
<p>  <strong>检测方法要逐一筛选</strong></p>
<p>  <strong>■ 他山之石</strong></p>
<div style="margin-right: 0px; margin-left: 0pt; padding-right: 0px;" class="blkComment otherContent_01">
<style>
.blkComment p a:link{text-decoration:none}
.blkComment p a:hover{text-decoration:underline}
</style>。。。。后面省略很多难处理的标签
<div>
我想抽取<div class="blkContainerSblkCon" id="artibody">。。。<div>之间的全文:
content = getRegex.GetRegexGroup(newsCode, @"<div\sclass=""blkContainerSblkCon""\sid=""artibody"">(?<content>[^<]*?)<div\sstyle=""margin-right[^<]*""\s*class=""[^<]*"">", "content");
实在看不出什么问题啊!!!
附GetRegexGroup方法:
public string GetRegexGroup(string inputStr, string pattern, string groupName)
{
// \B 不是字边界任意位置
try
{
string returnStr = "";
MatchCollection mc = Regex.Matches(inputStr, pattern, RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
returnStr += m.Groups[groupName].Value;
}
return returnStr;
}
catch (Exception e)
{
return e.Message;
}
}
展开
 我来答
VanSean
2012-01-04
知道答主
回答量:7
采纳率:0%
帮助的人:11.9万
展开全部
把@去掉试试?或者@"<div class="blkContainerSblkCon" id="artibody">...直接输出
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式