JAVA中如何用正则表达式匹配一个新闻网页中的新闻正文? 10

。。。。<divid="article_content"class="article_content">。。。。。。(新闻内容)</div>。。。。。刚好匹配这个对div... 。。。。 <div id="article_content" class="article_content"> 。。。。。。(新闻内容)</div>。。。。。
刚好匹配这个对div之间的内容,并且把其他HTML元素删掉
展开
 我来答
百度网友90999d9
2012-06-16 · TA获得超过486个赞
知道小有建树答主
回答量:172
采纳率:100%
帮助的人:184万
展开全部
首先,要确定新闻内容中,是否含有“</div>”标签,如果含有,那么单纯的正则是无法实现的,因为,正则无法确定标签的配对情况,只能通过程序是实现。
若不含有,正则倒是可以,用:
public static void main(String[] args) {
String html = "";//抓取到的网页内容
Pattern patt = Pattern.compile("<div id=\"article_content\" class=\"article_content\">(.*?)</div>");
Matcher matc = patt.matcher(html);
if(matc.find()){
String temp=matc.group(1).replaceAll("<.*?>","");//获取新闻,且去除所有标签
System.out.println(temp);
}
}
csharpxml
2012-06-23 · TA获得超过590个赞
知道小有建树答主
回答量:371
采纳率:0%
帮助的人:285万
展开全部
String pattern = "article_content\u0022>(.+?)<\\/div>";
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式