JAVA中如何用正则表达式匹配一个新闻网页中的新闻正文? 10
。。。。<divid="article_content"class="article_content">。。。。。。(新闻内容)</div>。。。。。刚好匹配这个对div...
。。。。 <div id="article_content" class="article_content"> 。。。。。。(新闻内容)</div>。。。。。
刚好匹配这个对div之间的内容,并且把其他HTML元素删掉 展开
刚好匹配这个对div之间的内容,并且把其他HTML元素删掉 展开
2个回答
展开全部
首先,要确定新闻内容中,是否含有“</div>”标签,如果含有,那么单纯的正则是无法实现的,因为,正则无法确定标签的配对情况,只能通过程序是实现。
若不含有,正则倒是可以,用:
public static void main(String[] args) {
String html = "";//抓取到的网页内容
Pattern patt = Pattern.compile("<div id=\"article_content\" class=\"article_content\">(.*?)</div>");
Matcher matc = patt.matcher(html);
if(matc.find()){
String temp=matc.group(1).replaceAll("<.*?>","");//获取新闻,且去除所有标签
System.out.println(temp);
}
}
若不含有,正则倒是可以,用:
public static void main(String[] args) {
String html = "";//抓取到的网页内容
Pattern patt = Pattern.compile("<div id=\"article_content\" class=\"article_content\">(.*?)</div>");
Matcher matc = patt.matcher(html);
if(matc.find()){
String temp=matc.group(1).replaceAll("<.*?>","");//获取新闻,且去除所有标签
System.out.println(temp);
}
}
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询