现在我有一篇html文档,我想把整个文档除了<p>和<img>的标签都去掉,怎么操作?
1个回答
展开全部
可以使用正则表达式,匹配所有的img和p标签
<img+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>
<p+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*>.*</p>
<img+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>
<p+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*>.*</p>
更多追问追答
追问
不对啊,我用java转换成字符串发现有其他标签还在,比如之类的
追答
看错了,我以为你是想要把和去掉呢,你其实是想提取和标签吧,那么你用Matcher类和Pattern类就可以了
Pattern pattern = Pattern.complain(); // 把和的正则写这里
Matcher matcher = pattern.match(html);
while (matcher.find()) {
System.out.println(matcher.group());
}
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询