现在我有一篇html文档,我想把整个文档除了<p>和<img>的标签都去掉,怎么操作?

 我来答
Arvin90
2016-10-23 · TA获得超过452个赞
知道小有建树答主
回答量:297
采纳率:89%
帮助的人:235万
展开全部
可以使用正则表达式,匹配所有的img和p标签
<img+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>
<p+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*>.*</p>
更多追问追答
追问
不对啊,我用java转换成字符串发现有其他标签还在,比如之类的
追答
看错了,我以为你是想要把和去掉呢,你其实是想提取和标签吧,那么你用Matcher类和Pattern类就可以了
Pattern pattern = Pattern.complain(); // 把和的正则写这里
Matcher matcher = pattern.match(html);
while (matcher.find()) {
System.out.println(matcher.group());

}
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式