求JAVA语言代码:将自己下载的网页(html,mht)转化为纯文本文件,去除页面html标签等,只剩下纯文字信息。

求JAVA语言代码,将自己下载的web页面(html、mht)转化为纯文本文件,也就是在解析web页面的时候,去除页面里面的html标签、图片等等,只剩下纯文字信息。谢谢... 求JAVA语言代码,将自己下载的web页面(html、mht)转化为纯文本文件,也就是在解析web页面的时候,去除页面里面的html标签、图片等等,只剩下纯文字信息。
谢谢各位大大~
展开
 我来答
百度网友1375adc
2010-03-15 · TA获得超过1168个赞
知道小有建树答主
回答量:407
采纳率:0%
帮助的人:443万
展开全部
如果只是几个文件可以用ie打开hrml网页文件,在浏览器内地址栏输入:
JavaScript:document.write(document.body.innerText.replace(/<.*?>/g,""));
就可以只显示文本了。

但是我个人觉得你是想将下载的网页小说、资料等转换为txt的纯文字方便浏览吧。
这个文件是不是很多?那么就需要批量性的转换工具。

留下一个邮箱吧,我将软件发给你,可以大批量转换html为txt文档,还可以将多个文件合并为一个。
zhaoyw_work
2010-03-15 · TA获得超过613个赞
知道小有建树答主
回答量:729
采纳率:100%
帮助的人:523万
展开全部
HTML Parser

开源的,自己查 api 去吧
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式