求JAVA语言代码:将自己下载的网页(html,mht)转化为纯文本文件,去除页面html标签等,只剩下纯文字信息。
求JAVA语言代码,将自己下载的web页面(html、mht)转化为纯文本文件,也就是在解析web页面的时候,去除页面里面的html标签、图片等等,只剩下纯文字信息。谢谢...
求JAVA语言代码,将自己下载的web页面(html、mht)转化为纯文本文件,也就是在解析web页面的时候,去除页面里面的html标签、图片等等,只剩下纯文字信息。
谢谢各位大大~ 展开
谢谢各位大大~ 展开
2个回答
展开全部
如果只是几个文件可以用ie打开hrml网页文件,在浏览器内地址栏输入:
JavaScript:document.write(document.body.innerText.replace(/<.*?>/g,""));
就可以只显示文本了。
但是我个人觉得你是想将下载的网页小说、资料等转换为txt的纯文字方便浏览吧。
这个文件是不是很多?那么就需要批量性的转换工具。
留下一个邮箱吧,我将软件发给你,可以大批量转换html为txt文档,还可以将多个文件合并为一个。
JavaScript:document.write(document.body.innerText.replace(/<.*?>/g,""));
就可以只显示文本了。
但是我个人觉得你是想将下载的网页小说、资料等转换为txt的纯文字方便浏览吧。
这个文件是不是很多?那么就需要批量性的转换工具。
留下一个邮箱吧,我将软件发给你,可以大批量转换html为txt文档,还可以将多个文件合并为一个。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询