java正则表达式从Html文件中提取正文内容

html文件已经转换为txt文件,读写操作都已经实现了... html文件已经转换为txt文件,读写操作都已经实现了 展开
 我来答
dreamseaKIK
2015-04-14 · TA获得超过670个赞
知道小有建树答主
回答量:463
采纳率:81%
帮助的人:180万
展开全部
就要看你的正文内容是在那个标签元素下面了,关于HTML页面的解析,推荐用xpath处理
追问
xpath怎么处理?
追答
首先你要确定你的正文的位置,如在某个DIV下的所有文本是正文,那么你就可以用xpath定位到这个元素,抽取它的文本。
具体怎么定位,xpath有一套固定的语法规则能表示要抽取的规则,类似CSS的选择器的写法
你可以网上搜一下
java对xpath也有支持的,可以查看相关包的说明
http://www.jb51.net/article/37862.htm这是相关介绍你可以看看,希望对你有帮助
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式