nutch怎样解析html文件,提取html文件中需要的信息

最近在看nutch1.2的源码,因为默认的html解析器从html文件中提取的文本信息有很多不想要的东西。我想修改解析html文件的源码,或者重写,只提取一个网页中的正文... 最近在看nutch1.2的源码,因为默认的html解析器从html文件中提取的文本信息有很多不想要的东西。我想修改解析html文件的源码,或者重写,只提取一个网页中的正文内容,但是不知道具体代码位置
求大神出来帮忙!
展开
 我来答
叶紫凝360
2013-02-26
知道答主
回答量:4
采纳率:0%
帮助的人:3万
展开全部
这个悬赏分好高啊,有没有人知道呢,大神们!
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式