nutch怎样解析html文件,提取html文件中需要的信息
最近在看nutch1.2的源码,因为默认的html解析器从html文件中提取的文本信息有很多不想要的东西。我想修改解析html文件的源码,或者重写,只提取一个网页中的正文...
最近在看nutch1.2的源码,因为默认的html解析器从html文件中提取的文本信息有很多不想要的东西。我想修改解析html文件的源码,或者重写,只提取一个网页中的正文内容,但是不知道具体代码位置
求大神出来帮忙! 展开
求大神出来帮忙! 展开
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询