java 对爬取到的N个新闻页面如何做统一解析，最终拿到新闻标题和内容，因为页面布局可能不一样 10

有个需求是想对全网（其实是很多已经录入系统的网址，最少几万个）新闻进行抓取，最终抽取到标题和内容保存，网页抓取可以实现，但是用什么办法可以对所有抓到的页面进行统一抽取，不... 有个需求是想对全网（其实是很多已经录入系统的网址，最少几万个）新闻进行抓取，最终抽取到标题和内容保存，网页抓取可以实现，但是用什么办法可以对所有抓到的页面进行统一抽取，不太明白，有没有高手指点下，或者推荐下解决方案展开

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

dreamseaKIK
2017-07-21 · TA获得超过670个赞

知道小有建树答主

回答量：463

采纳率：81%

帮助的人：185万

我也去答题访问个人页

关注

展开全部

新闻页面不一样，那么布局就很可能不一样。你想统一处理，这个很难。

两种方案：

每个页面，外部传入标题，正文的xpath或者css path这样你根据传入的参数就可以动态抽取了，对于你来说就是统一处理，代码写起来简单。缺点就是上万个网站需要一一配置，很烦。
就是写一个新闻正文和标题自动抽取的算法，目前网上有不少这样的算法，有根据字数最多的一段内容来算的，有根据HTML标签来计算的等等，这样既不用外部手动配置，也不用你分开处理。缺点，既然是算法自动抽取，那么存在一个准确率的问题，没法保证100%正确，毕竟HTML的使用太灵活了，各种用法都有。

本回答被网友采纳

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

java 对爬取到的N个新闻页面如何做统一解析，最终拿到新闻标题和内容，因为页面布局可能不一样 10

其他类似问题

为你推荐：