java 爬虫 抽取 解析。 比如我有N个新闻网址,我隔一会就重新抓取页面一次 10

然而现在有一个问题,就是N个新闻网址的页面结构是不一样的,我如何用一套代码实现兼容所有的页面格式,请大神赐教,或者告诉我下方案也行!谢谢... 然而现在有一个问题,就是N个新闻网址的页面结构是不一样的,我如何用一套代码实现兼容所有的页面格式,请大神赐教,或者告诉我下方案也行!谢谢 展开
 我来答
yugi111
2017-07-20 · TA获得超过8.1万个赞
知道大有可为答主
回答量:5.1万
采纳率:70%
帮助的人:1.3亿
展开全部
那要找找你的那些N个新闻页面的内容htmldom结构是不是有统一的规则而言啊

才能给你代码啊

要直接给代码那是不可能的啊

就算是爬虫,也要睁着眼睛爬啊,不能闭着眼睛啊
追问
现在新闻页面已经抓到本地,比如百度新闻、网易新闻、360新闻这些主流的新闻媒体可以单独的为其做一套抽取并且结构化的程序,但是如果说大点是全网覆盖所有新闻媒体网站,总不能每一个大小新闻网站都要写一套吧,主要是这点我不太明白,不知道有没有其他语言或者什么解决方法
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式