利用jsoup抓取网页的图文信息,只需要网页上的文章和图片,怎么样同时抓取这两个信息? 10

就是我需要同时抓取文章和图片,因为图片是插入在文章中的,图片我可以只存储url,然后需要存入数据库,是要做成类似这种<p>asjkda</p><imgsrc="a.jpg... 就是我需要同时抓取文章和图片,因为图片是插入在文章中的,图片我可以只存储url,然后需要存入数据库,是要做成类似这种<p>asjkda</p><img src="a.jpg"/><p>salkd</p>的html文档存入数据库吗?怎么实现? 展开
 我来答
kolfm0k
2016-10-18 · TA获得超过123个赞
知道小有建树答主
回答量:417
采纳率:0%
帮助的人:251万
展开全部
觉得吧~如果你想抓取网页分页信息可以使用第三方工具进行抓取,但是问题就来了,加入你是要自己程序实现的话,这样就很麻烦。所以建议自己实现比较好。因为分页内容,每一页都有一个特定的链接,而且很相似,就只有那个指定页数的参数不同而已。所以你可以先用遍历方式将每个网页抓取后解析,然后再存起来,这样比较实际点。
但是我建议你可以在客户端也使用分页模式,这样的话,根据需求去获取,就不会一下子请求的数据量太大。
追问
那我现在可以抓取整个html文档,只留下含有和的部分,如何操作呢?
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式