利用jsoup抓取网页的图文信息,只需要网页上的文章和图片,怎么样同时抓取这两个信息? 10
就是我需要同时抓取文章和图片,因为图片是插入在文章中的,图片我可以只存储url,然后需要存入数据库,是要做成类似这种<p>asjkda</p><imgsrc="a.jpg...
就是我需要同时抓取文章和图片,因为图片是插入在文章中的,图片我可以只存储url,然后需要存入数据库,是要做成类似这种<p>asjkda</p><img src="a.jpg"/><p>salkd</p>的html文档存入数据库吗?怎么实现?
展开
1个回答
展开全部
觉得吧~如果你想抓取网页分页信息可以使用第三方工具进行抓取,但是问题就来了,加入你是要自己程序实现的话,这样就很麻烦。所以建议自己实现比较好。因为分页内容,每一页都有一个特定的链接,而且很相似,就只有那个指定页数的参数不同而已。所以你可以先用遍历方式将每个网页抓取后解析,然后再存起来,这样比较实际点。
但是我建议你可以在客户端也使用分页模式,这样的话,根据需求去获取,就不会一下子请求的数据量太大。
但是我建议你可以在客户端也使用分页模式,这样的话,根据需求去获取,就不会一下子请求的数据量太大。
追问
那我现在可以抓取整个html文档,只留下含有和的部分,如何操作呢?
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询