有什么办法可以将图片的URL地址采集下来?
直接用八爪鱼采集器就可以了。
随着瀑布流网站、AJAX网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活,有些企业或
个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集,下面,八妹子就来介绍下,遇到这类型网站时我们要如何使用八爪鱼采集器来快速收集数
据。
我们以“韩国东大门”这个网站为例,来说明下图片采集要如何实现。先来看下这个网站的特殊之处,首先,页面上的图片不是一次加载完成,而需要滚动多次才会
滚动到底部,这类型的网站像新浪微博也是类似情况,当然也有的瀑布流网站是一直加载无法见底的,这种情况八妹子会在别的文章来单独介绍,在此不赘述。其
次,产品详情页不能通过点击标题进入,而需要点击图片才能进入。
针对以上两点问题,在使用八爪鱼采集器采集图片等信息的时候,在设置规则的时候需要注意以下几点:
1、
打开网页的时候,需要设置AJAX网页加载,以便确保数据采集的时候不会遗漏,像东大门这个示范站,我们实际滚动大约需要4次,所以我们在AJAX加载到
底部,滚动次数可以设置为4次或5次均可,次数可以适当的比实际的滚动次数稍微多一两次!
2、
由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项,如下图所示,我们需要点击A标签取到图片的链
接地址,并以此链接为循环列表,添加元素到列表的时候,每次都需要点击A标签,2-3次添加之后系统会将所有选中的图片链接自动读取出来。
3、
采集图片的URL,按第二步的操作进入到详情页后,就是提取数据了,对于产品名称和价格,都是文本形式,提取非常简单,而对于图片,会需要先采集到图片本
身的URL,再进行转换,采集办法如下图所示,选中图片后,在弹出的对话框中可选中IMG标签,选择图片的超链接进行采集。
4、 设置完成后,保存,来看下采集的战果!URL、产品名称、价格均已采集下来,我们导出为EXCEL格式的文件。
5、 将图片的URL转换为图片批量下载下来,相关的工具再八爪鱼数据采集器论坛可以免费下载。将URL地址导入工具即可将图片转换下来!
经过以上简单的5步,AJAX网页上的瀑布流图片就轻松采集下来了,当然,如果你要进行多页采集,只需要再第2步的设置一次翻页循环即可,翻页循环的相关视频教程可直接点击查看。
谢谢大神,讲的好详细,看起来操作挺简单的