
爬虫框架都有什么?
7个回答
展开全部
以前写爬虫都是用java,都是自己手写,java里面相对webmagic来说,算是一个比较好的爬虫框架了,文档各个方面也都比较详细,那python里的scrapy 也是一样,感觉这两个框架还是有比较相似的设计思想在里面。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2020-08-25 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者
关注

展开全部
Scrapy:一个为了爬取网站数据,提取结构性数据而编写的应用框架。应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。是很强大的爬虫框架,可以满足简单的页面爬取。
Crawley:高速爬取对应网站内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。
Portia:开源可视化爬虫工具,使用者在不需要任何编程知识的情况下爬取网站,简单的注释自己感兴趣的页面,创建一个蜘蛛来从类似的页面提取数据。
newspaper:可以用来提取新闻、文章和内容分析。使用多线程、支持10多种语言。
python-goose:可以提取的信息包含文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
Beautiful Soup:名气很大,整合了一些常用的爬虫需求。可以从HTML或XML文件中提取数据的Python库。
Crawley:高速爬取对应网站内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。
Portia:开源可视化爬虫工具,使用者在不需要任何编程知识的情况下爬取网站,简单的注释自己感兴趣的页面,创建一个蜘蛛来从类似的页面提取数据。
newspaper:可以用来提取新闻、文章和内容分析。使用多线程、支持10多种语言。
python-goose:可以提取的信息包含文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
Beautiful Soup:名气很大,整合了一些常用的爬虫需求。可以从HTML或XML文件中提取数据的Python库。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询