python爬虫框架哪个好用?

 我来答
帐号已注销
2019-12-09 · TA获得超过5345个赞
知道大有可为答主
回答量:8195
采纳率:64%
帮助的人:553万
展开全部
爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:

抓取、更新调度多站点的特定的页面

需要对页面进行结构化信息提取

灵活可扩展,稳定可监控

pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

通过web化的脚本编写、调试环境。web展现调度状态

抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

pyspider的架构主要分为 scheduler(调度器), fetcher(抓取器), processor(脚本执行):

各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制

任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。

每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。
宿舍总动员

2019-12-09 · TA获得超过8374个赞
知道大有可为答主
回答量:1.3万
采纳率:71%
帮助的人:1959万
展开全部

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

资料来源:网页链接

希望我的回答对你有帮助~

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
浪子_回头99
高粉答主

2019-12-09 · 说的都是干货,快来关注
知道小有建树答主
回答量:1949
采纳率:100%
帮助的人:93.2万
展开全部
爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
老男孩教育
2020-09-23 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者
老男孩教育
专注于Linux高级运维、Python开发、大数据培训,为您分享行业前沿的技术,有效的学习方法和有价值的学习资料。
向TA提问
展开全部
Python爬虫常用框架有:
grab:网络爬虫框架;
scrapy:网络爬虫框架,不支持Python3;
pyspider:一个强大的爬虫系统;
cola:一个分布式爬虫框架;
portia:基于Scrapy的可视化爬虫;
restkit:Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
demiurge:基于PyQuery的爬虫微框架。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
箬浅箬漾
高粉答主

2019-12-09 · 繁杂信息太多,你要学会辨别
知道小有建树答主
回答量:2509
采纳率:43%
帮助的人:72.4万
展开全部
Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。

Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(4)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式