python的爬虫框架有哪些？

 我来答

7个回答

#热议# 为什么说不要把裤子提到肚脐眼？

IPIDEA全球HTTP
2020-09-24 · 百度认证:江苏艾迪信息科技官方账号

IPIDEA全球HTTP

IPIDEA是国内领先的动态IP服务商，整合全球240+国家和地区真实住宅IP资源量9000万我们提供7x24小时的全天候多语种咨询，真实住宅IP应用多种应用场景，支持百万高并发

向TA提问

关注

展开全部

爬虫框架需要URL、页面下载器、爬虫调度器、网页解析器、数据处理

爬虫框架要处理很多的URL，我们需要设计一个队列存储所有要处理的 URL，这种先进先出的数据结构非常符合这个需求。将所有要下载的URL存储在待处理队列中，每次下载会取出一个，队列中就会少一个。我们知道有些URL的下载会有反爬虫策略，所以针对这些请求需要做一些特殊的设置，进而可以对URL进行封装抽出 Request。

页面下载器如果没有，用户就要编写网络请求的处理代码，这无疑对每个 URL 都是相同的动作。所以在框架设计中我们直接加入它就好了，至于使用什么库来进行下载都是可以的，你可以用 httpclient 也可以用okhttp在本文中我们使用一个超轻量级的网络请求库 oh-my-request (没错，就是在下搞的)。优秀的框架设计会将这个下载组件置为可替换，提供默认的即可。

爬虫调度器，调度器和我们在开发 web 应用中的控制器是一个类似的概念，它用于在下载器、解析器之间做流转处理。解析器可以解析到更多的 URL 发送给调度器，调度器再次的传输给下载器，这样就会让各个组件有条不紊的进行工作。

网页解析器我们知道当一个页面下载完成后就是一段 HTML 的 DOM 字符串表示，但还需要提取出真正需要的数据以前的做法是通过String的API 或者正则表达式的方式在DOM 中搜寻，这样是很麻烦的，框架应该提供一种合理、常用、方便的方式来帮助用户完成提取数据这件事儿。常用的手段是通过xpath或者css选择器从DOM中进行提取，而且学习这项技能在几乎所有的爬虫框架中都是适用的。

数据处理，普通的爬虫程序中是把网页解析器和数据处理器合在一起的，解析到数据后马上处理。在一个标准化的爬虫程序中，他们应该是各司其职的，我们先通过解析器将需要的数据解析出来，可能是封装成对象。然后传递给数据处理器，处理器接收到数据后可能是存储到数据库，也可能通过接口发送给老王。

已赞过 已踩过<

评论收起

老男孩教育
2020-09-23 · 百度认证:北京一天天教育科技有限公司官方账号,教育领域创作者

老男孩教育

专注于Linux高级运维、Python开发、大数据培训，为您分享行业前沿的技术，有效的学习方法和有价值的学习资料。

向TA提问

关注

展开全部

Scrapy：一个为了爬取网站数据，提取结构性数据而编写的应用框架。应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。是很强大的爬虫框架，可以满足简单的页面爬取。
Crawley：高速爬取对应网站内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
Portia：开源可视化爬虫工具，使用者在不需要任何编程知识的情况下爬取网站，简单的注释自己感兴趣的页面，创建一个蜘蛛来从类似的页面提取数据。
newspaper：可以用来提取新闻、文章和内容分析。使用多线程、支持10多种语言。
python-goose：可以提取的信息包含文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
Beautiful Soup：名气很大，整合了一些常用的爬虫需求。可以从HTML或XML文件中提取数据的Python库。

已赞过 已踩过<

评论收起

Ng7郯v螇5
2018-12-18

知道答主

回答量：5

采纳率：0%

帮助的人：3960

我也去答题访问个人页

关注

展开全部

1.Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中
2.pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3.Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等
4.Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
还有很多，比如Newspaper，Grab，Cola等等...python的框架，全套的各个功能的在传智播客的技术交流里面都有。可以去找找，更详细。

已赞过 已踩过<

评论收起

蔡定交
2019-11-13 · TA获得超过1.9万个赞

知道小有建树答主

回答量：1122

采纳率：50%

帮助的人：397万

我也去答题访问个人页

关注

展开全部

比较流行的scrapy

已赞过 已踩过<

评论收起

Xo1绞f緵1
2018-12-18

知道答主

回答量：5

采纳率：100%

帮助的人：6.8万

我也去答题访问个人页

关注

展开全部

1.Scrapy是一个为了爬取网站数据

追答

提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中2.pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。3.Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等4.Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。还有很多，比如Newspaper，Grab，Cola等等...python的框架，全套的各个功能的在传智播客的技术交流里面都有。可以去找找，更详细。

本回答被提问者采纳

已赞过 已踩过<

评论收起

更多回答（5）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

2023python爬虫经典例子每天免费网上学习python爬虫经典例子

免费网上学习python爬虫经典例子，国内讲师机构专业授课，适合从基础学习，挑战从入门到熟练运用，海量python爬虫经典例子学习从入门到编程技术高超 python编程能力快速提升

www.huke88.com广告

2025精选办公文档_内容完整_免费下载

熊猫办公海量办公文档，网站包含海量办公文档模板资源，内容丰富完整下载即用。办公文档，专业人士起草，内容完整，正规严谨!办公文档，任意下载，可直接套用!

python的爬虫框架有哪些？

您可能关注的内容

其他类似问题

为你推荐：