用Python写爬虫，用什么方式，框架比较好

 我来答

1个回答

#热议# 不吃早饭真的会得胆结石吗？

育知同创教育
2017-11-11 · 百度知道合伙人官方认证企业

育知同创教育

1【专注：Python+人工智能|Java大数据|HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址：北京市昌平区三旗百汇物美大卖场2层，微信公众号：yuzhitc】

向TA提问

关注

展开全部

由于项目需求收集并使用过一些爬虫相关库，做过一些对比分析。以下是我接触过的一些库：

Beautiful Soup。名气大，整合了一些常用爬虫需求。缺点：不能加载JS。
Scrapy。看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
mechanize。优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。

以下是我的一些实践经验：

对于简单的需求，比如有固定pattern的信息，怎么搞都是可以的。
对于较为复杂的需求，比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发，这种情况下是很难找到一个契合需求的库的，很多东西只能自己写。

至于题主提到的：
还有，采用现有的Python爬虫框架，相比与直接使用内置库，优势在哪？因为Python本身写爬虫已经很简单了。
third party library可以做到built-in library做不到或者做起来很困难的事情，仅此而已。还有就是，爬虫简不简单，完全取决于需求，跟Python是没什么关系的。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

哪些网站可以使用爬虫免费发布试用商品，精准获客点评

哪些网站可以使用爬虫专业提供免费发布试用商品，免费推广商品，获取优质点评反馈。立即咨询详情，24小时在线服务，欢迎您来咨询商务合作。

www.taosiyong.com广告

用Python写爬虫，用什么方式，框架比较好

您可能关注的内容

其他类似问题

为你推荐：