如何入门 Python 爬虫

 我来答
huanglenzhi
推荐于2016-07-02 · 知道合伙人数码行家
huanglenzhi
知道合伙人数码行家
采纳数:117538 获赞数:517198
长期从事计算机组装,维护,网络组建及管理。对计算机硬件、操作系统安装、典型网络设备具有详细认知。

向TA提问 私信TA
展开全部
  “入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。

  另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学会的东西的。当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D

  看到前面很多答案都讲的“术”——用什么软件怎么爬,那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。

  先长话短说summarize一下:
  你需要学习

  基本的爬虫工作原理
  基本的http抓取工具,scrapy
  Bloom Filter: Bloom Filters by Example
  如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:https //github com/nvie/rq
  rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
  后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)
麦兜萧寒
2014-12-14 · 超过25用户采纳过TA的回答
知道答主
回答量:113
采纳率:0%
帮助的人:48.8万
展开全部
先熟悉一下http协议
然后就是熟悉urllib,urllib2这些包 ,就可以自己写爬虫了
再找个Python爬虫框架如Scrapy学习一下 ,看看别人是如何写的
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
?>

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式