如何入门 Python 爬虫

 我来答
黑板客
2015-10-08 · TA获得超过469个赞
知道小有建树答主
回答量:193
采纳率:100%
帮助的人:192万
展开全部
个人觉得:
新手学习python爬取网页先用下面4个库就够了:(第4个是实在搞不定用的,当然某些特殊情况它也可能搞不定)

1. 打开网页,下载文件:urllib
2. 解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求,支持重定向,cookies等。
4. 使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的,如果你没什么特别想抓取的,新手学习可以从这个闯关网站开始
,目前更新到第五关,闯过前四关,你应该就掌握了这些库的基本操作。

实在闯不过去,再到这里看题解吧,第四关会用到并行编程。(串行编程完成第四关会很费时间哦),第四,五关只出了题,还没发布题解。。。

学完这些基础,再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

这是我在知乎的回答,直接转过来有些链接没有生效,可以到这里看原版,http://www.zhihu.com/question/20899988/answer/59131676
力波鸿0i
2015-10-08 · TA获得超过1259个赞
知道小有建树答主
回答量:461
采纳率:100%
帮助的人:350万
展开全部
python最常用的是requests库,pip install requests,然后import requests,就可以requests.get(url)了,这是最基本的爬虫了,对于静态网页应该没有什么问题。如果要登录获取信息,那么就直接session = requests.Session(); session.get(url)之类。
对于动态网页,比如纯js写的网页,推荐phantomjs和casperjs;虽然这两个东西和python没有关系,但是安装好phantomjs,再使用python-selenium,就可以把phantomjs当没有界面的浏览器使用,并可以得到js运行后渲染出的页面。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
grhahaha
2015-10-08 · 超过11用户采纳过TA的回答
知道答主
回答量:73
采纳率:0%
帮助的人:35.2万
展开全部
python有专门的爬虫框架的
Scrapy框架
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式