如何入门 Python 爬虫

 我来答

3个回答

#热议# 为什么有人显老，有人显年轻？

黑板客
2015-10-08 · TA获得超过469个赞

知道小有建树答主

回答量：193

采纳率：100%

帮助的人：189万

我也去答题访问个人页

关注

展开全部

个人觉得：
新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）

1. 打开网页，下载文件：urllib
2. 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求，支持重定向，cookies等。
4. 使用Selenium，模拟浏览器提交类似用户的操作，处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始
，目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本操作。

实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。

学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

这是我在知乎的回答，直接转过来有些链接没有生效，可以到这里看原版，http://www.zhihu.com/question/20899988/answer/59131676

已赞过 已踩过<

评论收起

力波鸿0i
2015-10-08 · TA获得超过1259个赞

知道小有建树答主

回答量：461

采纳率：100%

帮助的人：344万

我也去答题访问个人页

关注

展开全部

python最常用的是requests库，pip install requests，然后import requests，就可以requests.get(url)了，这是最基本的爬虫了，对于静态网页应该没有什么问题。如果要登录获取信息，那么就直接session = requests.Session(); session.get(url)之类。
对于动态网页，比如纯js写的网页，推荐phantomjs和casperjs；虽然这两个东西和python没有关系，但是安装好phantomjs，再使用python-selenium，就可以把phantomjs当没有界面的浏览器使用，并可以得到js运行后渲染出的页面。

已赞过 已踩过<

评论收起

grhahaha
2015-10-08 · 超过11用户采纳过TA的回答

知道答主

回答量：73

采纳率：0%

帮助的人：34.8万

我也去答题访问个人页

关注

展开全部

python有专门的爬虫框架的
Scrapy框架

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

2023爬虫python是什么每天免费网上学习爬虫python是什么

免费网上学习爬虫python是什么，国内讲师机构专业授课，适合从基础学习，挑战从入门到熟练运用，海量爬虫python是什么学习从入门到编程技术高超 python编程能力快速提升

www.huke88.com广告

如何入门 Python 爬虫

您可能关注的内容

其他类似问题

为你推荐：