如何入门 Python 爬虫

 我来答

3个回答

#热议# 上班途中天气原因受伤算工伤吗？

黑板客
2015-10-08 · TA获得超过469个赞

知道小有建树答主

回答量：193

采纳率：100%

帮助的人：192万

我也去答题访问个人页

关注

展开全部

个人觉得：
新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）

1. 打开网页，下载文件：urllib
2. 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求，支持重定向，cookies等。
4. 使用Selenium，模拟浏览器提交类似用户的操作，处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始
，目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本操作。

实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。

学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

这是我在知乎的回答，直接转过来有些链接没有生效，可以到这里看原版，http://www.zhihu.com/question/20899988/answer/59131676

已赞过 已踩过<

评论收起

力波鸿0i
2015-10-08 · TA获得超过1259个赞

知道小有建树答主

回答量：461

采纳率：100%

帮助的人：350万

我也去答题访问个人页

关注

展开全部

python最常用的是requests库，pip install requests，然后import requests，就可以requests.get(url)了，这是最基本的爬虫了，对于静态网页应该没有什么问题。如果要登录获取信息，那么就直接session = requests.Session(); session.get(url)之类。
对于动态网页，比如纯js写的网页，推荐phantomjs和casperjs；虽然这两个东西和python没有关系，但是安装好phantomjs，再使用python-selenium，就可以把phantomjs当没有界面的浏览器使用，并可以得到js运行后渲染出的页面。

已赞过 已踩过<

评论收起

grhahaha
2015-10-08 · 超过11用户采纳过TA的回答

知道答主

回答量：73

采纳率：0%

帮助的人：35.2万

我也去答题访问个人页

关注

展开全部

python有专门的爬虫框架的
Scrapy框架

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python3学习7年匠心打磨，从入门到实战!

class.imooc.com

资料下载标准版-资料文档库-全文阅读下载

资料下载专题资料下载，不用四处查资料，360文库海量精选资料下载全行业资料覆盖，千万文档即刻下载，享专属优惠!

wenku.so.com广告

python3 教程，慕课网在线课程学习，对标企业招聘要求

www.imooc.com

如何入门 Python 爬虫

您可能关注的内容

其他类似问题

为你推荐：