如何入门 Python 爬虫
3个回答
展开全部
个人觉得:
新手学习python爬取网页先用下面4个库就够了:(第4个是实在搞不定用的,当然某些特殊情况它也可能搞不定)
1. 打开网页,下载文件:urllib
2. 解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求,支持重定向,cookies等。
4. 使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页
这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。
做事情是要有驱动的,如果你没什么特别想抓取的,新手学习可以从这个闯关网站开始
,目前更新到第五关,闯过前四关,你应该就掌握了这些库的基本操作。
实在闯不过去,再到这里看题解吧,第四关会用到并行编程。(串行编程完成第四关会很费时间哦),第四,五关只出了题,还没发布题解。。。
学完这些基础,再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。
这是我在知乎的回答,直接转过来有些链接没有生效,可以到这里看原版,http://www.zhihu.com/question/20899988/answer/59131676
新手学习python爬取网页先用下面4个库就够了:(第4个是实在搞不定用的,当然某些特殊情况它也可能搞不定)
1. 打开网页,下载文件:urllib
2. 解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery
3. 使用Requests来提交各种类型的请求,支持重定向,cookies等。
4. 使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页
这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。
做事情是要有驱动的,如果你没什么特别想抓取的,新手学习可以从这个闯关网站开始
,目前更新到第五关,闯过前四关,你应该就掌握了这些库的基本操作。
实在闯不过去,再到这里看题解吧,第四关会用到并行编程。(串行编程完成第四关会很费时间哦),第四,五关只出了题,还没发布题解。。。
学完这些基础,再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。
这是我在知乎的回答,直接转过来有些链接没有生效,可以到这里看原版,http://www.zhihu.com/question/20899988/answer/59131676
展开全部
python最常用的是requests库,pip install requests,然后import requests,就可以requests.get(url)了,这是最基本的爬虫了,对于静态网页应该没有什么问题。如果要登录获取信息,那么就直接session = requests.Session(); session.get(url)之类。
对于动态网页,比如纯js写的网页,推荐phantomjs和casperjs;虽然这两个东西和python没有关系,但是安装好phantomjs,再使用python-selenium,就可以把phantomjs当没有界面的浏览器使用,并可以得到js运行后渲染出的页面。
对于动态网页,比如纯js写的网页,推荐phantomjs和casperjs;虽然这两个东西和python没有关系,但是安装好phantomjs,再使用python-selenium,就可以把phantomjs当没有界面的浏览器使用,并可以得到js运行后渲染出的页面。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
python有专门的爬虫框架的
Scrapy框架
Scrapy框架
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询