如何入门 Python 爬虫
2个回答
展开全部
入门的话,我的经历:
1.先用python写一个爬取网页源代码的爬虫(最先是爬取个人博客,会遇到乱码问题当时困扰了很久)
2.后来写了爬取百度图片的程序,自动下载小说(我爱看小说-_-)(接触正则表达式)
3.然后百度图片他那种分页模式,一般一页只有20张左右的图片,分析源代码,完善爬取程序,不受到限制,一次可以下几千张(图片有的是原图,有的是缩略图)
4.后来发现程序卡顿,就添加了多线程。
5.然后模拟登陆一些不用验证码的网页(我学校的oj),cookie登陆B站(本来想写一个抢楼的脚本的,后来发现抢楼的被封号了-_-,就放弃了)
对于使用的库,python2 与 python3 有点不同,我学的是python3
先用的是urllib.request,后来用requests(第三方库),在后来接触Scrapy(也是第三方库)
现在因为事情多了,就把python放下了,准备寒假写一些脚本,毕竟python不会有期末考试...
我的个人经历,希望可以帮到你。
1.先用python写一个爬取网页源代码的爬虫(最先是爬取个人博客,会遇到乱码问题当时困扰了很久)
2.后来写了爬取百度图片的程序,自动下载小说(我爱看小说-_-)(接触正则表达式)
3.然后百度图片他那种分页模式,一般一页只有20张左右的图片,分析源代码,完善爬取程序,不受到限制,一次可以下几千张(图片有的是原图,有的是缩略图)
4.后来发现程序卡顿,就添加了多线程。
5.然后模拟登陆一些不用验证码的网页(我学校的oj),cookie登陆B站(本来想写一个抢楼的脚本的,后来发现抢楼的被封号了-_-,就放弃了)
对于使用的库,python2 与 python3 有点不同,我学的是python3
先用的是urllib.request,后来用requests(第三方库),在后来接触Scrapy(也是第三方库)
现在因为事情多了,就把python放下了,准备寒假写一些脚本,毕竟python不会有期末考试...
我的个人经历,希望可以帮到你。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询