网上Python爬虫教程这么多,但是做爬虫的这么少呢?

 我来答
新科技17
2022-08-25 · TA获得超过5904个赞
知道小有建树答主
回答量:355
采纳率:100%
帮助的人:75万
展开全部


网上教程多,是因为入门简单,容易获得成就感,容易忽悠小白

爬虫就是因为 太有技术含量 ,所以会的人少,可能看起来做的人就少了

爬虫远比我们想的复杂

大多数人会的,只是造一颗 螺丝钉, 而整个爬虫系统,就好比造 火箭

大多数人,只掌握了入门级的水品,也就是最多能造个螺丝钉,造不出火箭


为什么我说爬虫远比我们想的复杂呢?

爬虫绝不是表面的 用 requests 、urllib,发个http请求那么简单

就如同 楼上的几位回答者所说,如果只是发个http请求,根本用不着专门来学,随便找个火车头之类的工具,拖几下鼠标就搞定了


实际情况中,你要抓人家的数据, 会有很多门槛

1.人家检测出你是爬虫,拉黑你IP (人家究竟是通过你的ua、行为特则 还是别的检测出你是爬虫的?你怎么规避?)

2.人家给你返回脏数据,你怎么辨认?

3.对方被你爬死,你怎么设计调度规则?

4.要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?

5.数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?

6.对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?

7.数据太多,一个数据库放不下,要不要分库?

8.对方数据是JavaScript渲染,那你怎么抓?要不要上PhantomJS?

9.对方返回的数据是加密的,你怎么解密?

10.对方有验证码,你怎么破解?

11.对方有个APP,你怎么去得到人家的数据接口?

12.数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值?

13. 等等 ......


你看,一个强大的爬虫, 涉及很多学科的知识 ,是一门很大的学问

你要:


你看,这设计多少知识了,每一个知识点,基本都是一个学科,都不是几本书能解决的


一个人,想精通这些,是十分困难的,所以一般是团伙协作作案

你负责端茶递水、我负责解密他的接口、另外的同事负责写代码,搞数据库,破解验证码 等等


你问一个人能做出这么强大的东西吗?

可以,在有一定知识储备的情况下,用人家的轮子,是完全可以搭建起来的


所以,网上的爬虫教程,无法把这些系统的讲给你听,就好比你想学赚钱,谁又能给你一个系统的教程呢?

你想上班赚钱,还是想卖豆腐赚钱?

卖什么豆腐?

什么价格?

店铺开哪里?

要不要请人?

不知道!


其实我上面列出的每个知识块,网上都有,零零散散的而已

你需要自己去辨别,整合这些知识,然后为你所用


现在你明白为什么网上的教程,都不够系统,不够深入了吧

因为这很难,涉及到的学科知识太多了


如果再想知道更多基础

私信发送“1”, 即可获取

私信方法:点我主页头像旁边的私信按钮,回复“ 1 ”即可

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式