零基础能自学大数据分析吗
目前数据分析行业有很大的人才缺口,未来3年内市场规模预计将达到2000亿,就业前景很好。但是入门门槛相对其他行业较高,专业性非常强,需要有过硬的技术来进行大量的数据处理,报培训班跟着专业的老师进行学习,可以更加系统掌握内容,少走弯路,同时老师也可以对你进行一个督促。
1、 数据分析要学多久?
每个人的学习能力和基础都不同,所以数据分析的学习周期也不同。如果是通过自学的方式,由于无专业老师指导及无法系统的学习,这个周期可能会很长。一般来讲,如果零基础的学习者进行系统的培训,最快也要将近三、四个月的时间。数据分析的学习应该首先从熟悉表以及表结构开始,它的原点一定是在首先了解熟悉Excel的基础上,在能够从数据库里提数的基础上再进行技能的升级。你的技能从能够从数据库里提数,并且用Excel和BI处理几万行的小数据量,到使用python批量化处理几十万甚至百万行中量级数据量,到最终使用大数据的相关组件,例如hadoop,spark,flume等组件处理千万级甚至是亿级大数据量。每一个阶段所需要的工具加方法论都是不一样的。一般而言,对于自学而成为能处理中量级数据量的分析师而言,得至少入门python的pandas,numpy等数据处理库。这个零自学的周期,也一般跟悟性和自律有关,悟性和自律性高的同学,可能在4个月能够掌握;如果悟性和自律性不高的同学,这个周期有可能就是半途而废,无法估量时间了。这里给大家推荐一下聚数学院的《数据分析实战就业班》(聚数学院),专注于培养数据分析师的数据处理能力、数据分析能力和数据挖掘能力,课程内容从数据库管理、统计理论方法、数据分析主流软件的应用到数据挖掘算法等,对一整套数据分析流程技术进行系统讲解并配以实战练习,学完之后,学习者可以直接达到数据分析师的水平。
2、 数据分析要学什么?
(1) Excel
说起Excel可能会有人觉得这个很简单,但是Excel确实是一个功能强大的利器。零基础学数据分析师一定要从Excel入门,因为Excel是处理小型数据量企业用的最多的工具,在基础数据分析师与数据运营岗位中具有极其重要的地位。作为数据分析师的核心工具,具体学习内容有Excel函数技巧(查找函数、统计函数、逻辑函数)、Excel快速处理技巧(格式调整、查找定位、快捷键技巧等)和Excel可视化技巧(组合图、条形图、数据气泡地图)等。
(2) Mysql
SQL同样是零基础学习数据分析的核心内容。因为作为数据分析师,你首先要解决的问题就是你要有数据来做分析。通常企业都会有自己的数据库,数据分析师首先得根据业务需要知道自己要从企业数据库中提取哪些数据。企业如果部署本地数据库,那么一定是SQL语言做提取数据的语言。SQL简单易懂,非常容易上手,并且是非学不可的。SQL语言从学习MySQL数据库开始,涉及对表结构数据的增删改查。真正在企业里面,数据分析师一般不会有增删改的权限,只会有查的权限。学员应该重点掌握查的各种句式。
(3) Python
Python的基础对于数据分析师而言是非常重要的。对于十万级或者百万级数据量而言,Excel和BI都会因为运行卡顿而变得完全无法使用。然而在实际企业运用中,一次性处理十万级以及百万级数据又是非常常见的。而Python则是处理这种中量级数据的利器。因为Python有很多的第三方强大的库,比如Numpy、Pandas、Matplotlib、Seaborn等。这些库能让数据分析师对百万数据进行数据清理和画图分析。Python不仅能数据清洗,画图,还能用sklearn进行大数据算法分析。虽然Python是数据分析的重要工具,但是不同的职业发展方向,Python掌握的程度也是不一样的。
(4) BI商业智能工具
BI可以理解成Excel图表透视表的高级版。BI是将表与表相连,然后得出很多指标图。它是一个大屏的看板,如下图:
企业销售指标,运营指标,物流指标等等。这些图可以表示企业在过去5个月的平均销售单价,过去24个月销售的物流发货量的变化曲线,甚至是现在实时的销售额,这些都是企业关心的问题。有了这个看板,领导层在监控企业业务方面就有了非常直观的数据,以供他们及时做出决策调整。现在市面上比较流行的BI软件,有FineBI,PowerBI等。而这些BI软件实际上都是非常类似的,学起来难度也不大。学习FineReport、FineBI由入门到精通,快速挖掘数据价值,将这些数据转化成有用的信息,让企业决策有数据依据,从而驱动企业决策和运营。
(5) 数理统计与数据运营
数理统计和数据运营方法论是数据分析师的理论基石。数理统计包括概率论,统计学,线性代数,以及基础的微积分理论。这些内容都不需要理解的很深,但是对它们的原理以及内涵都需要有所掌握。由于整个数据分析的源头其实就是脱胎于描述性统计分析的。描述性统计分析是对样本的总数、均值等指标做统计的;而数据分析后续涉及到的算法则是架构在统计学上更深一层次的建模。因此,掌握数理统计的相关知识对于入门数据分析师而言是基础且必要的。
那数据运营方法论是什么呢?数据运营方法论实际上是学习各个行业所运营的分析模型。例如,对电商而言,漏斗分析可以分析出来进入主页的人数PV1,到进入服装板块的人数PV2,PV2/PV1就可以得出一个进入服装板块的比率。还有很多通用的分析模型:相关分析,A/B test等。对于想往管理路线发展的数据分析师来讲,数据运营是必须要学习的知识。其实数据运营知识也不复杂,就是根据自身业务需求将指标拆解到最细,然后运用同比和环比两种数据分析方式。
(6) 机器学习
最后一个进阶要求数据分析师掌握对大量数据分析的能力。这种分析就不只是停留在描述统计分析和运用数据运营方法进行分析了,而是进行预测分析。预测分析的本质是利用已有的数据做出一套变量x,与预测最终值y之间的关系(也就是数学算法公式),然后利用这套算法,将更多的x输入算法中去得出一个预测的y值,这里听不懂没关系。总之,这个阶段的数据分析是利用大量的历史数据构建出一套数学公式(也就是算法),用这个数学公式去对未来进行预测。比如说:一个人大量地刷体育短视频,根据算法可以得出这个人可能对观看足球比赛的腾讯体育会员感兴趣。这类推断和预测对于商业世界是有着极大变现意义的。要想成为掌握算法的数据分析师,机器学习是不可跳过的入门。学员应该从简单的一元回归,多元回归,以及逻辑回归学习等,逐渐学习更多像决策树,随机森林,SVM等更高级的算法。
如果看到这里,你觉得自己心理上已经就入门数据分析师方向做好了准备,但是你是零基础实在不知道如何入行的话,欢迎私聊获取免费的数据分析师知识点大纲,并且免费做数据分析师的入门咨询。
1. EXCEL、PPT(必须精通)
数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。
2. 数据库类(必须学)
初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。
NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。
3. 统计学(必须学)
如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。
其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。
4. 机器学习(数据分析师要求会选、用、调)
常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。
5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)
hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。
6. 工具类
语言:非大数据类R、Python最多;大数据可能还会用到scala和java。
其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)。
2019-11-28 · 大数据人才培养的机构
现在网上的学习资源很多,免费付费的都有,很多人提升自己的方法会选择自学。
部分学习网站:CodeAcademy、Coursera、edX、Udemy、aGupieWare、GitHub、MIT 开源课件、Hack.pledge()、Code Avengers、Khan Academy、Free Food Camp
首先,学习前需要先明确两个问题:是什么?怎么学?
概括说就是:学习目标与学习计划。
拿大数据举例,学习目标比较清楚,就是踏入大数据领域这个门,可以从事大数据相关工作。学习计划就是对学习内容及过程的设计与执行。