大数据分析应该掌握哪些基础知识呢?
2021-12-15
保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。
1,语言要求
java刚入门的时候要求javase。
scala是学习spark要用的基本使用即可。
后期深入要求:
java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。
2,操作系统要求
linux 基本的shell脚本的使用。
crontab的使用,最多。
cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。
scp,ssh,hosts的配置使用。
telnet,ping等网络排查命令的使用
3,sql基本使用
sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。
sql统计,排序,join,group等,然后就是sql语句调优,表设计等。
4,大数据基本了解
Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。
5,mapreduce及相关框架hive,sqoop
深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。
6,hive和hbase等仓库
hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。
hbase看浪尖hbase系列文章。hive后期更新。
7,消息队列的使用
kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。
8,实时处理系统
storm和spark Streaming
9,spark core和sparksql
spark用于离线分析的两个重要功能。
10,最终方向决策
a),运维。(精通整套系统及故障排查,会写运维脚本啥的。)
b),数据分析。(算法精通)
c),平台开发。(源码精通)
自学还是培训?
无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。
有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,
想办法跟大牛做朋友才是王道。
2022-06-13 · 百度认证:河南云和数据信息技术官方账号
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数仓架构、维度建模、SuperSet、Azkaban、Airflow等。掌握企业级基建环境部署、Hive和Spark数据开发、数据仓库搭建、数据抽取、数据清洗、数据转换、数据加载、数据应用
实时仓库:
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
Linux:
因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
以上是大数据所需要掌握的技术点,最终的实践项目还需要掌握数据采集与监控平台、准实时数据仓库、用户画像、推荐系统、基于Flink的实时数据仓库、元数据管理与数据治理。以上暂且作为了解即可。
上述是大数据基础所要了解的全部内容,但学习大数据,其实只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下。Hibernate或Mybites也能连接数据库,不是说学这些不好,而是说学这些可能会用掉很多时间,到最后实际工作中用到的比例也很少。
2021-12-17 · 百度认证:陕西新华电脑软件培训学校官方账号
2021-12-15
在大数据主导的世界中,对大数据分析师的需求持续增长。预测说,到2020年底,每个人每秒将产生1.7兆字节的信息。随着组织成为数据驱动型企业,商业界的领导者们寄予了很高的期望,即所做的任何决策都应以数据为基础。
当今每个组织之所以需要可以提供快速结果的大数据专业人员的原因。此类专业人员的主要职责之一是通过收集关键数据并在这些数据中提供重要模式来帮助决策者。
让我们简要定义谁是大数据分析师以及他们的工作角色。
通常,大数据分析师对帮助组织做出更明智的决策负责。有时甚至会要求他们进行竞争性分析,以识别行业中的最新情况。他们的工作包括收集和检查大量数据,以根据客户的喜好发现隐藏的模式。
根据统计局的数据,从2016年到2026年,将在数据领域和计算机研究中看到近19%的工作增长。因此,这是开始在数据分析领域建立职业的理想时机。这样数据分析专业人士的平均年薪通常为60W元。
组织使用的工具和技术经过精心设计,可以分析结构化和非结构化数据,并从此类收集的信息中识别出积极的见解。
以下是提及的在数据领域开展职业的所有技能。
编程技能– C ++,Python,R,Java,Ruby和SQL需要基本的编码/编程技能。由于处理非结构化数据已成为日常任务,因此必须配备多种编码语言。
计算框架–熟悉Apache Storm,Apache Spark,MapReduce,Hadoop和Apache Flink等框架是有抱负的大数据分析师的必备条件。这些框架中的知识将在数据处理过程中为个人提供帮助。
数据仓库技能–从事此类职业的专业人员必须对关系和非关系数据库系统(MongoDB,HDFS,Cassandra,CouchDB,Oracle,MySQL和NoSQL)都具有良好的理解和工作知识。
统计–统计是大数据分析领域的基础。任何寻求成为大数据分析专业人士的个人都需要具有广泛的统计知识和线性代数知识。个人应了解诸如概率分布,假设检验框架,统计数据和随机变量之类的概念。
业务敏锐度–由于数据分析人员会验证,收集,排序和评估数据,因此他们需要在工作领域中拥有丰富的知识。它们在业务和统计方面都非常出色,但在编程方面却不是。
大数据工具 –处理大数据时,你需要意识到你将根据项目和任务的类型使用不同类型的工具。现在,要实现此目标,你需要在Impala,Pig,Hive,Hadoop,HBase,YARN,Flume和HDFS等大数据工具中拥有实践知识。
既然你知道成为大数据所需的技能,我们就可以在下面进一步解释核心角色和职责也就是大家感兴趣的数据分析师。
从不同来源收集数据,进行清理,收集,分析和处理,并提取有价值的信息。
确定不同的数据源,并开发用于分析,报告和数据挖掘的更新方法。
编写有助于从数据仓库提取数据的SQL查询。
以图表或图形的形式显示数据发现,以便管理层了解你要传达的内容。
开发用于数据收集和采购的关系数据库。
应用统计分析方法来分析消费者数据研究。
与老年人和数据科学家合作开发分析工具。
监视数据挖掘系统的性能,并报告是否发现任何错误。
这些是大数据专业人员需要处理的一些日常活动。不过也可以了解九道门的数据分析师项目实训班,一定会满足你对数据分析师所有的需求。