如何开始学习大数据?

 我来答
贵州新华电脑学院
2020-06-04 · 专注电脑教育33年做IT教育我们是认真的
贵州新华电脑学院
学院始建于1988年,是贵州省学院级专业电脑院校。学校办学理念先进,办学思路清晰,办学业绩显著。本着“新华教育、兴教报国”的办学宗旨,通过多年的探索和积累,创造出了一条具有新华特色的教育路。
向TA提问
展开全部
Hadoop是目前大数据的事实标准,hadoop生态圈还有很多的组件,每个组件都有其特定的应用场景,不必每个组件都要学习,可以挑选自己感兴趣的组件进行学习,或者等实际用到的时候再学习也可以。常见的组件介绍如下:

HBase:分布式的列式存储数据库,适用于存储非结构化的数据

Spark:专为大规模数据处理而设计的快速通用的计算引擎,它是hadoop生态圈中的一个组件,不会取代hadoop,在某些场合下可以替代MapReduce执行分布式的运算。

Sqoop:主要用于在Hadoop(Hive)与传统的数据库(oracle、mysql、postgresql...)间进行数据的传递,可以将关系型数据库中的数据导入到hdfs中,反之亦然

Flume:Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

Oozie:用于Hadoop平台的一种工作流调度引擎,它可以以工作流的形式调用和分配集群中的计算任务

Storm:一个分布式实时大数据处理系统,它是一个流数据框架,具有最高的摄取率。一些实时计算的场景会用到

还有一些其他的组件如Impala、kudu、hue、Kafka、Solr等建议在使用的时候再考虑进行学习。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
山西新华电脑学校
2020-06-15 · 初高中毕业学互联网技术来山西新华
山西新华电脑学校
山西新华电脑学校办学30多年,主要从事互联网教育。
向TA提问
展开全部
大数据的话是目前比较火热的潮流专业,学习的话可以找个好的学校或者好的机构去系统的学习一下的。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
百度网友efbfb15
2018-11-10
知道答主
回答量:12
采纳率:0%
帮助的人:9275
展开全部
建议还是先学一些Java知识先,然后仔深入学习大数据,
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
卷咖营3856
2019-07-03 · 贡献了超过161个回答
知道答主
回答量:161
采纳率:0%
帮助的人:11.2万
展开全部
可以从高等数学开始。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
CDA数据分析师
2021-09-17 · 百度认证:北京国富如荷网络科技有限公司
CDA数据分析师
向TA提问
展开全部
第一阶段:大数据技术入门
1大数据入门:介绍当前流行大数据技术,数据技术原理,并介绍其思想,介绍大数据技术培训课程,概要介绍。
2Linux大数据必备:介绍Lniux常见版本,VMware虚拟机安装Linux系统,虚拟机网络配置,文件基本命令操作,远程连接工具使用,用户和组创建,删除,更改和授权,文件/目录创建,删除,移动,拷贝重命名,编辑器基本使用,文件常用操作,磁盘基本管理命令,内存使用监控命令,软件安装方式,介绍LinuxShell的变量,控制,循环基本语法,LinuxCrontab定时任务使用,对Lniux基础知识,进行阶段性实战训练,这个过程需要动手操作,将理论付诸实践。
3CM&CDHHadoop的Cloudera版:包含Hadoop,HBase,Hiva,Spark,Flume等,介绍CM的安装,CDH的安装,配置,等等。
第二阶段:海量数据高级分析语言
Scala是一门多范式的编程语言,类似于java,设计的初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程的多种特性,介绍其优略势,基础语句,语法和用法, 介绍Scala的函数,函数按名称调用,使用命名参数函数,函数使用可变参数,递归函数,默认参数值,高阶函数,嵌套函数,匿名函数,部分应用函数,柯里函数,闭包,需要进行动手的操作。
第三阶段:海量数据存储分布式存储
1HadoopHDFS分布式存储:HDFS是Hadoop的分布式文件存储系统,是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,介绍其的入门基础知识,深入剖析。
2HBase分布式存储:HBase-HadoopDatabase是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可在廉价PC上搭建起大规模结构化存储集群,介绍其入门的基础知识,以及设计原则,需实际操作才能熟练。
第四阶段:海量数据分析分布式计算
1HadoopMapReduce分布式计算:是一种编程模型,用于打过莫数据集的并行运算。
2Hiva数据挖掘:对其进行概要性简介,数据定义,创建,修改,删除等操作。
3Spare分布式计算:Spare是类MapReduce的通用并行框架。
第五阶段:考试
1技术前瞻:对全球最新的大数据技术进行简介。
2考前辅导:自主选择报考工信部考试,对通过者发放工信部大数据技能认证书。
上面的内容包含了大数据学习的所有的课程,所以,如果有想学大数据的可以从这方面下手,慢慢的了解大数据。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式