大数据培训课程大纲要学什么课程?

 我来答

12个回答

#热议# 普通体检能查出癌症吗？

海牛大数据
2019-08-20 · 带你开启大数据技术之旅！

海牛大数据

海牛学院专注于大数据课程开发及培训，带你开启大数据技术之旅！

向TA提问

关注

展开全部

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在尘瞎Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且首册key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的者兄宏要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

已赞过 已踩过<

评论收起

北京勤哲软件技术

广告2024-11-04

勤哲Excel服务器2024学习和下载。用Excel自动生成大数据分析报表及手机app.软博会金奖产品，适合于各行各业的管理人员使用。

www.qinzhe.com

百度网友63e3e07
2018-11-09 · TA获得超过505个赞

知道小有建树答主

回答量：655

采纳率：75%

帮助的人：73.1万

我也去答题访问个人页

关注

展开全部

大数据开发程序唤握饥员根据不同具体岗位，需要掌握以下技能,参考下

1、数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
2、数据存取：关系数据库、NOSQL、SQL等。
3、基础架构：云存储、分布式文件存储等。
4、数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机""理解""自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
5、统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单皮扰回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘：分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
7、模型预测：预测模型、机器学习、建模仿真。
8、结果呈现：云计算、标签云、关系和返图等。

已赞过 已踩过<

评论收起

经你溪I
2019-09-02 · 贡献了超过124个回答

知道答主

回答量：124

采纳率：0%

帮助的人：8.1万

我也去答题访问个人页

关注

展开全部

大数据学习课程图

第1阶段 Java

第2阶段 JavaEE核心

第3阶段 Hadoop生态体凯搭拿圆系

第4阶段盯敏拿大数据spark生态体系

已赞过 已踩过<

评论收起

数据中转站3
2020-01-06

知道答主

回答量：26

采纳率：0%

帮助的人：1.6万

我也去答题访问个人页

关注

展开全部

课纲不一样，看是大数据开发还是大数据分析了，我学的大数据分析可视化，学的汪芦主要有Python入门、sql、oracle、tableau、困销带帆软、斗枯Informatica、Excel等等
我刚出来半年，视频录播可能还不算落后，有视频可***

已赞过 已踩过<

评论收起

加米谷大数据科技
2020-08-10 · 大数据人才培养的机构

加米谷大数据科技

成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。公司由来自华为、京东、星环、勤智等国内知名企业的多位技术大牛联合创办。面向社会提供大数据、人工智能等前沿技术的培训业务。

向TA提问

关注

展开全部

大数据培训，目前族姿没主要有两种：
1、大数据开发
数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等；
2、数据分析与挖掘
一般工作包括数据清洗，执行分析和数据可视化。学兆纳习Python、数据库、网络爬虫、数据分析与处理等。
大数据培训一般是指大数据开发培训。
大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理册瞎、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。