大数据开发这么学习？

 我来答

5个回答

#热议# 在购买新能源车时，要注意哪些？

尚学堂前端学院
2020-12-31 · 百度认证:北京尚学堂科技官方账号

尚学堂前端学院

向TA提问

关注

展开全部

分享大数据学习路线：

第一阶段为JAVASE+MYSQL+JDBC

主要学习一些Java语言的概念，如字符、bai流程控制、面向对象、进程线程、枚举反射等，学习MySQL数据库的安装卸载及相关操作，学习JDBC的实现原理以及Linux基础知识，是大数据刚入门阶段。

第二阶段为分布式理论简介

主要讲解CAP理论、数据分布方式、一致性、2PC和3PC、大数据集成架构。涉及的知识点有Consistency一致性、Availability可用性、Partition
tolerance分区容忍性、数据量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。

第三阶段为数据存储与计算（离线场景）

主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

第四部分为数仓建设

主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车（5T）架构技术解析、多维数据模型处理kylin（3.5T）部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等；

第五阶段为分布式计算引擎

主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台项目实现spark多数据源读写。

第六阶段为数据存储与计算（实时场景）

主要讲解数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming，并通过讲解某交通大数让你可以将知识点融会贯通。

第七阶段为数据搜索

主要讲解elasticsearch，包括全文搜索技术、ES安装操作、index、创建索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理

主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。

第九阶段为BI系统

主要讲解Superset、Graphna两大技术，包括基本简介、安装、数据源创建、表操作以及数据探索分析。

第十阶段为数据挖掘

主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。

对大数据分析有兴趣的小伙伴们，不妨先从看看大数据分析书籍开始入门！B站上有很多的大数据教学视频，从基础到高级的都有，还挺不错的，知识点讲的很细致，还有完整版的学习路线图。也可以自己去看看，下载学习试试。

已赞过 已踩过<

评论收起

考研老哥
2020-02-14 · 中国海洋大学2018级计算机研究生

考研老哥

采纳数：1 获赞数：2

向TA提问私信TA

关注

展开全部

第一阶段：Hadoop生态架构技术
1、语言基础
Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。
Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
Python：基础语法，数据结构，函数，条件判断，循环等基础知识。
2、环境准备
这里介绍在windows电脑搭建完全分布式，1主2从。
VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。
3、MapReduce
MapReduce分布式离线计算框架，是Hadoop核心编程模型。
4、HDFS1.0/2.0
HDFS能提供高吞吐量的数据访问，适合大规模数据集上的应用。
5、Yarn（Hadoop2.0）
Yarn是一个资源调度平台，主要负责给任务分配资源。
6、Hive
Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。
7、Spark
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
8、SparkStreaming
Spark Streaming是实时处理框架，数据是一批一批的处理。
9、SparkHive
Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。
10、Storm
Storm是一个实时计算框架，Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。
11、Zookeeper
Zookeeper是很多大数据框架的基础，是集群的管理者。
12、Hbase
Hbase是一个Nosql数据库，是高可靠、面向列的、可伸缩的、分布式的数据库。
13、Kafka
kafka是一个消息中间件，作为一个中间缓冲层。
14、Flume
Flume常见的就是采集应用产生的日志文件中的数据，一般有两个流程。
一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。
另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。
第二阶段：数据挖掘算法
1、中文分词
开源分词库的离线和在线应用
2、自然语言处理
文本相关性算法
3、推荐算法
基于CB、CF，归一法，Mahout应用。
4、分类算法
NB、SVM
5、回归算法
LR、DecisionTree
6、聚类算法
层次聚类、Kmeans
7、神经网络与深度学习
NN、Tensorflow


本回答被网友采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起

加米谷大数据科技
2020-09-25 · 大数据人才培养的机构

加米谷大数据科技

成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。公司由来自华为、京东、星环、勤智等国内知名企业的多位技术大牛联合创办。面向社会提供大数据、人工智能等前沿技术的培训业务。

向TA提问

关注

展开全部

首先我们要学习Java语言和Linux操作系统。
Java 只需要学习Java的标准版JavaSE就可以了；Linux因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些。
下面进行大数据课程的学习，可以按照我的顺序，一步一步进行学习。
Hadoop、Zookeeper、Mysql、Sqoop、Hive、Oozie、Hbase、Kafka、Spark、Flink

已赞过 已踩过<

评论收起

百度网友f4c458a
2020-02-27 · 超过19用户采纳过TA的回答

知道答主

回答量：71

采纳率：66%

帮助的人：15.1万

我也去答题访问个人页

关注

展开全部

大数据思维导图

可以的话点个赞哦。

已赞过 已踩过<

评论收起

尚硅谷
2020-04-23 · 挤进尚硅谷，注定你优秀

尚硅谷

"尚硅谷"教育自成立以来，发展迅猛，凭借优秀的教学团队、前沿的课程体系、务实的教育理念，现已成为有口皆碑的IT培训品牌。

向TA提问

关注

展开全部

你好，大数据开发学习的路线，按照顺序学习就是可以的，另外学习方法上就是3多，多思考、多问、多敲键盘，学习是一个重复的过程，希望你早日学有所成！

大数据开发学什么

已赞过 已踩过<

评论收起

1条折叠回答

更多回答（3）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

大数据开发这么学习？

分享大数据学习路线：

第一阶段为JAVASE+MYSQL+JDBC

第二阶段为分布式理论简介

第三阶段为数据存储与计算（离线场景）

第四部分为数仓建设

第五阶段为分布式计算引擎

第六阶段为数据存储与计算（实时场景）

第七阶段为数据搜索

第八阶段为数据治理

第九阶段为BI系统

第十阶段为数据挖掘

其他类似问题

为你推荐：