大数据学习什么
大数据学以下内容:
阶段一:JavaSE基础核心
1.深入理解Java面向对象思想
2.掌握开发中常用基础API
3.熟练使用集合框架、IO流、异常
4.能够基于JDK8开发
5.熟练使用MySQL,掌握SQL语法
阶段二:Hadoop生态体系架构
1.Linux系统的安装和操作
2.熟练掌握Shell脚本语法
3.Idea、Maven等开发工具的使用
4.Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用
5.Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优
6.Zookeeper的内部原理、选举机制以及大数据生态体系下的应用
7.Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发实战需求
8.Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容
9.统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段
阶段三:Spark生态体系架构
1.Spark的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优策略
2.DophineScheduler的安装部署,熟练使用进行工作流的调度执行
3.了解数据仓库建模理论,充分熟悉电商行业数据分析指标体系,快速掌握多种大数据技术框架,了解认识多种数据仓库技术模块
4.HBase和Phoenix的部署使用、原理架构讲解与企业级优化
5.开发工具Git&Git Hub的熟练使用
6.Redis的入门、基本配置讲解、jedis的熟练掌握
7.ElasticSearch的入门安装部署及调优
8.充分理解用户画像管理平台的搭建及使用、用户画像系统的设计思路,以及标签的设计流程及应用,初步了解机器学习算法
9.项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更加广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
阶段四:Flink生态体系架构
1.熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等
2.使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标
3.ClickHouse安装、使用及调优
4.项目实战。贴近大数据的实际处理场景,多维度设计实战项目,能够更广泛的掌握大数据需求解决方案,全流程参与项目打造,短时间提高学生的实战水平,对各个常用框架加强认知,迅速累积实战经验
5.可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的推荐算法等
6.采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的阿里云解决方案