自学大数据学习路线:(前提:以Java语言为基础)
总共分为四个模块:
大数据基础
大数据框架
大数据项目
其他
Java基础:集合,IO流
JVM:重点是项目调优
多线程:理论和项目应用
Linux:最基本的操作
Java基础:集合,IO流
JVM:重点是项目调优
多线程:理论和项目应用
Linux:最基本的操作
第一模块:大数据基础
这一个模块的重点是为了面试做准备,个人根据自己的情况去复习,复习的时候理论部分建议看书和博客资料,应用部分建议看视频和Demo调试。
下面分别去详细的介绍一下:
主要是理论部分,可以看书或者博客总结,这一块没什么推荐的,网上很多资料可以找到。
这两块重点要结合到项目中,通过项目中的实际使用,然后反馈到对应的理论基础,这一块建议在B站上看对应的视频。B站”尚硅谷“官网上的视频很详细。
这一块有时间,先把《鸟哥的Linux私房菜》这本书看一遍,然后装个Linux系统自己玩玩,对应的最常使用的命令自己敲敲。
如果没时间,就把最常用的命令自己敲敲,网上有对应的总结,自己很容易搜到。一定要自己敲敲。
第二模块:大数据框架
Hadoop:重点学,毕竟大数据是以Hadoop起家的,里面就HDFS,MapReduces,YARN三个模块。
Hive:先学会怎么用,当作一个工具来学习。
Spark:重点学,用来替代Hadoop的MapReduces的,里面重点有三块:Spark Core,Spark SQL,Spark Streaming。
Flink:我还没学。
Hbase:当作一个工具来学习,先学习怎么用。
Kafka:先学怎么用,其实里面的模块可以先理解成两部分:生产者和消费者。所有的核心都是围绕这两个展开的。
Flume:当作一个工具来学习,先学习怎么用。
Sqoop:当作一个工具来学习,先学习怎么用。
Azkaban:当作一个工具来学习,先学习怎么用。
Scala:这个是一门编程语句,基于Java 而来的,可以工作后在学习。
Zookeeper:当作一个工具来学习,先学习怎么用。
以上的学习视频和资料可以在B站的”尚硅谷“和”若泽大数据“里找到,很详细。资料目前最详细的资料就是各个框架对应的官网。视频里也是对着官网一步一步讲的。官网都是英文的,可以用Google浏览器的翻译插件,翻译成中文后在看。
第三模块:大数据项目
B站的”尚硅谷“和”若泽大数据“。
第四模块:其他
分布式:知道最基本的概念,有个分布式项目的经验。分布式项目可以在B站的”尚硅谷“里找到。
算法:网上有详细的总结,书:推荐《剑指Offer》和《算法4》,看算法的目的是先掌握实现算法的思路然后才是实现方式。
SQL:主要是调优,网上有很详细的总结。
除此之外:Storm框架不要学了。
很多准备前期都是为了面试,例如:JVM和多线程,SQL调优和算法。这些东西真正使用的过程中千差万别,但核心知识不变,所以面试的时候总是会问,这一块的前期以通过面试为主要点。
学习了差不多了,例如:Hadoop,Hive 和Spark学完了,就去面试面试,通过面试的情况在来调整自己的学习。
2021-07-01 · 百度认证:云南新华电脑职业培训学校官方账号
大数据需要学的:1、Java编程技术;2、Linux命令;3、Hadoop;4、Hive;5、Avro与Protobuf;6、ZooKeeper;7、HBase;8、phoenix等。