大数据专业主要学习什么语言?
4个回答
展开全部
学习大数据,首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有人说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快
Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有人说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快
展开全部
这个如果想深入了解欢迎来河南新华深入学习咨询
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
1、Java语言基础
整个大数据开发技术栈,主要包含了离线计算和实时计算两大部分,而整个大数据生态中的框架绝大部分都是用Java开发或者兼容了Java的API调用,那么作为基于JVM的第一语言Java就是我们绕不过去的坎,Java语言的基础也是我们阅读源码和进行代码调优的基础。
Java需要掌握语言基础、锁、多线程、并发包中常用的并发容器(J.U.C)等。
2、Linux基础
作为大数据开发的主要环境,Linux也是必须掌握的。
了解Linux的常用命令、远程登录、上传下载、系统目录、文件和目录操作、Linux下的权限体系、压缩和打包、用户和组、Shell脚本的编写、管道操作等,是基础要求。
3、分布式理论
掌握分布式基本概念,集群(Cluster)、负载均衡(Load Balancer)等;掌握分布式理论基础,一致性、2PC和3PC、CAP、时间、时钟和事件顺序、Paxos、Raft、Zab、选举、多数派和租约等。
3、大数据框架网络通信基石——Netty
Netty是当前最流行的NIO框架,Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用,业界著名的开源组件只要涉及到网络通信,Netty是最佳的选择。
4、离线计算
Hadoop体系是我们学习大数据框架的基石,尤其是MapReduce、HDFS、Yarn三驾马车基本垫定了整个数据方向的发展道路,也是后面我们学习其他框架的基础。
OLAP引擎Hive
Hive是一个数据仓库基础工具,在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。
列式数据库Hbase
它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。
5、实时计算
分布式消息队列Kafka
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica)的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。
Spark
Spark是专门为大数据处理设计的通用计算引擎,是一个实现快速通用的集群计算平台。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。
整个大数据开发技术栈,主要包含了离线计算和实时计算两大部分,而整个大数据生态中的框架绝大部分都是用Java开发或者兼容了Java的API调用,那么作为基于JVM的第一语言Java就是我们绕不过去的坎,Java语言的基础也是我们阅读源码和进行代码调优的基础。
Java需要掌握语言基础、锁、多线程、并发包中常用的并发容器(J.U.C)等。
2、Linux基础
作为大数据开发的主要环境,Linux也是必须掌握的。
了解Linux的常用命令、远程登录、上传下载、系统目录、文件和目录操作、Linux下的权限体系、压缩和打包、用户和组、Shell脚本的编写、管道操作等,是基础要求。
3、分布式理论
掌握分布式基本概念,集群(Cluster)、负载均衡(Load Balancer)等;掌握分布式理论基础,一致性、2PC和3PC、CAP、时间、时钟和事件顺序、Paxos、Raft、Zab、选举、多数派和租约等。
3、大数据框架网络通信基石——Netty
Netty是当前最流行的NIO框架,Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用,业界著名的开源组件只要涉及到网络通信,Netty是最佳的选择。
4、离线计算
Hadoop体系是我们学习大数据框架的基石,尤其是MapReduce、HDFS、Yarn三驾马车基本垫定了整个数据方向的发展道路,也是后面我们学习其他框架的基础。
OLAP引擎Hive
Hive是一个数据仓库基础工具,在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。
列式数据库Hbase
它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。
5、实时计算
分布式消息队列Kafka
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica)的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。
Spark
Spark是专门为大数据处理设计的通用计算引擎,是一个实现快速通用的集群计算平台。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询