大数据中hadoop核心技术是什么
1个回答
展开全部
Hadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件。
可靠:有备份,数据不易丢失。hdfs可以备份数据。
可扩展: 存储不够,加磁盘,加机器挂磁盘 分析CPU内存资源不够,加机器加内存
分布式计算: 多个机器同时计算一个任务的一部分,然后,把每个计算的结果进行汇总。
hadoop核心组件 用于解决两个核心问题:存储和计算 核心组件 :
1)Hadoop Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC 和持久化数据结构)。
2)Hadoop Distributed FileSystem(Hadoop分布式文件系统HDFS) HDFS是存储数据的地方,就像我们电脑的硬盘一样文件都存储在这个上面。
3)Hadoop MapReduce(分布式计算框架)MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
4)Hadoop YARN(分布式资源管理器)YARN是体现Hadoop平台概念的重要组件,有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源。
可靠:有备份,数据不易丢失。hdfs可以备份数据。
可扩展: 存储不够,加磁盘,加机器挂磁盘 分析CPU内存资源不够,加机器加内存
分布式计算: 多个机器同时计算一个任务的一部分,然后,把每个计算的结果进行汇总。
hadoop核心组件 用于解决两个核心问题:存储和计算 核心组件 :
1)Hadoop Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC 和持久化数据结构)。
2)Hadoop Distributed FileSystem(Hadoop分布式文件系统HDFS) HDFS是存储数据的地方,就像我们电脑的硬盘一样文件都存储在这个上面。
3)Hadoop MapReduce(分布式计算框架)MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
4)Hadoop YARN(分布式资源管理器)YARN是体现Hadoop平台概念的重要组件,有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源。
万山数据
2024-11-14 广告
2024-11-14 广告
作为北京万山数据科技有限公司的工作人员,对于数据反向治理有一定的了解。数据反向治理可以理解为对数据治理流程的逆向操作,旨在确保数据的准确性、一致性和安全性。在数据治理过程中,如果发现数据问题或异常,可以通过反向治理进行追溯和修正。我们公司拥...
点击进入详情页
本回答由万山数据提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询