Hadoop是一个开源的大数据分析软件,集合了大数据不同阶段技术的生态系统,其

1个回答
展开全部
摘要 Hadoop 本身是一款开源大数据组件,它包括三个部分:MapReduce计算模型、HDFS 分布式文件系统、Yarn 资源管理系统。像现在其他 Hadoop 相关的大数据组件,比如HBase、Hive等,因为这些组件底层其实还是依赖 Hadoop 系统的功能模块来进行实现的,没有完全脱离于 Hadoop 系统单独形成一个开源组件。所以整体 Hadoop 生态系统包含很多大数据组件。
咨询记录 · 回答于2022-03-29
Hadoop是一个开源的大数据分析软件,集合了大数据不同阶段技术的生态系统,其
Hadoop 本身是一款开源大数据组件,它让好包括三个部分:MapReduce计算模型、HDFS 分布式文件系统、Yarn 资源管理系统。坦伍铅像现在其他 Hadoop 相关的大数据组件,比如HBase、Hive等,因为这些组件底层其实还是依赖 Hadoop 系统的功能模块来进行实现的,没有完全脱离于 Hadoop 系统单独形成一橘谈个开源组件。所以整体 Hadoop 生态系统包含很多大数据组件。
比如像 HBase NoSQL 数据库的实现,最底层是以 HFile 文件进行存储,而 HFile 文件是在 HDFS 上面进行存储。HBase 整体上理解可以认为是一个基于 Hadoop HDFS 分布式文件系统的一个数据库。使用 HDFS 分布式文件系统进行存储时,因为 HDFS 本身具锋轿有分区容错性,同时HDFS 文件系统是分布式的,未猛裤来在机器扩容时,也非常方便。现在其实也有很多分银知肆布式计算引擎也属于 Hadoop 生态系统,比如 Spark ,Storm等。公司其实为了大数据技术的收敛,一般都会统一来使用 Yarn 资源管理器来管理和调度集群的资源,而很多 Spark 任务、Storm 任务也支持在 Yarn 上面进行运行,而 Yarn 资源管理器又属于 Hadoop 本身的一个模块,所以它们属于 Hadoop 生态系统的一员。
虽然 Hadoop 生态系统有很多大数据组件,但是新人在学习入门的备基时候,我建议还是先从 Hadoop 底层的原理和 Hadoop API 的使用进行入手败喊,先去了解一下 Hadoop 到底是一个什么样的大数据组件,它包含了哪些,它的功能是什么等等。我建议可以先从《Hadoop权威指南》这本书开始看起。如果书确实看不懂的话,可以去网上看一些 Hadoop 的技术博客,有些技术博客比书本要讲解的清楚,仿枯谨同时,你也可以从网上下载 Hadoop 相关的视频来进行学习,想入门大数据的朋友,我推荐先从 Hadoop 入手。
已赞过
你对这个回答的评价是?
评论 收起
下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消