Hadoop和spark之间有什么不同点呀?

想知道... 想知道 展开
 我来答
IT小猫咪
2020-04-02 · 江西优就业的种草机~
IT小猫咪
采纳数:72 获赞数:270

向TA提问 私信TA
展开全部
  1. 诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代

  2. 属于下一代的spark肯定在综合评价上要优于第一代的hadoop

  3. spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的reduce,reduce再各自对通过shuffle读取来的数据进行聚合运算

  4. spark和hadoop在分布式计算的具体实现上,又有区别;hadoop中的mapreduce运算框架,一个运算job,进行一次map-reduce的过程;而spark的一个job中,可以将多个map-reduce过程级联进行

  5. spark和hadoop的另一个区别是,spark是一个运算平台,而hadoop是一个复合平台(包含运算引擎,还包含分布式文件存储系统,还包含分布式运算的资源调度系统),所以,spark跟hadoop来比较的话,主要是比运算这一块

  6. 大数据技术发展到目前这个阶段,hadoop(主要是说它的运算部分)日渐式微,而spark目前如日中天,相关技术需求量大,offer好拿,薪资相对更高

百度网友690070a
2021-09-01 · 超过37用户采纳过TA的回答
知道小有建树答主
回答量:181
采纳率:0%
帮助的人:8.4万
展开全部
hadoop:是分布式存储系统,同时提供分布式计算环境,存储称为hdfs,计算称为mapreduce 简称MR。
spark:是一个分布式计算框架,类似于hadoop的运算环境,但是比mapreduce提供了更多支持,与其他系统的对接,一些高级算法等,可以独立运行,也可以使用hdfs上的数据,调度任务也可以基于hadoop的yarn来管理。由于整个计算都可以在内存中完成,所以速度自然比传统的MR计算的快。除此之外spark运行时占用的系统资源也比MR小得多,相比较属于轻量级运行。最核心的也是它提供的分析学习算法,这个大部分分布式架构不具有的。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式