hadoop和spark的都是并行计算，有什么相同和区别？

 我来答

2个回答

#热议# 什么是淋病？哪些行为会感染淋病？

程序猿集锦
2020-11-09 · 专注于各种数据库技术

程序猿集锦

采纳数：91 获赞数：277

向TA提问私信TA

关注

展开全部

相同点都是基于MR的原理来实现的。
不同点前者基于磁盘+内存，磁盘占得比重比较大，而后者侧重于内存+磁盘，内存占得比重比较大，这也是为什么Hadoop没spark速度快的根本原因，spark基于内存来做MR，而Hadoop侧重于落地到磁盘来做MR。

已赞过 已踩过<

评论收起

重庆新华电脑学校
2020-11-11 · 学动漫、设计、电竞、电商、短视频、软件等

重庆新华电脑学校

重庆新华电脑学校隶属于新华教育集团，经重庆市人力资源和社会保障局审批成立的重庆地区大规模IT人才教育基地。是国家信息化教育全国示范基地，中国IT教育十大影响力品牌学校。

向TA提问

关注

展开全部

两者都是用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。
spark用户提交的任务成为application，一个application对应一个sparkcontext，app中存在多个job，每触发一次action操作就会产生一个job。
这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。
hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。
spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错。

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

hadoop和spark的都是并行计算，有什么相同和区别？

其他类似问题

为你推荐：