分布式计算的概念及框架

 我来答

1个回答

#热议# 不吃早饭真的会得胆结石吗？

温屿17
2022-07-18 · TA获得超过1.2万个赞

知道小有建树答主

回答量：827

采纳率：0%

帮助的人：93.2万

我也去答题访问个人页

关注

展开全部

Hello各位old铁，卑微小张在线分享技术观念，以下是今日份读解。

关于分布式计算、并行计算的理解

一提到分布式计算就不得不区分一下它与并行计算的相关概念。

……之前一直被问到并行计算和分布式计算有什么区别，当时脑子里就在想What……

这不是一个东西？一直分布式并行计算叫着。之后有过相关的学习以及查阅资料，发现二者确实存在一定的联系，但其实还真不是一个东西。

并行计算，相对于串行计算而言，一般可分为时间并行和空间并行。时间并行可以看做是流水线操作，类似CPU执行的流水线，而空间并行则是目前大多数研究的问题，例如一台机器拥有多个处理器，在多个CPU上执行计算，例如MPI技术，通常可分为数据并行和任务并行。

分布式计算，则是相对单机计算而言的，利用多台机器，通过网络连接和消息传递协调完成计算。把需要进行大量计算的工程数据分区成小块，由多台计算机分别计算，再上传运算结果后，将结果统一合并得出最终结果。

总而言之现在人们更比较关心的是二者之间的重叠部分，例如：Hadoop。Spark等等。

关于分布式计算框架

Hadoop 是分布式计算框架的基础，其中的HDFS提供文件存储，Yarn进行资源管理。在这上面可以运行MapReduce、Spark、Tez等计算框架。

MapReduce :是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，非常适合数据密集型计算。

Spark :Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Storm :MapReduce也不适合进行流式计算、实时分析，比如广告点击计算等。Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

Tez : 是基于Hadoop Yarn之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Map/Reduce过程拆分成若干个子过程，同时可以把多个Map/Reduce任务组合成一个较大的DAG任务，减少了Map/Reduce之间的文件存储。同时合理组合其子过程，也可以减少任务的运行时间。

已赞过 已踩过<

评论收起

北京磐安云创科技有限公司_
2023-02-01 广告

价格只是购买产品或服务过程中的一项指标，如果单纯只比较价格，其实考虑并不是那么周到。价格、质量、服务、口碑、是否合适自己的情况等都需要一起考虑。以上回答如果还觉得不够详细,可以来咨询下北京磐安公司。北京磐安公司是一家专业从事高新软件的技术公... 点击进入详情页

本回答由北京磐安云创科技有限公司_提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

分布式计算的概念及框架

为你推荐：