MapReduce执行流程及示例

 我来答
抛下思念17
2022-07-22 · TA获得超过1.1万个赞
知道大有可为答主
回答量:6504
采纳率:99%
帮助的人:37万
展开全部

MapReduce是分布式计算框架,由Google提出,主要用于解决海量数据的计算问题。
MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调搏携用自己的方法,最后输出到HDFS的文件中。整个流程如图:

每个Mapper任务是一个java进程,它会读取基凳伏HDFS中的文件,解析成很多的键值对,经过我们覆盖的map方法处理后,转换为很多的键值对再输出。整个Mapper任务的处理过程又可以分为以下几个阶段,如图所示粗扒:

每个Reducer任务是一个java进程。Reducer任务接收Mapper任务的输出,归约处理后写入到HDFS中,可以分为如下图所示的几个阶段。

shuffle阶段是指从Map结束到Reduce开始之间的过程 。从下这张图中可以了解shuffle所处的位置。

-----------------------分------------------割----------------线-------------------------

Map端

假设只有一个分区(只有一个Reduce任务)

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
威孚半导体技术
2024-08-19 广告
威孚(苏州)半导体技术有限公司是一家专注生产、研发、销售晶圆传输设备整机模块(EFEM/SORTER)及核心零部件的高科技半导体公司。公司核心团队均拥有多年半导体行业从业经验,其中技术团队成员博士、硕士学历占比80%以上,依托丰富的软件底层... 点击进入详情页
本回答由威孚半导体技术提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式