如何将 MongoDB MapReduce 速度提升 20 倍

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

huanglenzhi
推荐于2016-12-02 · 知道合伙人数码行家

huanglenzhi
知道合伙人数码行家

采纳数：117538 获赞数：517187

长期从事计算机组装，维护，网络组建及管理。对计算机硬件、操作系统安装、典型网络设备具有详细认知。

向TA提问私信TA

关注

展开全部

　　使用排序
　　我在之前的这篇文章中简要说明了使用排序对于MR的好处，这是一个鲜为人知的特性。在这种情况下，如果处理未排序的输入，意味着MR引擎将得到随机排序的值，

　　基本上没有机会在RAM中进行reduce，相反，它将不得不通过一个临时collection来将数据写回磁盘，然后按顺序读取并进行reduce。

　　使用多线程
　　MongoDB对单独的MR作业并不使用多线程——它仅仅对多作业使用多线程。但通过多核CPU，在单个服务器使用Hadoop风格来并行作业非常有优势。我们需要做的是把输入分成几块，通过各个块来加速一个MR作业。也许数据集有简单的方法来分割，但其他使用splitVector命令（不明确）可以使你很快的找到分割点
　　使用多数据库
　　问题是在多线程之间会有很多锁竞争。在上锁时，MR并不是那么无私的(它每1000次读操作就会产生一次锁定)，而且MR任务还会执行许多写操作，导致线程最终都会在等待另一个线程。由于每个MongoDB数据库都有私有锁，让我们尝试为每一个线程使用一个不同的输出数据库
　　使用纯JavaScript模式
　　当把输入数据拆分到不同线程上去的时候，发生了一些有趣的事情:每个线程现在有大约250000个不同的值来输出，而不是1百万。这意味着我们可以使用“纯JS模式”，它可以通过使用jsMode:true来开启。开启后，MongoDB在处理时将不会把对象在JS和BSON之间来回翻译，相反，它使用一个限额500000个key的内部JS字典来化简所有对象。

已赞过 已踩过<

评论收起

富港检测技术（东莞）有限公司_
2024-05-27 广告

ISTA3E程序是对相同产品的集合包装的综合模拟性能测试，集合包装件被定义为将一个产品、多个产品或包装件放置在滑板或托盘上，固定在一起或是作为一个单元运输。例如：一台机器由带瓦楞底托的托盘上、瓦楞侧围、顶盖包装，用缠绕膜缠绕在托盘上。用于评... 点击进入详情页

本回答由富港检测技术（东莞）有限公司_提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何将 MongoDB MapReduce 速度提升 20 倍

其他类似问题

为你推荐：