2分钟读懂Hadoop和Spark的异同

 我来答

1个回答

#合辑# 机票是越早买越便宜吗？

直切机
2016-02-01 · TA获得超过245个赞

知道小有建树答主

回答量：330

采纳率：0%

帮助的人：366万

我也去答题访问个人页

关注

展开全部

解决问题的层面不一样
　　首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:
它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。

　　同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。

　　两者可合可分

　　Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用Hadoop自身的MapReduce来完成数据的处理。

　　相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的，毕竟，大家都认为它们的结合是最好的。

　　以下是天地会珠海分舵从网上摘录的对MapReduce的最简洁明了的解析，其中把人理解成计算机就好了:

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

2分钟读懂Hadoop和Spark的异同

其他类似问题

为你推荐：