spark core 指的是什么

 我来答

1个回答

#热议# 为什么有人显老，有人显年轻？

lalach809
2017-03-12 · 超过35用户采纳过TA的回答

知道答主

回答量：147

采纳率：0%

帮助的人：43.4万

我也去答题访问个人页

关注

展开全部

一个简单的例子

// 需要对名为逗hello.txt地的HDFS文件进行一次map操作，再进行一次reduce操作。也就是说，需要对一份数据执行两次算子操作。
 
// 错误的做法：对于同一份数据执行多次算子操作时，创建多个RDD。
// 这里执行了两次textFile方法，针对同一个HDFS文件，创建了两个RDD出来，然后分别对每个RDD都执行了一个算子操作。
// 这种情况下，Spark需要从HDFS上两次加载hello.txt文件的内容，并创建两个单独的RDD；第二次加载HDFS文件以及创建RDD的性能开销，很明显是白白浪费掉的。
val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
val rdd2 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd2.reduce(...)
 
// 正确的用法：对于一份数据执行多次算子操作时，只使用一个RDD。
// 这种写法很明显比上一种写法要好多了，因为我们对于同一份数据只创建了一个RDD，然后对这一个RDD执行了多次算子操作。
// 但是要注意到这里为止优化还没有结束，由于rdd1被执行了两次算子操作，第二次执行reduce操作的时候，还会再次从源头处重新计算一次rdd1的数据，因此还是会有重复计算的性能开销。
// 要彻底解决这个问题，必须结合逗原则三：对多次使用的RDD进行持久化地，才能保证一个RDD被多次使用时只被计算一次。
val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
rdd1.reduce(...)


本回答被提问者采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

淘宝热销游戏电脑品牌，畅游新世界不再掉帧

高性能配置，游戏流畅不卡顿，沉浸式体验一触即发。优选推荐，淘宝游戏电脑排行榜，让每一场战斗都酣畅淋漓。

simba.taobao.com广告

spark core 指的是什么

您可能关注的内容

其他类似问题

为你推荐：