Scala在大数据处理方面有何优势？





 我来答

3个回答

#合辑# 机票是越早买越便宜吗？

燕魅仙里菜8257
2017-12-06 · TA获得超过353个赞

知道答主

回答量：294

采纳率：95%

帮助的人：61.6万

我也去答题访问个人页

关注

展开全部

首先，Scala不把程序员当傻子。当马丁•奥德斯基宣布Scala 2.12（http://www.scala-lang.org/news/roadmap-next）将要简化语法，推出Scala"Don Giovanni"项目的时候，在视频中说的很清楚：“Scala现在是为聪明人创造的，以后也是为聪明人服务的。”所以不同于Python让程序员用一种方法做所有事情，Scala提供一整套工具，让程序员自由选择，无论是mutable数据结构，immutable数据结构，并行（parallel）数据结构。然后在这些选择中，Scala再针对他们进行算法层面的特殊优化。Scala相信程序员的聪明才智，让程序员自行选择合适的结构，以针对变化万千的任务需求，这点是Scala做得极好的地方。

已赞过 已踩过<

评论收起

回忆0110938dac
2017-12-06 · TA获得超过415个赞

知道答主

回答量：290

采纳率：96%

帮助的人：69万

我也去答题访问个人页

关注

展开全部

Scala是不善于处理大数据的。作为一个函数式语言，必须在内存消耗和性能消耗两者之间徘徊，而普通的命令式语言就并不会有这种问题。举个例子，从数据结构来看，函数式语言要求不能修改原有结构（如果修改了，就不再吻合Immutable这一黄金定律），对于普通的链表（链表List在函数式语言中比数组Array更常见），每当你做一次操作，比如增加元素，删减元素等等，照理说会生成一个新的链表，而非像过程式语言，直接通过指针对链表本身进行修改。为了让操作速度达到与过程式语言类似或者相匹配，函数式语言的天才们发明了很多种不同方法，比如用结构分享（Structural Sharing）的技巧来应付链表，每次操作只记录下那一项特殊操作，而不毁坏或者替代原有链表。对更高级一些的结构，比如哈希图（HashMap），普通命令式语言用哈希列表（HashTable）这种简单的方式来执行，但悲壮的函数式语言就必须依赖于2-3拇指树（2-3 Finger Trie）一类的高端结构来达到相同的操作效率。

已赞过 已踩过<

评论收起

奈惊亮9193
2017-12-06 · TA获得超过416个赞

知道答主

回答量：310

采纳率：97%

帮助的人：66.4万

我也去答题访问个人页

关注

展开全部

我想大部分应用开发程序员，最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发，你可以去论证ruby优缺点，但实际上应用开发效率提升很大程度上依靠类库。现在Spark是大数据领域的杀手级应用框架，BAT，我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使用Spark了，这个时候再谈Scala适不适合大数据开发其实意义不大。因为大家比的不只是编程语言，而是构建在这个编程语言之上的类库、社区和生态圈(包括文档和数据、衍生类库、商业技术支持、成熟产品等等)。那么反过来问，为什么Spark会选择Scala可能更有意义一点。Spark主创Matei在不同场合回答两次这个问题，思考的点稍微不一样，但重点是一样的，很适合回答题主的问题。

总结来说最主要有三点：1.API能做得优雅;这是框架设计师第一个要考虑的问题，框架的用户是应用开发程序员，API是否优雅直接影响用户体验。2.能融合到Hadoop生态圈，要用JVM语言;Hadoop现在是大数据事实标准，Spark并不是要取代Hadoop，而是要完善Hadoop生态。JVM语言大部分可能会想到Java，但Java做出来的API太丑，或者想实现一个优雅的API太费劲。3.速度要快;Scala是静态编译的，所以和JRuby,Groovy比起来速度会快很多，非常接近Java。1.Scala的基准性能很接近Java，但确实没有Java好。但很多任务的单次执行的，性能损失在毫秒级不是什么问题；2.在大数据计算次数很多的情况下，我们全部写成命令式，而且还要考虑GC，JIT等基于JVM特性的优化。

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Scala在大数据处理方面有何优势？

其他类似问题

为你推荐：