Scala在大数据处理方面有何优势?

 我来答
燕魅仙里菜8257
2017-12-06 · TA获得超过353个赞
知道答主
回答量:294
采纳率:95%
帮助的人:61.6万
展开全部

首先,Scala不把程序员当傻子。当马丁•奥德斯基宣布Scala 2.12(http://www.scala-lang.org/news/roadmap-next)将要简化语法,推出Scala"Don Giovanni"项目的时候,在视频中说的很清楚:“Scala现在是为聪明人创造的,以后也是为聪明人服务的。”所以不同于Python让程序员用一种方法做所有事情,Scala提供一整套工具,让程序员自由选择,无论是mutable数据结构,immutable数据结构,并行(parallel)数据结构。然后在这些选择中,Scala再针对他们进行算法层面的特殊优化。Scala相信程序员的聪明才智,让程序员自行选择合适的结构,以针对变化万千的任务需求,这点是Scala做得极好的地方。

回忆0110938dac
2017-12-06 · TA获得超过415个赞
知道答主
回答量:290
采纳率:96%
帮助的人:69万
展开全部

Scala是不善于处理大数据的。作为一个函数式语言,必须在内存消耗和性能消耗两者之间徘徊,而普通的命令式语言就并不会有这种问题。举个例子,从数据结构来看,函数式语言要求不能修改原有结构(如果修改了,就不再吻合Immutable这一黄金定律),对于普通的链表(链表List在函数式语言中比数组Array更常见),每当你做一次操作,比如增加元素,删减元素等等,照理说会生成一个新的链表,而非像过程式语言,直接通过指针对链表本身进行修改。为了让操作速度达到与过程式语言类似或者相匹配,函数式语言的天才们发明了很多种不同方法,比如用结构分享(Structural Sharing)的技巧来应付链表,每次操作只记录下那一项特殊操作,而不毁坏或者替代原有链表。对更高级一些的结构,比如哈希图(HashMap),普通命令式语言用哈希列表(HashTable)这种简单的方式来执行,但悲壮的函数式语言就必须依赖于2-3拇指树(2-3 Finger Trie)一类的高端结构来达到相同的操作效率。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
奈惊亮9193
2017-12-06 · TA获得超过416个赞
知道答主
回答量:310
采纳率:97%
帮助的人:66.4万
展开全部

我想大部分应用开发程序员,最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发,你可以去论证ruby优缺点,但实际上应用开发效率提升很大程度上依靠类库。现在Spark是大数据领域的杀手级应用框架,BAT,我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使用Spark了,这个时候再谈Scala适不适合大数据开发其实意义不大。因为大家比的不只是编程语言,而是构建在这个编程语言之上的类库、社区和生态圈(包括文档和数据、衍生类库、商业技术支持、成熟产品等等)。那么反过来问,为什么Spark会选择Scala可能更有意义一点。Spark主创Matei在不同场合回答两次这个问题,思考的点稍微不一样,但重点是一样的,很适合回答题主的问题。

总结来说最主要有三点:1.API能做得优雅;这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2.能融合到Hadoop生态圈,要用JVM语言;Hadoop现在是大数据事实标准,Spark并不是要取代Hadoop,而是要完善Hadoop生态。JVM语言大部分可能会想到Java,但Java做出来的API太丑,或者想实现一个优雅的API太费劲。3.速度要快;Scala是静态编译的,所以和JRuby,Groovy比起来速度会快很多,非常接近Java。1.Scala的基准性能很接近Java,但确实没有Java好。但很多任务的单次执行的,性能损失在毫秒级不是什么问题;2.在大数据计算次数很多的情况下,我们全部写成命令式,而且还要考虑GC,JIT等基于JVM特性的优化。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式