大数据为什么要选择Spark

 我来答

3个回答

匿名用户
2017-09-19

展开全部

Spark，是一种"One Stackto rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍！现在已经有很多大公司正在生产环境下深度地使用Spark作为大数据的计算框架，包括eBay、Yahoo!、BAT、网易、京东、华为、大众点评、优酷土豆、搜狗等等。
超强的通用性
Spark提供了Spark RDD、Spark SQL、SparkStreaming、Spark MLlib、Spark GraphX等技术组件，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
东时大数据学习java语言基础、java面向对象、Java框架、web前端、Linux入门、hadoop开发、Spark等内容。

已赞过 已踩过<

评论收起

迈杰
2024-11-30 广告

RNA-seq数据分析是转录组研究的核心，包括数据预处理、序列比对、定量分析、差异表达分析、功能注释和可视化等步骤。数据预处理主要是质量控制和去除低质量序列。序列比对使用HISAT2、STAR等工具将reads比对到参考基因组。定量分析评估... 点击进入详情页

本回答由迈杰提供

陀运0iY
2017-09-17 · TA获得超过170个赞

知道小有建树答主

回答量：604

采纳率：0%

帮助的人：398万

我也去答题访问个人页

关注

展开全部

我怎么知道啊

已赞过 已踩过<

评论收起

加米谷大数据科技
2019-01-24 · 大数据人才培养的机构

加米谷大数据科技

成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。公司由来自华为、京东、星环、勤智等国内知名企业的多位技术大牛联合创办。面向社会提供大数据、人工智能等前沿技术的培训业务。

向TA提问

关注

展开全部

Spark是一个为速度和通用目标设计的集群计算平台。

从速度的角度看，Spark从流行的MapReduce模型继承而来，可以更有效地支持多种类型的计算，如交互式查询和流处理。速度在大数据集的处理中非常重要，它可以决定用户可以交互式地处理数据，还是等几分钟甚至几小时。Spark为速度提供的一个重要特性是其可以在内存中运行计算，即使对基于磁盘的复杂应用，Spark依然比MapReduce更有效。

从通用性来说，Spark可以处理之前需要多个独立的分布式系统来处理的任务，这些任务包括批处理应用、交互式算法、交互式查询和数据流。通过用同一个引擎支持这些任务，Spark使得合并不同的处理类型变得简单，而合并操作在生产数据分析中频繁使用。而且，Spark降低了维护不同工具的管理负担。