Linux里面spark作用是什么？

 我来答

4个回答

2021-11-11

展开全部

Spark是通用数据处理引擎，适用于多种情况。应用程序开发人员和数据科学家将Spark集成到他们的应用程序中，以快速地大规模查询，分析和转换数据。与Spark最频繁相关的任务包括跨大型数据集的交互式查询，来自传感器或金融系统的流数据处理以及机器学习任务。
Spark于2009年开始运作，最初是加州大学伯克利分校AMPLab内部的一个项目。更具体地说，它是出于证明Mesos概念的需要而诞生的，Mesos概念也是在AMPLab中创建的。在Mesos白皮书《 Mesos：数据中心中的细粒度资源共享平台》中首次讨论了Spark，其中最著名的作者是Benjamin Hindman和Matei Zaharia。
2013年，Spark成为Apache Software Foundation的孵化项目，并于2014年初被提升为该基金会的顶级项目之一。 Spark是基金会管理的最活跃的项目之一，围绕该项目成长的社区包括多产的个人贡献者和资金雄厚的企业支持者，例如Databricks，IBM和中国的华为。
从一开始，Spark就被优化为在内存中运行。它比Hadoop的MapReduce等替代方法更快地处理数据，后者倾向于在处理的每个阶段之间向计算机硬盘写入数据或从计算机硬盘写入数据。 Spark的支持者声称，Spark在内存中的运行速度可以比Hadoop MapReduce快100倍，并且在以类似于Hadoop MapReduce本身的方式处理基于磁盘的数据时也可以快10倍。这种比较并不完全公平，这不仅是因为原始速度对Spark的典型用例而言比对批处理更为重要，在这种情况下，类似于MapReduce的解决方案仍然很出色。

已赞过 已踩过<

评论收起

ZYZHY678AB
2021-11-11 · TA获得超过506个赞

知道答主

回答量：8127

采纳率：11%

帮助的人：169万

我也去答题访问个人页

关注

展开全部

老师说要我们学习LINUX，说是要在哪个里面编程，但是我还是不知道为什么要在LINUX里面编呢？听说LINUX很稳定，是不是这个原因呢？
　　本文前提已经确安装scala,sbt及spark 简述程序挂载集群运行步骤：
　　1、构建sbt标准项目工程结构：SBT项目工程结构图其：~/build.sbt文件用配置项目基本信息（项目名、组织名、项目版本、使用scala版本或者再配置些项目所需依赖包）；project/build.properties文件配置要使用版本sbt项目操作；project/plugins.sbt文件给项目添加所需插件；project/Build.scala文件项目进行些复杂高级配置；详细sbt安装配置实用参见博文：
　　2、相应目录编写程序spark程序必须要创建SparkContext实例SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
　　3、sbt compile命令编译程序错sbt package命令程序打包默认打包jar文件存放路径：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
　　4、打包jar问价添加SPAK_CLASSPATH（linux根据作用范围同种更改环境变量式说我配置式：spark根目录conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx）
　　5、配置环境变量spark根目录使用./run脚本运行程序例：./run spark.examples.SparkPi spark://masterIP:port注意程序涉及IO操作起默认路径SPARK_HOME；至于何修改路径待研究
转载仅供参考

已赞过 已踩过<

评论收起

草又考砸了

2021-11-11 · TA获得超过193个赞

知道答主

回答量：5534

采纳率：3%

帮助的人：224万

我也去答题访问个人页

关注

展开全部

Spark 读取文件系统的数据 (1)在spark-shell 中读取Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; Shell命令: [root@master spark-...

已赞过 已踩过<

评论收起

花养鱼

2021-11-11 · TA获得超过117个赞

知道答主

回答量：3439

采纳率：4%

帮助的人：142万

我也去答题访问个人页

关注

展开全部

老师说要我们学习LINUX，说是要在哪个里面编程，但是我还是不知道为什么要在LINUX里面编呢？听说LINUX很稳定，是不是这个原因呢？
本文前提已经确安装scala,sbt及spark 简述程序挂载集群运行步骤：
1、构建sbt标准项目工程结构：SBT项目工程结构图其：~/build.sbt文件用配置项目基本信息（项目名、组织名、项目版本、使用scala版本或者再配置些项目所需依赖包）；project/build.properties文件配置要使用版本sbt项目操作；project/plugins.sbt文件给项目添加所需插件；project/Build.scala文件项目进行些复杂高级配置；详细sbt安装配置实用参见博文：
2、相应目录编写程序spark程序必须要创建SparkContext实例SparkContext(＂master＂, ＂projectName＂, ＂SPARK_HOME＂, ＂yourProject.jar path＂)
3、sbt compile命令编译程序错sbt package命令程序打包默认打包jar文件存放路径：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
4、打包jar问价添加SPAK_CLASSPATH(linux根据作用范围同种更改环境变量式说我配置式：spark根目录conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx)
5、配置环境变量spark根目录使用./run脚本运行程序例：./runspark.examples.SparkPispark://masterIP:port注意程序涉及IO操作起默认路径SPARK_HOME；至于何修改路径待研究

已赞过 已踩过<

评论收起

1条折叠回答

更多回答（2）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Linux里面spark作用是什么？

其他类似问题

为你推荐：