spark streaming 每秒能处理多少数据

 我来答

1个回答

#热议# 普通体检能查出癌症吗？

红宝海1B
2017-03-07 · TA获得超过1230个赞

知道小有建树答主

回答量：1190

采纳率：0%

帮助的人：234万

我也去答题访问个人页

关注

展开全部

首先以一个简单的示例开始：用Spark Streaming对从TCP连接中接收的文本进行单词计数。
/**
* 功能：用spark streaming实现的针对流式数据进行单词计数的程序。
* 该程序只是对数据流中的每一批数据进行单独的计数，而没有进行增量计数。
* 环境：spark 1.6.1, scala 2.10.4
*/

// 引入相关类库
import org.apache.spark._
import org.apache.spark.streaming._

object NetworkWordCount {
def main(args: Array[String]) {
// Spark Streaming程序以StreamingContext为起点，其内部维持了一个SparkContext的实例。
// 这里我们创建一个带有两个本地线程的StreamingContext，并设置批处理间隔为1秒。
val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
val ssc = new StreamingContext(conf, Seconds(1))
// 在一个Spark应用中默认只允许有一个SparkContext，默认地spark-shell已经为我们创建好了
// SparkContext，名为sc。因此在spark-shell中应该以下述方式创建StreamingContext，以
// 避免创建再次创建SparkContext而引起错误：
// val ssc = new StreamingContext(sc, Seconds(1))

// 创建一个从TCP连接获取流数据的DStream，其每条记录是一行文本
val lines = ssc.socketTextStream("localhost", 9999)

// 对DStream进行转换，最终得到计算结果
val res = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

// 打印该DStream中每个RDD中的前十个元素
res.print()

// 执行完上面代码，Spark Streaming并没有真正开始处理数据，而只是记录需在数据上执行的操作。
// 当我们设置好所有需要在数据上执行的操作以后，我们就可以开始真正地处理数据了。如下：
ssc.start() // 开始计算
ssc.awaitTermination() // 等待计算终止
}
}

为了测试程序，我们得有TCP数据源作为输入，这可以使用Netcat(一般linux系统中都有，如果是windows系统，则推荐你使用 Ncat ，Ncat是一个改进版的Netcat)。如下使用Netcat监听指定本地端口：
nc -lk 9999

如果是使用Ncat，则对应命令如下：
ncat -lk 9999

在IntelliJ IDEA或Eclipse中可以本地运行测试上述Spark Streaming程序，该程序会连接到Netcat(或Ncat)监听的端口，你可以在运行Netcat(或Ncat)的终端中输入东东并回车，然后就可以看到该Spark Streaming程序会马上输出处理结果，并且这个处理是不停的、流式的。
注意：上述示例只是对数据流中的每一批数据进行单独的计数，而没有进行增量计数。

已赞过 已踩过<

评论收起

迈杰
2024-11-30 广告

RNA-seq数据分析是转录组研究的核心，包括数据预处理、序列比对、定量分析、差异表达分析、功能注释和可视化等步骤。数据预处理主要是质量控制和去除低质量序列。序列比对使用HISAT2、STAR等工具将reads比对到参考基因组。定量分析评估... 点击进入详情页

本回答由迈杰提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

spark streaming 每秒能处理多少数据

其他类似问题

为你推荐：