spark部署python脚本怎么部署三方库

 我来答
龙氏风采
2016-12-24 · 知道合伙人互联网行家
龙氏风采
知道合伙人互联网行家
采纳数:5849 获赞数:12817
从事互联网运营推广,5年以上互联网运营推广经验,丰富的实战经

向TA提问 私信TA
展开全部
  1、Spark脚本提交/运行/部署
  1.1 spark-shell(交互窗口模式)
  运行Spark-shell需要指向申请资源的standalone spark集群信息,其参数为MASTER,还可以指定executor及driver的内存大小。
  sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077
  spark-shell启动完后,可以在交互窗口中输入Scala命令,进行操作,其中spark-shell已经默认生成sc对象,可以用:
  val user_rdd1 = sc.textFile(inputpath, 10)
  读取数据资源等。
  1.2 spark-shell(脚本运行模式)
  上面方法需要在交互窗口中一条一条的输入scala程序;将scala程序保存在test.scala文件中,可以通过以下命令一次运行该文件中的程序代码:
  sudo spark-shell --executor-memory 5g --driver-memory1g --master spark//192.168.180.216:7077 < test.scala
  运行后会自动进入spark-shell交互窗口并且运行test.scala中的程序,运行完成后,会自动退出spark-shell。
  如果程序退出终端后,Linux终端失效,可以试试:stty echo 命令
  1.3 spark-submit (程序部署)
  Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在local、Standalone、YARN、Mesos上的快捷部署。可以指定集群资源master,executor/ driver的内存资源等。
  sudo spark-submit --masterspark://192.168.180.216:7077 --executor-memory 5g --class mypackage.test workcount.jar hdfs://192.168.180.79:9000/user/input.txt
  workcount .scala 代码打包workcount.jar,并将文件需要上传到spark的安装目录下面;
  hdfs//192.168.180.79:9000/user/input.txt为输入参数;
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式