成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Spark的YARN模式部署

數據庫 Spark
Spark可以通過SBT(Scala Build Tool)或者Maven來編譯,官方提供的二進制安裝文件是用Maven編譯。

1:Spark的編譯

Spark可以通過SBT(Scala Build Tool)或者Maven來編譯,官方提供的二進制安裝文件是用Maven編譯,如果是要在YARN集群上運行的話,還需要再用SBT編譯一下,生成YARN client端使用的jar包;最好是直接對源碼使用SBT進行編譯而生成YARN client端使用的jar包。筆者在測試過程中,對Maven編譯過的Spark進行SBT二次編譯后,在運行部分例子的時候有錯誤發生。

A:Maven編譯

筆者使用的環境曾經編譯過Hadoop2.2.0(參見hadoop2.2.0源碼編譯(CentOS6.4)),所以不敢確定Maven編譯過程中,Spark是不是需要編譯Hadoop2.2.0中使用的部分底層軟件(看官方資料是需要Protobuf2.5)。除了網絡下載不給力而不斷的中止、然后重新編譯而花費近1天的時間外,編譯過程還是挺順利的。

maven編譯時,首先要進行設置Maven使用的內存項配置:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

然后用Maven編譯:

mvn -Pnew-yarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTestspackage

參考文檔:Building Spark with Maven

B:SBT編譯

Spark源碼和二進制安裝包都綁定了SBT。值得注意的是,如果要使用Scala進行Spark應用開發,必須使用和Spark版本相對應版本的Scala,如:Spark0.8.1對應的Scala2.9.3。對于不匹配的Scala應用開發可能會不能正常工作。

SBT編譯命令:

SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly

二種編譯都是在Spark根目錄下運行。在SBT編譯過程中如果網絡不給力,手工中斷編譯(ctrl+z)后要用kill-9 將相應的進程殺死后,然后再重新編譯,不然會被之前的sbt進程鎖住而不能重新編譯。

2:Spark運行

Spark可以單獨運行,也可以在已有的集群上運行,如Amazon EC2、Apache Mesos、Hadoop YARN。下面用Spark自帶的例程進行測試,運行的時候都是在Spark的根目錄下進行。如果需要知道運行更詳細的信息,可以使用log4j,只要在根目錄下運行:

cp conf/log4j.properties.template conf/log4j.properties

A:本地運行

./run-example org.apache.spark.examples.SparkPi local

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

也可以多線程方式運行,下面的命令就是開4個線程。

./run-example org.apache.spark.examples.SparkPi local[4]

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

B:YARN集群

啟動Hadoop2.2.0集群

確保環境變量HADOOP_CONF_DIR或YARN_CONF_DIR已經設置

在YARN集群中運行Spark應用程序的命令:

  1. SPARK_JAR=<SPARK_ASSEMBLY_JAR_FILE> ./spark-classorg.apache.spark.deploy.yarn.Client \ 
  2.   --jar <YOUR_APP_JAR_FILE> \ 
  3.   --class <APP_MAIN_CLASS> \ 
  4.   --args <APP_MAIN_ARGUMENTS> \ 
  5.   --num-workers <NUMBER_OF_WORKER_MACHINES> \ 
  6.   --master-class <ApplicationMaster_CLASS> 
  7.   --master-memory <MEMORY_FOR_MASTER> \ 
  8.   --worker-memory <MEMORY_PER_WORKER> \ 
  9.   --worker-cores <CORES_PER_WORKER> \ 
  10.   --name <application_name> \ 
  11.   --queue <queue_name> \ 
  12.   --addJars <any_local_files_used_in_SparkContext.addJar> \ 
  13.   --files <files_for_distributed_cache> \ 
  14.   --archives <archives_for_distributed_cache> 

例1計算PI,可以看出程序運行時是先將運行文件上傳到Hadoop集群的,所以客戶端最好是和Hadoop集群在一個局域網里。

  1. SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \ 
  2.     ./spark-class org.apache.spark.deploy.yarn.Client \ 
  3.       --jar examples/target/scala-2.9.3/spark-examples-assembly-0.8.1-incubating.jar \ 
  4.       --class org.apache.spark.examples.SparkPi \ 
  5.       --args yarn-standalone \ 
  6.       --num-workers 3 \ 
  7.       --master-memory 2g \ 
  8.       --worker-memory 2g \ 
  9.       --worker-cores 1 

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

例2計算TC

  1. SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \ 
  2.     ./spark-class org.apache.spark.deploy.yarn.Client \ 
  3.       --jar examples/target/scala-2.9.3/spark-examples-assembly-0.8.1-incubating.jar \ 
  4.       --class org.apache.spark.examples.SparkTC \ 
  5.       --args yarn-standalone \ 
  6.       --num-workers 3 \ 
  7.       --master-memory 2g \ 
  8.       --worker-memory 2g \ 
  9.       --worker-cores 1 

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

點擊Tracking UI中的相應鏈接可以查看Spark的運行信息:

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

  Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客

  Spark安裝和測試(YARN模式) - mmicky - mmicky 的博客 

 

責任編輯:彭凡 來源: 網易博客
相關推薦

2014-04-16 14:04:34

SparkStandalone

2021-08-31 23:09:27

Spark資源分配

2017-09-25 16:21:30

Spark on yacluster模式

2016-09-13 14:05:24

Spark集群管理模式

2014-04-16 10:41:58

Spark

2014-08-25 09:03:44

HuluSpark On Y

2014-04-16 11:01:07

SparkYarn

2020-03-06 16:00:04

KubernetesSpark容器

2019-06-11 09:50:07

SparkBroadcast代碼

2024-01-29 08:07:42

FlinkYARN架構

2014-09-16 10:13:27

Spark搭建環境

2020-09-14 08:30:44

Kubernetes容器

2023-06-06 19:24:06

KubernetesSpark

2020-05-20 13:20:45

KubernetesSpark數據

2012-06-10 17:31:55

無線網絡捷網絡

2024-06-06 08:32:52

.NET框架代碼

2014-01-07 11:24:45

SparkHadoop

2014-07-17 14:09:31

Spark

2020-09-22 18:01:22

SparkStandalone運行

2010-02-01 11:12:27

mod_python模
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 热99精品视频| 亚洲精品国产偷自在线观看 | 99久久电影 | 亚洲区视频| 午夜视频在线播放 | 国产精品久久久久久久三级 | 亚洲一区二区三区视频 | 日韩最新网址 | 最近中文字幕在线视频1 | 精品国产一区二区三区免费 | 色吊丝2| 国产精品三级久久久久久电影 | 久久精品视频免费观看 | 久久精品亚洲国产 | 国产亚洲成av人片在线观看桃 | 日本精品视频在线 | 99热精品久久| 一区二区在线观看av | 九九热视频这里只有精品 | 日韩在线一区视频 | 九九99靖品 | 亚洲国产精品久久人人爱 | av网站观看| 在线观看亚洲精品视频 | 日韩精品1区2区3区 国产精品国产成人国产三级 | 欧产日产国产精品99 | 精品自拍视频在线观看 | 激情欧美一区二区三区中文字幕 | wwwxxx国产| 国产精品黄视频 | 免费a级毛片在线播放 | 精品一区二区三区四区五区 | www亚洲精品 | 日韩中文字幕视频在线观看 | 亚洲天堂一区二区 | 国产欧美一级二级三级在线视频 | 精品自拍视频在线观看 | 99久久婷婷| 99伊人网| 国产精品亚洲一区二区三区在线 | 91xxx在线观看 |