初始化 Spark · Spark 編程指南簡體中文版

# 初始化 Spark Spark 編程的第一步是需要創建一個 [SparkContext](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkContext) 對象，用來告訴 Spark 如何訪問集群。在創建 `SparkContext` 之前，你需要構建一個 [SparkConf](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkConf) 對象， SparkConf 對象包含了一些你應用程序的信息。 ~~~ val conf = new SparkConf().setAppName(appName).setMaster(master) new SparkContext(conf) ~~~ `appName` 參數是你程序的名字，它會顯示在 cluster UI 上。`master` 是 [Spark, Mesos 或 YARN 集群的 URL](https://spark.apache.org/docs/latest/submitting-applications.html#master-urls)，或運行在本地模式時，使用專用字符串 “local”。在實踐中，當應用程序運行在一個集群上時，你并不想要把 `master` 硬編碼到你的程序中，你可以[用 spark-submit 啟動你的應用程序](https://spark.apache.org/docs/latest/submitting-applications.html)的時候傳遞它。然而，你可以在本地測試和單元測試中使用 “local” 運行 Spark 進程。 ### 使用 Shell 在 Spark shell 中，有一個專有的 SparkContext 已經為你創建好。在變量中叫做 `sc`。你自己創建的 SparkContext 將無法工作。可以用 `--master` 參數來設置 SparkContext 要連接的集群，用 `--jars` 來設置需要添加到 classpath 中的 JAR 包，如果有多個 JAR 包使用**逗號**分割符連接它們。例如：在一個擁有 4 核的環境上運行 `bin/spark-shell`，使用： ~~~ $ ./bin/spark-shell --master local[4] ~~~ 或在 classpath 中添加 `code.jar`，使用： ~~~ $ ./bin/spark-shell --master local[4] --jars code.jar ~~~ 執行 `spark-shell --help` 獲取完整的選項列表。在這之后，調用 `spark-shell` 會比 [spark-submit 腳本](https://spark.apache.org/docs/latest/submitting-applications.html)更為普遍。