初始化StreamingContext · Spark 編程指南簡體中文版

# 初始化StreamingContext 為了初始化Spark Streaming程序，一個StreamingContext對象必需被創建，它是Spark Streaming所有流操作的主要入口。一個[StreamingContext](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.streaming.StreamingContext) 對象可以用[SparkConf](https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkConf)對象創建。 ```scala import org.apache.spark._ import org.apache.spark.streaming._ val conf = new SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext(conf, Seconds(1)) ``` `appName`表示你的應用程序顯示在集群UI上的名字，`master`是一個[Spark、Mesos、YARN](https://spark.apache.org/docs/latest/submitting-applications.html#master-urls)集群URL 或者一個特殊字符串“local[*]”，它表示程序用本地模式運行。當程序運行在集群中時，你并不希望在程序中硬編碼`master`，而是希望用`spark-submit`啟動應用程序，并從`spark-submit`中得到 `master`的值。對于本地測試或者單元測試，你可以傳遞“local”字符串在同一個進程內運行Spark Streaming。需要注意的是，它在內部創建了一個SparkContext對象，你可以通過` ssc.sparkContext` 訪問這個SparkContext對象。批時間片需要根據你的程序的潛在需求以及集群的可用資源來設定，你可以在[性能調優](../performance-tuning/README.md)那一節獲取詳細的信息。可以利用已經存在的`SparkContext`對象創建`StreamingContext`對象。 ```scala import org.apache.spark.streaming._ val sc = ... // existing SparkContext val ssc = new StreamingContext(sc, Seconds(1)) ``` 當一個上下文（context）定義之后，你必須按照以下幾步進行操作 - 定義輸入源； - 準備好流計算指令； - 利用`streamingContext.start()`方法接收和處理數據； - 處理過程將一直持續，直到`streamingContext.stop()`方法被調用。幾點需要注意的地方： - 一旦一個context已經啟動，就不能有新的流算子建立或者是添加到context中。 - 一旦一個context已經停止，它就不能再重新啟動 - 在JVM中，同一時間只能有一個StreamingContext處于活躍狀態 - 在StreamingContext上調用`stop()`方法，也會關閉SparkContext對象。如果只想僅關閉StreamingContext對象，設置`stop()`的可選參數為false - 一個SparkContext對象可以重復利用去創建多個StreamingContext對象，前提條件是前面的StreamingContext在后面StreamingContext創建之前關閉（不關閉SparkContext）。