### 并行集合
并行集合 (*Parallelized collections*) 的創建是通過在一個已有的集合(Scala `Seq`)上調用 SparkContext 的 `parallelize` 方法實現的。集合中的元素被復制到一個可并行操作的分布式數據集中。例如,這里演示了如何在一個包含 1 到 5 的數組中創建并行集合:
~~~
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
~~~
一旦創建完成,這個分布式數據集(`distData`)就可以被并行操作。例如,我們可以調用 `distData.reduce((a, b) => a + b)` 將這個數組中的元素相加。我們以后再描述在分布式上的一些操作。
并行集合一個很重要的參數是切片數(*slices*),表示一個數據集切分的份數。Spark 會在集群上為每一個切片運行一個任務。你可以在集群上為每個 CPU 設置 2-4 個切片(slices)。正常情況下,Spark 會試著基于你的集群狀況自動地設置切片的數目。然而,你也可以通過 `parallelize` 的第二個參數手動地設置(例如:`sc.parallelize(data, 10)`)。
- Introduction
- 快速上手
- Spark Shell
- 獨立應用程序
- 開始翻滾吧!
- 編程指南
- 引入 Spark
- 初始化 Spark
- Spark RDDs
- 并行集合
- 外部數據集
- RDD 操作
- RDD持久化
- 共享變量
- 從這里開始
- Spark Streaming
- 一個快速的例子
- 基本概念
- 關聯
- 初始化StreamingContext
- 離散流
- 輸入DStreams
- DStream中的轉換
- DStream的輸出操作
- 緩存或持久化
- Checkpointing
- 部署應用程序
- 監控應用程序
- 性能調優
- 減少批數據的執行時間
- 設置正確的批容量
- 內存調優
- 容錯語義
- Spark SQL
- 開始
- 數據源
- RDDs
- parquet文件
- JSON數據集
- Hive表
- 性能調優
- 其它SQL接口
- 編寫語言集成(Language-Integrated)的相關查詢
- Spark SQL數據類型
- GraphX編程指南
- 開始
- 屬性圖
- 圖操作符
- Pregel API
- 圖構造者
- 頂點和邊RDDs
- 圖算法
- 例子
- 提交應用程序
- 獨立運行Spark
- 在yarn上運行Spark
- Spark配置