并行集合 · Spark 編程指南簡體中文版

### 并行集合并行集合 (*Parallelized collections*) 的創建是通過在一個已有的集合(Scala `Seq`)上調用 SparkContext 的 `parallelize` 方法實現的。集合中的元素被復制到一個可并行操作的分布式數據集中。例如，這里演示了如何在一個包含 1 到 5 的數組中創建并行集合： ~~~ val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) ~~~ 一旦創建完成，這個分布式數據集(`distData`)就可以被并行操作。例如，我們可以調用 `distData.reduce((a, b) => a + b)` 將這個數組中的元素相加。我們以后再描述在分布式上的一些操作。并行集合一個很重要的參數是切片數(*slices*)，表示一個數據集切分的份數。Spark 會在集群上為每一個切片運行一個任務。你可以在集群上為每個 CPU 設置 2-4 個切片(slices)。正常情況下，Spark 會試著基于你的集群狀況自動地設置切片的數目。然而，你也可以通過 `parallelize` 的第二個參數手動地設置(例如：`sc.parallelize(data, 10)`)。