使用鍵值對 · Spark 編程指南簡體中文版

# 使用鍵值對雖然很多 Spark 操作工作在包含任意類型對象的 RDDs 上的，但是少數幾個特殊操作僅僅在鍵值(key-value)對 RDDs 上可用。最常見的是分布式 "shuffle" 操作，例如根據一個 key 對一組數據進行分組和聚合。在 Scala 中，這些操作在包含[二元組(Tuple2)](http://www.scala-lang.org/api/2.10.4/index.html#scala.Tuple2)(在語言的內建元組中，通過簡單的寫 (a, b) 創建) 的 RDD 上自動地變成可用的，只要在你的程序中導入 `org.apache.spark.SparkContext._` 來啟用 Spark 的隱式轉換。在 PairRDDFunctions 的類里鍵值對操作是可以使用的，如果你導入隱式轉換它會自動地包裝成元組 RDD。例如，下面的代碼在鍵值對上使用 `reduceByKey` 操作來統計在一個文件里每一行文本內容出現的次數： ```scala val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = pairs.reduceByKey((a, b) => a + b) ``` 我們也可以使用 `counts.sortByKey()`，例如，將鍵值對按照字母進行排序，最后 `counts.collect()` 把它們作為一個對象數組帶回到驅動程序。注意：當使用一個自定義對象作為 key 在使用鍵值對操作的時候，你需要確保自定義 `equals()` 方法和 `hashCode()` 方法是匹配的。更加詳細的內容，查看 [Object.hashCode() 文檔](http://docs.oracle.com/javase/7/docs/api/java/lang/Object.html#hashCode())中的契約概述。