強類型轉換 · Hadoop2.x

```scala /** *返回新數據集，擁有新的別名。alias 同 as。 */ def alias(alias: Symbol): Dataset[T] def alias(alias: String): Dataset[T] def as(alias: Symbol): Dataset[T] def as(alias: String): Dataset[T] /** *調整分區數量。 */ def coalesce(numPartitions: Int): Dataset[T] /** *去重。 */ def distinct(): Dataset[T] /** *返回刪除了重復行的新數據集，只考慮列的子集 */ def dropDuplicates(col1: String, cols: String*): Dataset[T] def dropDuplicates(colNames: Array[String]): Dataset[T] def dropDuplicates(colNames: Seq[String]): Dataset[T] def dropDuplicates(): Dataset[T] // 同 distinct /** *返回一個新數據集，其中包含此數據集中的行，但不包含另一個數據集中的 *行。這與 SQL 中的 EXCEPT DISTINCT 是等價的。 */ def except(other: Dataset[T]): Dataset[T] /** *返回一個新的數據集，它只包含 func 或 condition 返回 true 的元素。 */ def filter(func: (T) => Boolean): Dataset[T] def filter(conditionExpr: String): Dataset[T] //peopleDs.filter("age > 15") def filter(condition: Column): Dataset[T] //peopleDs.filter($"age" > 15) /** *返回一個新的數據集，首先將一個函數應用到這個數據集的所有元素上，然 *后將結果展開。 */ def flatMap[U](func: (T) => TraversableOnce[U])(implicit arg0: Encoder[U]) : Dataset[U] /** *返回一個 KeyValueGroupedDataset，其中的數據按給定的鍵函數分組。 */ def groupByKey[K](func: (T) => K)(implicit arg0: Encoder[K]) : KeyValueGroupedDataset[K, T] /** *返回僅包含此數據集和另一個數據集中的行的新數據集，即求交集。 */ def intersect(other: Dataset[T]): Dataset[T] /** *使用內部等連接來連接這個數據集，為每一對條件為 true 的數據返回一個Tuple2。 * joinType 默認為 inner，還可為 cross、outer、full、full_outer、left、left_outer、 * right、right_outer。 */ def joinWith[U](other: Dataset[U], condition: Column): Dataset[(T, U)] def joinWith[U](other: Dataset[U], condition: Column, joinType: String) : Dataset[(T, U)] /** *通過獲取前 n 行返回新數據集。這個函數與 head 的區別在于，head 是一個 *操作，返回一個數組(通過觸發查詢執行)，而 limit 返回一個新的 Dataset。 */ def limit(n: Int): Dataset[T] /** *返回一個新的數據集，其中包含對每個元素應用 func 的結果。 */ def map[U](func: (T) =>U)(implicit arg0: Encoder[U]): Dataset[U] /** *返回一個新的數據集，其中包含對每個分區應用 func 的結果。 */ def mapPartitions[U] (func: (Iterator[T]) => Iterator[U])(implicit arg0: Encoder[U]): Dataset[U] /** *返回按給定表達式排序的新數據集。這是 sort 函數的別名。 */ def orderBy(sortExprs: Column*): Dataset[T] def orderBy(sortCol: String, sortCols: String*): Dataset[T] /** *使用提供的權重隨機分割此數據集。seed 表示抽樣種子。 */ def randomSplit(weights: Array[Double]): Array[Dataset[T]] def randomSplit(weights: Array[Double], seed: Long): Array[Dataset[T]] def randomSplitAsList(weights: Array[Double], seed: Long): List[Dataset[T]] /** *如不指定 numPartitions，使用 spark.sql.shuffle.partitions 作為分區數量，返回 *根據給定分區表達式分區的新數據集，結果數據集是散列分區的。 * repartitionByRange 的結果數據集是范圍分區的。 */ def repartition(partitionExprs: Column*): Dataset[T] def repartition(numPartitions: Int, partitionExprs: Column*): Dataset[T] def repartition(numPartitions: Int): Dataset[T] def repartitionByRange(partitionExprs: Column*): Dataset[T] def repartitionByRange(numPartitions: Int, partitionExprs: Column*): Dataset[T] /** *通過使用用戶提供的種子對一小部分行進行抽樣，返回一個新數據集。 */ def sample(withReplacement: Boolean, fraction: Double): Dataset[T] def sample(withReplacement: Boolean, fraction: Double, seed: Long): Dataset[T] /** *通過計算每個元素的給定列表達式返回新數據集。 */ def select[U1, U2, U3, U4, U5]( c1: TypedColumn[T, U1], c2: TypedColumn[T, U2], c3: TypedColumn[T, U3], c4: TypedColumn[T, U4], c5: TypedColumn[T, U5]): Dataset[(U1, U2, U3, U4, U5)] def select[U1, U2, U3, U4]( c1: TypedColumn[T, U1], c2: TypedColumn[T, U2], c3: TypedColumn[T, U3], c4: TypedColumn[T, U4]): Dataset[(U1, U2, U3, U4)] def select[U1, U2, U3]( c1: TypedColumn[T, U1], c2: TypedColumn[T, U2], c3: TypedColumn[T, U3]): Dataset[(U1, U2, U3)] def select[U1, U2]( c1: TypedColumn[T, U1], c2: TypedColumn[T, U2]): Dataset[(U1, U2)] def select[U1](c1: TypedColumn[T, U1]): Dataset[U1] //示例 val ds = Seq(1, 2, 3).toDS() val newDS = ds.select(expr("value + 1").as[Int]) /** *返回按給定表達式排序的新數據集。 */ def sort(sortExprs: Column*): Dataset[T] def sort(sortCol: String, sortCols: String*): Dataset[T] /** *返回一個新的數據集，每個分區都按照給定的表達式排序。 */ def sortWithinPartitions(sortExprs: Column*): Dataset[T] def sortWithinPartitions(sortCol: String, sortCols: String*): Dataset[T] /** *用于鏈接自定義轉換的簡潔語法。 */ def transform[U](t: (Dataset[T]) => Dataset[U]): Dataset[U] //示例 def featurize(ds: Dataset[T]): Dataset[U] = ... ds .transform(featurize) .transform(...) /** *返回一個新數據集，該數據集包含此數據集和另一個數據集中的行并集。 */ def union(other: Dataset[T]): Dataset[T] //按列位置 def unionByName(other: Dataset[T]): Dataset[T] //按列名 def unionAll(other: Dataset[T]): Dataset[T] //已過時 /** *使用給定的 SQL 表達式過濾行。等價于 filter。 */ def where(conditionExpr: String): Dataset[T] def where(condition: Column): Dataset[T] ```