基礎 Dataset 函數 · Hadoop2.x

```scala /** *返回一個新的數據集，其中每個記錄都映射到指定的類型 U; * *1. 當 U 是一個類時，該類的字段將映射到同名的列(大小寫敏感性由spark.sql.caseSensitive 決定); *2. 當 U 是一個 tuple 時，列將按序號映射(即第一列將分配給_1); *3. 當 U 是基本類型(例如 String、Int 等)時，將使用 DataFrame 的第一列; * *如果數據集的模式不匹配所需的 U 類型，則可以使用 select 和 alias 或 as 根 *據需要重新排列或重命名。 */ def as[U](implicit arg0: Encoder[U]): Dataset[U] /** *默認使用存儲級別(MEMORY_AND_DISK)保存此數據集 */ // 使用緩存 def cache(): Dataset.this.type def persist(newLevel: StorageLevel): Dataset.this.type def persist(): Dataset.this.type // 釋放緩存 def unpersist(): Dataset.this.type def unpersist(blocking: Boolean): Dataset.this.type /** * 將數據持久化到磁盤中 */ def checkpoint(eager: Boolean): Dataset[T] def checkpoint(): Dataset[T] def localCheckpoint(eager: Boolean): Dataset[T] def localCheckpoint(): Dataset[T] /** *以數組的形式返回所有列名 */ def columns: Array[String] /** *使用給定名稱創建（或替換）全局臨時視圖; * *全局臨時視圖是跨會話的。它的生存期是 Spark 應用程序的生存期，也就是 *說，當應用程序終止時，它將被自動刪除。它與系統保留的數據庫 global_temp *綁定，我們必須使用限定名來引用全局臨時視圖，例如：SELECT * FROM global_temp.view1 */ def createGlobalTempView(viewName: String): Unit def createOrReplaceGlobalTempView(viewName: String): Unit /** *使用給定名稱創建本地臨時視圖 */ def createOrReplaceTempView(viewName: String): Unit def createTempView(viewName: String): Unit def registerTempTable(tableName: String): Unit //已過時 /** *以數組的形式返回所有列名及其數據類型 */ def dtypes: Array[(String, String)] /** *將物理計劃打印到控制臺以進行調試。extended: true 表示包含邏輯和物理計劃 */ def explain(): Unit def explain(extended: Boolean): Unit /** *指定當前數據集上的一些提示 */ def hint(name: String, parameters: Any*): Dataset[T] /** *返回組成此數據集的文件的最佳狀態快照。這個方法只是簡單地請求每個組 *成部分對應其各自的文件，并獲取所有結果的并集。根據源關系，可能無法找到 *所有輸入文件。 */ def inputFiles: Array[String] /** *返回 Dataset 是否為空; 如果空返回 true。 */ def isEmpty: Boolean /** *如果 collect 和 take 方法可以在本地運行（需要任何 Spark executors），則返 *回 true。 */ def isLocal: Boolean /** *將 Schema 打印到控制臺 */ def printSchema(): Unit /** *將 Dataset 的內容表示為 T 的 RDD */ lazy val rdd: RDD[T] /** *返回 Dataset 的 Schema */ def schema: StructType /** *獲取數據集的當前存儲級別，即 StorageLevel。不指定為 StorageLevel.NONE */ def storageLevel: StorageLevel /** *將此強類型數據集合轉換為通用 Dataframe。與 Dataset 操作處理的強類型對 *象相反，Dataframe 返回允許按序號或名稱訪問字段的通用行對象。 */ def toDF(colNames: String*): DataFrame def toDF(): DataFrame /** *用于將非流式數據集的內容保存到外部存儲的接口。 */ def write: DataFrameWriter[T] /** *用于將流式數據集的內容保存到外部存儲的接口。 */ def writeStream: DataStreamWriter[T] ```