Spark SQL · Spark 編程指南簡體中文版

# Spark SQL Spark SQL允許Spark執行用SQL, HiveQL或者Scala表示的關系查詢。這個模塊的核心是一個新類型的RDD-[SchemaRDD](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD)。SchemaRDDs由[行](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.package@Row:org.apache.spark.sql.catalyst.expressions.Row.type)對象組成，行對象擁有一個模式（scheme）來描述行中每一列的數據類型。SchemaRDD與關系型數據庫中的表很相似。可以通過存在的RDD、一個[Parquet](http://parquet.io/)文件、一個JSON數據庫或者對存儲在[Apache Hive](http://hive.apache.org/)中的數據執行HiveSQL查詢中創建。本章的所有例子都利用了Spark分布式系統中的樣本數據，可以在`spark-shell`中運行它們。 - [開始](#) - [數據源](#) - [RDDs](#) - [parquet文件](#) - [JSON數據集](#) - [Hive表](#) - [性能調優](#) - [其它SQL接口](#) - [編寫語言集成(Language-Integrated)的相關查詢](#) - [Spark SQL數據類型](#)