SparkSQLvsHiveSQL · Spark 編程指南簡體中文版

### 一、SparkSQL 和Hive對比 ![](https://img.kancloud.cn/90/07/9007f62186e513bb9be331508d1ca4fd_903x500.png) ### 二、HiveSQL 和 SparkSQL 的對比 sql 生成 mapreduce 程序必要的過程：解析（Parser）、優化（Optimizer）、執行（Execution） ![](https://img.kancloud.cn/d6/a5/d6a5a72757e639bc359e806e51c47b47_1386x241.png) ### 三、hive、hive on spark、spark on hive 三者的比較 * **Hive 引擎包括：默認 MR、tez、spark** * **Hive on Spark：Hive 既作為存儲元數據又負責 SQL 的解析優化，語法是 HQL 語法，執行引擎變成了 Spark，Spark 負責采用 RDD 執行。** * **Spark on Hive : Hive 只作為存儲元數據，Spark 負責 SQL 解析優化，語法是 Spark SQL 語法，Spark 負責采用 RDD 執行。** **【spark on hive 】** hive 只作為存儲角色，spark 負責 sql 解析優化，底層運行的還是 sparkRDD 具體可以理解為 spark 通過 sparkSQL 使用 hive 語句操作 hive 表，底層運行的還是 sparkRDD，步驟如下： 1. 通過 sparkSQL，加載 Hive 的配置文件，獲取 Hive 的元數據信息 2. 獲取到 Hive 的元數據信息之后可以拿到 Hive 表的數據 3. 通過 sparkSQL 來操作 Hive 表中的數據 **【hive on spark】** hive 既作為存儲又負責 sql 的解析優化，spark 負責執行這里 Hive 的執行引擎變成了 spark，不再是 MR。這個實現較為麻煩，必須重新編譯 spark 并導入相關 jar 包目前大部分使用 spark on hive