【十】部署Hive · PHP開發筆記&解決方案

# 【十】部署Hive ### 10.1 實驗目的 1. 理解Hive存在的原因； 2. 理解Hive的工作原理； 3. 理解Hive的體系架構； 4. 并學會如何進行內嵌模式部署； 5. 啟動Hive，然后將元數據存儲在HDFS上。 ### 10.2 實驗要求 1. 完成Hive的內嵌模式部署； 2. 能夠將Hive數據存儲在HDFS上； 3. 待Hive環境搭建好后，能夠啟動并執行一般命令。 ### 10.3 實驗原理 Hive是Hadoop 大數據生態圈中的數據倉庫，其提供以表格的方式來組織與管理HDFS上的數據、以類SQL的方式來操作表格里的數據，Hive的設計目的是能夠以類SQL的方式查詢存放在HDFS上的大規模數據集，不必開發專門的MapReduce應用。 Hive本質上相當于一個MapReduce和HDFS的翻譯終端，用戶提交Hive腳本后，Hive運行時環境會將這些腳本翻譯成MapReduce和HDFS操作并向集群提交這些操作。當用戶向Hive提交其編寫的HiveQL后，首先，Hive運行時環境會將這些腳本翻譯成MapReduce和HDFS操作，緊接著，Hive運行時環境使用Hadoop命令行接口向Hadoop集群提交這些MapReduce和HDFS操作，最后，Hadoop集群逐步執行這些MapReduce和HDFS操作，整個過程可概括如下：（1）用戶編寫HiveQL并向Hive運行時環境提交該HiveQL。（2）Hive運行時環境將該HiveQL翻譯成MapReduce和HDFS操作。（3）Hive運行時環境調用Hadoop命令行接口或程序接口，向Hadoop集群提交翻譯后的HiveQL。（4）Hadoop集群執行HiveQL翻譯后的MapReduce-APP或HDFS-APP。由上述執行過程可知，Hive的核心是其運行時環境，該環境能夠將類SQL語句編譯成MapReduce。 Hive構建在基于靜態批處理的Hadoop 之上，Hadoop 通常都有較高的延遲并且在作業提交和調度的時候需要大量的開銷。因此，Hive 并不能夠在大規模數據集上實現低延遲快速的查詢，例如，Hive 在幾百MB 的數據集上執行查詢一般有分鐘級的時間延遲。因此，Hive 并不適合那些需要低延遲的應用，例如，聯機事務處理（OLTP）。Hive 查詢操作過程嚴格遵守Hadoop MapReduce 的作業執行模型，Hive 將用戶的HiveQL 語句通過解釋器轉換為MapReduce 作業提交到Hadoop 集群上，Hadoop 監控作業執行過程，然后返回作業執行結果給用戶。Hive 并非為聯機事務處理而設計，Hive 并不提供實時的查詢和基于行級的數據更新操作。Hive 的最佳使用場合是大數據集的批處理作業，例如，網絡日志分析。 Hive架構與基本組成如圖10-1所示： ![](https://box.kancloud.cn/63ec34a7bb9a266709913690e17d7723_383x332.jpg) ### 10.4 實驗步驟相對于其他組件，Hive部署要復雜得多，按metastore存儲位置的不同，其部署模式分為內嵌模式、本地模式和完全遠程模式三種。當使用完全模式時，可以提供很多用戶同時訪問并操作Hive，并且此模式還提供各類接口（BeeLine，CLI，甚至是Pig），這里我們以內嵌模式為例。由于使用內嵌模式時，其Hive會使用內置的Derby數據庫來存儲數據庫，此時無須考慮數據庫部署連接問題，整個部署過程可概括如下。 #### 10.4.1 安裝部署在client機上操作：首先確定存在Hive ~~~ [root@client~]# ls /usr/cstor/ hive/ [root @client~]# ~~~ #### 10.4.2 配置HDFS 先為Hive配置Hadoop安裝路徑。待解壓完成后，進入Hive的配置文件夾conf目錄下，接著將Hive的環境變量模板文件復制成環境變量文件。 ~~~ [root@client~]# cd /usr/cstor/hive/conf [root@client conf]# cp hive-env.sh.template hive-env.sh [root@client conf]# vim hive-env.sh ~~~ 在配置文件中加入以下語句： ~~~ HADOOP_HOME=/usr/cstor/hadoop ~~~ 然后在HDFS里新建Hive的存儲目錄。在HDFS中新建/tmp 和 /usr/hive/warehouse 兩個文件目錄，并對同組用戶增加寫權限。 ~~~ [root@client hadoop]# bin/hadoop fs -mkdir /tmp [root@client hadoop]# bin/hadoop fs -mkdir -p /usr/hive/warehouse [root@client hadoop]# bin/hadoop fs -chmod g+w /tmp [root@client hadoop]# bin/hadoop fs -chmod g+w /usr/hive/warehouse ~~~ #### 10.4.3 啟動Hive 在內嵌模式下，啟動Hive指的是啟動Hive運行時環境，用戶可使用下述命令進入Hive運行時環境。啟動Hive命令行： ~~~ [root@client ~]# cd /usr/cstor/hive/ [root@client hive ]# bin/hive ~~~ ### 10.5 實驗結果啟動結果使用“bin/Hive”命令進入Hive環境驗證Hive是否啟動成功。如圖10-2所示： ~~~ [root@client Hive ]# bin/Hive ~~~ ![](https://box.kancloud.cn/f2da8d696e1301f9cd74a258c74eda88_275x49.jpg) Hive基本命令使用 “bin/Hive” 命令進入Hive環境后，使用 “show tables”， “show function”后如下圖所示則表示配置成功。 ~~~ Hive> show tables ; ~~~ 如圖10-3所示： ![](https://box.kancloud.cn/da5f91b51f4ed078f0232482c1d0d293_162x51.jpg) ~~~ Hive> show functions ; ~~~ 如圖10-4所示： ![](https://box.kancloud.cn/010b3c377ef9faee073601002ecd8833_308x223.jpg)