安裝 · JAVA · 看云

[TOC] # hive架構圖 ![](https://box.kancloud.cn/288f0600c50fbf1c7c6f247f67d842bd_361x479.png) ![](https://box.kancloud.cn/95f22101e77cbefa1c9effd70fc24627_482x446.png) ## 基本組成 * 用戶接口：包括 CLI、JDBC/ODBC、WebGUI。 * 元數據存儲：通常是存儲在關系數據庫如 mysql , derby中.包括:表名,表所屬的數據庫(默認是default),表的擁有者,字段,表的類型(是否是外部表),表的數據所在目錄等 * 解釋器、編譯器、優化器、執行器。 ## 各組件的基本功能 * 用戶接口主要由三個：CLI、JDBC/ODBC和WebGUI。其中，CLI為shell命令行；JDBC/ODBC是Hive的JAVA實現，與傳統數據庫JDBC類似；WebGUI是通過瀏覽器訪問Hive。 * 元數據存儲：Hive 將元數據存儲在數據庫中。Hive 中的元數據包括表的名字，表的列和分區及其屬性，表的屬性（是否為外部表等），表的數據所在目錄等。 * 解釋器、編譯器、優化器完成 HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在 HDFS 中，并在隨后有 MapReduce 調用執行。 ## Hive與Hadoop的關系 Hive利用HDFS存儲數據，利用MapReduce查詢分析數據 ![](https://box.kancloud.cn/62f6428e854ef36b1620377d3e2e9aad_650x261.png) ## Hive與傳統數據庫對比 hive用于海量數據的離線數據分析 ![](https://box.kancloud.cn/a8e76d772ef69c9ac90b2c060f19403d_513x351.png) 總結：hive具有關系型數據庫的查詢分析功能，但應用場景完全不同，hive只適合用來做批量數據統計分析，數據量大、對應的延遲較高！ ## Hive的數據存儲 1. Hive中所有的數據都存儲在 HDFS 中，沒有專門的數據存儲格式（可支持Text，SequenceFile，ParquetFile，RCFILE等） SequenceFile是hadoop中的一種文件格式：文件內容是以序列化的kv對象來組織的 2. 只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符，Hive 就可以解析數據 3. Hive 中包含以下數據模型：DB、Table，External Table，Partition，Bucket。 * db：在hdfs中表現為`${hive.metastore.warehouse.dir}`目錄下一個文件夾 * table：在hdfs中表現所屬db目錄下一個文件夾 * external table：與table類似，不過其數據存放位置可以在任意指定路徑 * partition：在hdfs中表現為table目錄下的子目錄 * bucket：在hdfs中表現為同一個表目錄下根據hash散列之后的多個文件 # 安裝 ## derby版： 1. 解壓hive 2. 解決一下版本不兼容問題：**替換 `hadoop/share/hadoop/yarn/lib`中的老版本jline 為hive的lib中的jline-2.12.jar** ![](https://box.kancloud.cn/12aa07af5a894bbcf7e432b67b4e7071_839x220.png) 使用方式 Hive交互shell ~~~ bin/hive ~~~ 一些交互命令 ~~~ hive> create database db1; OK Time taken: 0.258 seconds hive> create database db2; OK Time taken: 0.063 seconds hive> show databases; OK db1 db2 default Time taken: 0.008 seconds, Fetched: 3 row(s) ~~~ 這邊創建了一些庫,這些庫在哪里? 在你執行啟動hive命令下面有個`metastore_db`這個文件夾不同的用戶在不同的目錄下啟動,都會在不同的目錄下創建`metastore_db`這個文件夾這就是把元數據放在derby中這樣就不便于我們的管理缺點：多個地方安裝hive后，每一個hive是擁有一套自己的元數據，大家的庫、表就不統一； ## 元數據庫mysql版： **數據庫字符集要是latin1,排序是latin1_bin** 1. 解壓 2. 修改配置文件 3. 加載mysql數據驅動包在hive的conf文件夾下 ~~~ cp hive-default.xml.template hive-site.xml vim hive-site.xml ~~~ 配置數據庫信息 ~~~ <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.33.10:3306/hive?createDatabaseIfNotExist=true</value> <description>JDBC connect string for a JDBC metastore</description> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>Driver class name for a JDBC metastore</description> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> <description>username to use against metastore database</description> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>root</value> <description>password to use against metastore database</description> </property> </configuration> ~~~ **mysql 5.7 作為hive 元數據存儲的時候要注意 ** 連接字符串的修改 ![](https://box.kancloud.cn/79574b0eaf1b2ca91d5f200b6b667006_1367x342.png) 否則 ![](https://box.kancloud.cn/c07546b47c0ef0135f0d8d19cc477816_1329x199.png) hive-site.xml 注釋掉 ![](https://box.kancloud.cn/f7e0a21c857b1271a83af7af10655264_563x298.png) 否則報錯 ![](https://box.kancloud.cn/21bc0fcdc3e8c9ca95939cab82920130_1355x178.png) 然后配置環境變量 ~~~ mv hive-env.sh.template hive-env.sh vim hive-env.sh ~~~ **把里面的`HADOOP_HOME`配置為你自己的hadoop路徑,然后把注釋放開** **配置`HIVE_CONF_DIR`路徑** 然后把之前derby版的`metastore_db`這個文件夾,刪除了 **在lib目錄下上傳個mysql驅動的jar包** **配置下環境變量** 然后就可以操作了試著插入些庫,表還有數據然后插入成功就看下網頁版的 ![](https://box.kancloud.cn/b8d1b9355233d5cec37bf5fa9d117493_929x149.png) 這邊會看到創建的庫 --- 一般不需要創建 hdfs上創建/tmp和/user/hive/warehouse兩個目錄并修改他們的同組權限可寫 ~~~ hadoop fs -mkdir /tmp hadoop fs -mkdir -p /user/hive/warehouse hadoop fs -chmod g+w /user/hive/warehouse hadoop fs -chmod g+w /tmp ~~~ --- ## Hive JDBC服務 ![](https://box.kancloud.cn/3a897c0ee1f94133031c92a2f2029164_730x295.png) hive也可以啟動為一個服務器，來對外提供啟動方式，（假如是在h01上）：啟動為前臺(啟動成功會占用100000端口)： ~~~ bin/hiveserver2 ~~~ 啟動為后臺： ~~~ nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err & ~~~ 啟動成功后，可以在別的節點上用beeline去連接 * 方式（1） hive/bin/beeline 回車，進入beeline的命令界面輸入命令連接hiveserver2 ~~~ [root@master bin]# beeline Beeline version 1.2.1 by Apache Hive beeline> !connect jdbc:hive2://127.0.0.1:10000 Connecting to jdbc:hive2://127.0.0.1:10000 Enter username for jdbc:hive2://127.0.0.1:10000: root Enter password for jdbc:hive2://127.0.0.1:10000: Connected to: Apache Hive (version 1.2.1) Driver: Hive JDBC (version 1.2.1) Transaction isolation: TRANSACTION_REPEATABLE_READ 0: jdbc:hive2://127.0.0.1:10000> ~~~ 用戶名是root,密碼直接回車然后那邊hiveserver2是顯示ok 上面ip端口是127.0.0.1:10000 * 方式（2）或者啟動就連接： ~~~ bin/beeline -u jdbc:hive2://127.0.0.1:10000 -n root ~~~ 接下來就可以做正常sql查詢了