# 【十】部署Hive
### 10.1 實驗目的
1. 理解Hive存在的原因;
2. 理解Hive的工作原理;
3. 理解Hive的體系架構;
4. 并學會如何進行內嵌模式部署;
5. 啟動Hive,然后將元數據存儲在HDFS上。
### 10.2 實驗要求
1. 完成Hive的內嵌模式部署;
2. 能夠將Hive數據存儲在HDFS上;
3. 待Hive環境搭建好后,能夠啟動并執行一般命令。
### 10.3 實驗原理
Hive是Hadoop 大數據生態圈中的數據倉庫,其提供以表格的方式來組織與管理HDFS上的數據、以類SQL的方式來操作表格里的數據,Hive的設計目的是能夠以類SQL的方式查詢存放在HDFS上的大規模數據集,不必開發專門的MapReduce應用。
Hive本質上相當于一個MapReduce和HDFS的翻譯終端,用戶提交Hive腳本后,Hive運行時環境會將這些腳本翻譯成MapReduce和HDFS操作并向集群提交這些操作。
當用戶向Hive提交其編寫的HiveQL后,首先,Hive運行時環境會將這些腳本翻譯成MapReduce和HDFS操作,緊接著,Hive運行時環境使用Hadoop命令行接口向Hadoop集群提交這些MapReduce和HDFS操作,最后,Hadoop集群逐步執行這些MapReduce和HDFS操作,整個過程可概括如下:
(1)用戶編寫HiveQL并向Hive運行時環境提交該HiveQL。
(2)Hive運行時環境將該HiveQL翻譯成MapReduce和HDFS操作。
(3)Hive運行時環境調用Hadoop命令行接口或程序接口,向Hadoop集群提交翻譯后的HiveQL。
(4)Hadoop集群執行HiveQL翻譯后的MapReduce-APP或HDFS-APP。
由上述執行過程可知,Hive的核心是其運行時環境,該環境能夠將類SQL語句編譯成MapReduce。
Hive構建在基于靜態批處理的Hadoop 之上,Hadoop 通常都有較高的延遲并且在作業提交和調度的時候需要大量的開銷。因此,Hive 并不能夠在大規模數據集上實現低延遲快速的查詢,例如,Hive 在幾百MB 的數據集上執行查詢一般有分鐘級的時間延遲。
因此,Hive 并不適合那些需要低延遲的應用,例如,聯機事務處理(OLTP)。Hive 查詢操作過程嚴格遵守Hadoop MapReduce 的作業執行模型,Hive 將用戶的HiveQL 語句通過解釋器轉換為MapReduce 作業提交到Hadoop 集群上,Hadoop 監控作業執行過程,然后返回作業執行結果給用戶。Hive 并非為聯機事務處理而設計,Hive 并不提供實時的查詢和基于行級的數據更新操作。Hive 的最佳使用場合是大數據集的批處理作業,例如,網絡日志分析。
Hive架構與基本組成如圖10-1所示:

### 10.4 實驗步驟
相對于其他組件,Hive部署要復雜得多,按metastore存儲位置的不同,其部署模式分為內嵌模式、本地模式和完全遠程模式三種。當使用完全模式時,可以提供很多用戶同時訪問并操作Hive,并且此模式還提供各類接口(BeeLine,CLI,甚至是Pig),這里我們以內嵌模式為例。
由于使用內嵌模式時,其Hive會使用內置的Derby數據庫來存儲數據庫,此時無須考慮數據庫部署連接問題,整個部署過程可概括如下。
#### 10.4.1 安裝部署
在client機上操作:首先確定存在Hive
~~~
[root@client~]# ls /usr/cstor/
hive/
[root @client~]#
~~~
#### 10.4.2 配置HDFS
先為Hive配置Hadoop安裝路徑。
待解壓完成后,進入Hive的配置文件夾conf目錄下,接著將Hive的環境變量模板文件復制成環境變量文件。
~~~
[root@client~]# cd /usr/cstor/hive/conf
[root@client conf]# cp hive-env.sh.template hive-env.sh
[root@client conf]# vim hive-env.sh
~~~
在配置文件中加入以下語句:
~~~
HADOOP_HOME=/usr/cstor/hadoop
~~~
然后在HDFS里新建Hive的存儲目錄。
在HDFS中新建/tmp 和 /usr/hive/warehouse 兩個文件目錄,并對同組用戶增加寫權限。
~~~
[root@client hadoop]# bin/hadoop fs -mkdir /tmp
[root@client hadoop]# bin/hadoop fs -mkdir -p /usr/hive/warehouse
[root@client hadoop]# bin/hadoop fs -chmod g+w /tmp
[root@client hadoop]# bin/hadoop fs -chmod g+w /usr/hive/warehouse
~~~
#### 10.4.3 啟動Hive
在內嵌模式下,啟動Hive指的是啟動Hive運行時環境,用戶可使用下述命令進入Hive運行時環境。
啟動Hive命令行:
~~~
[root@client ~]# cd /usr/cstor/hive/
[root@client hive ]# bin/hive
~~~
### 10.5 實驗結果
啟動結果
使用“bin/Hive”命令進入Hive環境驗證Hive是否啟動成功。如圖10-2所示:
~~~
[root@client Hive ]# bin/Hive
~~~

Hive基本命令
使用 “bin/Hive” 命令進入Hive環境后,使用 “show tables”, “show function”后如下圖所示則表示配置成功。
~~~
Hive> show tables ;
~~~
如圖10-3所示:

~~~
Hive> show functions ;
~~~
如圖10-4所示:

- GitHub-資源收集
- 【GitHub/Gitee】收錄總榜單
- 【Office & Markdown & PDF】資源收集
- 【前端】資源收集
- 【開源項目】資源收集
- 【代碼備份】資源收集
- 【代碼加密】資源收集
- 【好文章推薦】資源收集
- Java大數據實踐
- 基礎實驗操作
- 【一】基礎操作實驗
- HDFS
- 【二】部署HDFS
- 【三】讀寫HDFS文件
- YARN
- 【四】部署YARN集群
- MapReduce
- 【五】單詞計數
- Hive
- 【十】部署Hive
- 【十一】新建Hive表
- 【十二】Hive分區
- ZooKeeper
- 【二十】部署ZooKeeper
- 【二十一】進程協作
- HBase
- 【二十二】部署HBase
- 【二十三】新建HBase表
- Storm
- 【二十四】部署Storm
- 【二十五】實時WordCountTopology
- Kafka
- 【二十七】Kafka訂閱推送示例
- Redis
- 【二十九】Redis部署與簡單使用
- 【三十】MapReduce與Spark讀寫Redis
- MongoDB
- 【三十一】讀寫MongoDB
- PHP實踐
- 環境搭建
- PHP安裝
- macOS搭建PHP開發環境
- laravel
- 【Laravel-admin】實踐方案
- 技術選型
- 技術選型結果
- PHP開發流程
- Laravel自帶異常
- 技術選型問題 & 解決方法
- 修改(Admin)文件夾路徑
- 兩個用戶表合并
- 創建Token,獲取接口數據
- CreateFreshApiToken中間件使用
- Generator從表生成文件,不包括遷移文件
- 添加用戶的同時生產令牌
- 其它參考文章
- Laravel-admin常見問題
- form(),show()獲取對象數據
- Form右上角按鈕重寫
- form回調中的錯誤提醒,回調傳參
- 【小工具類】實踐方案
- 字符串
- 數組
- 無限級分類遞歸
- 時間
- 正則表達式
- 文件
- 經緯度、時區
- DataEdit快捷操作類庫
- 數據庫表結構管理
- 【Guzzle】實踐方案---工具類
- 【隊列---Laravel-Horizon 】實踐方案
- 【laravel-snappy】實踐方案
- 【開發規范】實踐方案
- PHP深入學習
- 緩存在高并發場景下的常見問題
- 一、緩存一致性問題
- 二、緩存并發問題
- 三、緩存穿透問題
- 四、緩存顛簸問題
- 五、緩存的雪崩現象
- 六、緩存無底洞現象
- Laravel源碼解析(知識點)
- 閉包、IOC容器服務綁定延遲加載
- 延遲靜態綁定基類
- 反射,依賴注入
- __callStatic 魔術方法,Facade 工作原理
- array_reduce,中間件解析
- Eloquent核心
- 線程、進程、協程
- Linux進程、線程、協程
- poll、epoll
- epoll原理
- Liunx線程調度算法
- 紅黑樹
- 同步/異步、阻塞/非阻塞
- PHP-FPM
- Nginx
- Git-PHPStorm-Composer工具使用
- git常用命令
- .gitignore忽略規則
- PHPStorm第一次使用
- PHPStorm關聯gitlab
- 在Docker中使用Xdebug
- PHPStorm中使用Xdebug調試
- PHP Xdebug 遠程調試
- Composer修改鏡像源
- Swoole
- Go
- 驚群問題
- 線程模型比較
- 并發模型比較
- Lua
- OpenResty
- 數據一致性
- 悲觀鎖--VS--樂觀鎖
- 事務--mysql VS redis
- 事務嵌套--Doctrine VS Laravel
- 單體應用中執行順序問題
- 數據一致性問題描述
- 分布式理論
- 數據一致性---接口冪等性
- 分布式事務---2PC VS 3PC
- 分布式事務---TCC
- 分布式事務---基于消息
- 接口安全性
- Nginx
- 優化常識
- nginx常用優化
- nginx解決本地開發時調用遠程AIP跨域問題
- Nginx反向代理實現均衡負載
- 大型網站架構演變
- Keepalived+Nginx 高可用集群(主從模式)
- MySQL
- 關于最重要的參數選項調整建議
- 索引,Explain優化工具
- 事務級別
- sql好的書寫習慣
- limit(分頁)
- 趕集網Mysql36條軍規
- 分庫分表技術演進&最佳實踐
- MariaDB 和 MySQL 全面對比
- 永遠不要在 MySQL 中使用“utf8”
- 看云--推薦的Mysql優化
- 完整、詳細的MySQL規范
- 慢查詢日志
- pt-query-digest結果分析
- Oracle
- Oracle數據庫備份/導出(exp/expd)、導入(imp/impd)
- [Oracle]EXPDP和IMPDP數據泵進行導出導入的方法
- 使用PLSQL進行Oracle數據導入導出
- Redis
- 看云-推薦的redis學習
- Memcache和Redis不同
- 阿里云Redis開發規范
- Centos7
- 虛擬機配置網絡
- 硬盤掛載、分區、文件大小
- 防火墻(firewalld、firewalld-cmd、systemctl、iptables)
- 兩個機器互相拷貝文件
- 查進程、查端口
- 壓縮、解壓
- 查看物理CPU個數、CPU內核數、線程數
- apt-get源--阿里
- Docker
- Dockerfile制作常用命令
- registry私有倉庫
- PHP_7.2
- Dockerfile
- php.ini
- 使用說明
- Nginx_1.15
- Dockerfile
- nginx.conf
- prod_nginx.conf
- 使用說明
- MySql_5.7
- Dockerfile
- my.cnf
- 使用說明
- redmine_3.4
- Dockerfile
- 使用說明
- gitlab-ce_11.9.6-ce.0
- 使用說明
- Redis_5.0
- Dockerfile
- redis.conf
- 使用說明
- Jenkins
- Dockerfile
- 使用說明
- webssh--python3.7
- Dockerfile
- 使用說明
- 進階使用
- 高階使用
- minio
- 使用說明
- aws_cloud9_ide
- 使用說明-aws
- VNC
- 使用說明
- jdk1.8——yum安裝
- tomcat9——安裝
- guacamole——0.9.13
- libreoffice
- Dockerfile
- 使用說明
- Kubernetes
- kubectl常用命令
- 環境搭建(1.9.6)
- kubernetes1.9.6墻內離線部署
- kubernetes1.9.6單機器部署
- helm安裝
- helm常用命令
- Laradock
- Swoole
- 環境的搭建
- swoole的簡單實例
- 服務端的cli方式運行
- 客戶端的運行方式
- 定時任務的入門
- 刪除定時任務
- 初始化定時任務
- 日志管理
- 具體任務的異常捕獲
- 手動重啟shell腳本
- Elasticsearch
- Elasticsearch檢索實踐
- 讀后感
- 【讀書】登天的感覺——岳曉東
- 【讀書】為何家會傷人——武志紅
- 【讀書】思考與致富——拿破侖-希爾
- 【感受】做事講方法
- 【感受】未來暢想
- 【素材】智力問答
- 【百家】曾國藩家訓
- 【百家】正說和珅
- 【感受】談判小技巧
- 【讀書】股票作手回憶錄——利弗莫爾
- 【感受】最幸福的人——工匠
- 【收藏】土味情話大合集
- 【讀書】解憂雜貨店——東野圭吾
- 【讀書】把時間當作朋友——李笑來
- 【感受】輿論和八卦
- 【讀書】老人與海——海明威
- 【讀書】必然——凱文凱利
- 【經典】逍遙游——莊周
- 大模型AI
- OpenAI接入實戰
- DeepSeek接入實戰
- 豆包AI接入實戰
- 百度文心一言接入實戰
- DeepSeek本地化模型部署實戰