shell參數 · 大數據

[TOC] # Hive命令行 ## 語法結構 ~~~ hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S] ~~~ 說明： 1. -i?從文件初始化HQL。 2. -e從命令行執行指定的HQL 3. -f 執行HQL腳本 4. -v 輸出執行的HQL語句到控制臺 5.` -p <port> connect to Hive Server on port number ` 6. `-hiveconf x=y Use this to set hive/hadoop configuration variables`. ## 具體實例 ~~~ //查詢指定的結果 hive -e "select * from collection.t_array"; //將查詢的結果導入導入到一個文件 hive -e "select * from collection.t_array" >> t_3; //把sql寫進這個sql文件 hive -f sql ~~~ 我們把這個當做配置文件 ~~~ [root@master ~]# cat cof set mapred.reduce.tasks=4; ~~~ 然后啟動下 ~~~ hive -i cof ~~~ 除了顯示結果,還顯示執行的sql ~~~ hive -v -e "select * from collection.t_array"; ~~~ 指定啟動時候的配置參數 ~~~ hive -hiveconf mapred.reduce.tasks=4 ~~~ # Hive參數配置方式 Hive參數大全： `https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties` 開發Hive應用時，不可避免地需要設定Hive的參數。設定Hive的參數可以調優HQL代碼的執行效率，或幫助定位問題。然而實踐中經常遇到的一個問題是，為什么設定的參數沒有起作用？這通常是錯誤的設定方式導致的。對于一般參數，有以下三種設定方式： * 配置文件 * 命令行參數 * 參數聲明配置文件：Hive的配置文件包括 * 用戶自定義配置文件：`$HIVE_CONF_DIR/hive-site.xml ` * 默認配置文件：`$HIVE_CONF_DIR/hive-default.xml ` **用戶自定義配置會覆蓋默認配置** 另外，Hive也會讀入Hadoop的配置，因為Hive是作為Hadoop的客戶端啟動的，Hive的配置會覆蓋Hadoop的配置 **配置文件的設定對本機啟動的所有Hive進程都有效** **命令行參數**：啟動Hive（客戶端或Server方式）時，可以在命令行添加`-hiveconf param=value`來設定參數，例如： ~~~ bin/hive -hiveconf hive.root.logger=INFO,console ~~~ **這一設定對本次啟動的Session（對于Server方式啟動，則是所有請求的Sessions）有效** **參數聲明：** 可以在HQL中使用SET關鍵字設定參數，例如： ~~~ set mapred.reduce.tasks=100; ~~~ **這一設定的作用域也是session級的** 每個reducer task任務處理的數據量。默認為1G ~~~ set hive.exec.reducers.bytes.per.reducer=<number> ~~~ 設置reducers task的最大個數 ~~~ set hive.exec.reducers.max=<number> ~~~ 設置reduce task的任務數 ~~~ set mapred.reduce.tasks=<number> ~~~ 總結： **上述三種設定方式的優先級依次遞增。即參數聲明覆蓋命令行參數，命令行參數覆蓋配置文件設定。注意某些系統級的參數，例如log4j相關的設定，必須用前兩種方式設定，因為那些參數的讀取在Session建立以前已經完成了**