文件格式 · Hadoop2.x

Hive常用的幾種文件存儲方式。 **1. TextFile** （1）Hive 數據表的默認格式，存儲方式：行存儲。默認數據不做壓縮，磁盤開銷大，數據解析開銷大。（2）可以使用 Gzip 壓縮算法，但壓縮后的文件不支持 split ，在反序列化過程中，必須逐個字符判斷是不是分隔符和行結束符，因此反序列化開銷會比 SequenceFile 高幾十倍。 **2.Sequence Files** （1）支持分割的文件可以并行的有多個 mapper 程序處理大數據文件，大多數文件不支持可分割是因為這些文件只能從頭開始讀。（2）Sequence File 是可分割的文件格式，支持 Hadoop 的 block 級壓縮。（3）Hadoop API 提供的一種二進制文件，以 key-value 的形式序列化到文件中。（4）存儲方式：行存儲。 sequencefile 支持三種壓縮選擇：NONE，RECORD，BLOCK。Record（默認）壓縮率低，通常 BLOCK 會帶來較 RECORD 更好的壓縮性能。優勢是文件和 hadoop api 中的 MapFile 是相互兼容的。 **3. RCFile** 存儲方式：數據按行分塊，每塊按列存儲。結合了行存儲和列存儲的優點。 首先，RCFile 保證同一行的數據位于同一節點，因此元組重構的開銷很低；其次，像列存儲一樣，RCFile 能夠利用列維度的數據壓縮，并且能跳過不必要的列讀取數據追加； 數據追加：RCFile 不支持任意方式的數據寫操作，僅提供一種追加接口，這是因為底層的 HDFS 當前僅僅支持數據追加寫文件尾部。行組大小：行組變大有助于提高數據壓縮的效率，但是可能會損害數據的讀取性能，因為這樣增加了 Lazy 解壓性能的消耗。而且行組變大會占用更多的內存，這會影響并發執行的其他 MR 作業。 **4. ORCFile** 存儲方式：數據按行分塊，每塊按照列存儲。 壓縮快，快速列存取。效率比 rcfile 高，是 rcfile 的改良版本。 ORC 是在一定程度上擴展了 RCFile，是對 RCFile 的優化。 * ORC 是列式存儲，有多種文件壓縮方式，并且有著很高的壓縮比。 * 文件是可切分（Split）的。因此，在 Hive 中使用 ORC 作為表的文件存儲格式，不僅節省 HDFS 存儲資源，查詢任務的輸入數據量減少，使用的MapTask 也就減少了。 * 提供了多種索引，row group index、bloom filter index。 * ORC 可以支持復雜的數據結構（比如 Map 等） ```sql create table a_orc ( customerid int, name string, age int, address string ) stored as orc tblproperties ("orc.compress" = "snappy"); ``` **5.Parquet** Parquet 也是一種行式存儲，同時具有很好的壓縮性能；同時可以減少大量的表掃描和反序列化的時間。