<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                Hive常用的幾種文件存儲方式。 <br/> **1. TextFile** (1)Hive 數據表的默認格式,存儲方式:行存儲。默認數據不做壓縮,磁盤開銷大,數據解析開銷大。 (2)可以使用 Gzip 壓縮算法,但壓縮后的文件不支持 split ,在反序列化過程中,必須逐個字符判斷是不是分隔符和行結束符,因此反序列化開銷會比 SequenceFile 高幾十倍。 <br/> **2.Sequence Files** (1)支持分割的文件可以并行的有多個 mapper 程序處理大數據文件,大多數文件不支持可分割是因為這些文件只能從頭開始讀。 (2)Sequence File 是可分割的文件格式,支持 Hadoop 的 block 級壓縮。 (3)Hadoop API 提供的一種二進制文件,以 key-value 的形式序列化到文件中。 (4)存儲方式:行存儲。 sequencefile 支持三種壓縮選擇:NONE,RECORD,BLOCK。Record(默認) 壓縮率低,通常 BLOCK 會帶來較 RECORD 更好的壓縮性能。 優勢是文件和 hadoop api 中的 MapFile 是相互兼容的。 <br/> **3. RCFile** 存儲方式:數據按行分塊,每塊按列存儲。結合了行存儲和列存儲的優點。 <br/> 首先,RCFile 保證同一行的數據位于同一節點,因此元組重構的開銷很低; 其次,像列存儲一樣,RCFile 能夠利用列維度的數據壓縮,并且能跳過不必要的列讀取數據追加; <br/> 數據追加:RCFile 不支持任意方式的數據寫操作,僅提供一種追加接口,這是因為底層的 HDFS 當前僅僅支持數據追加寫文件尾部。 行組大小:行組變大有助于提高數據壓縮的效率,但是可能會損害數據的讀取性能,因為這樣增加了 Lazy 解壓性能的消耗。而且行組變大會占用更多的內存,這會影響并發執行的其他 MR 作業。 <br/> **4. ORCFile** 存儲方式:數據按行分塊,每塊按照列存儲。 <br/> 壓縮快,快速列存取。效率比 rcfile 高,是 rcfile 的改良版本。 ORC 是在一定程度上擴展了 RCFile,是對 RCFile 的優化。 * ORC 是列式存儲,有多種文件壓縮方式,并且有著很高的壓縮比。 * 文件是可切分(Split)的。因此,在 Hive 中使用 ORC 作為表的文件存儲格式,不僅節省 HDFS 存儲資源,查詢任務的輸入數據量減少,使用的MapTask 也就減少了。 * 提供了多種索引,row group index、bloom filter index。 * ORC 可以支持復雜的數據結構(比如 Map 等) ```sql create table a_orc ( customerid int, name string, age int, address string ) stored as orc tblproperties ("orc.compress" = "snappy"); ``` <br/> **5.Parquet** Parquet 也是一種行式存儲,同時具有很好的壓縮性能;同時可以減少大量的表掃描和反序列化的時間。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看