參數配置優化 · JAVA

[TOC] # 配置優化 ## zookeeper.session.timeout 默認值：3分鐘(180000ms) 說明：RegionServer與Zookeeper間的連接超時時間。當超時時間到后，ReigonServer會被Zookeeper從RS集群清單中移除，HMaster收到移除通知后，會對這臺server負責的regions重新balance，讓其他存活的RegionServer接管. 調優：這個timeout決定了RegionServer是否能夠及時的failover。設置成1分鐘或更低，可以減少因等待超時而被延長的failover時間。不過需要注意的是，對于一些Online應用，RegionServer從宕機到恢復時間本身就很短的（網絡閃斷，crash等故障，運維可快速介入），如果調低timeout時間，反而會得不償失。因為當ReigonServer被正式從RS集群中移除時，HMaster就開始做balance了（讓其他RS根據故障機器記錄的WAL日志進行恢復）。當故障的RS在人工介入恢復后，這個balance動作是毫無意義的，反而會使負載不均勻，給RS帶來更多負擔。特別是那些固定分配regions的場景。 ## hbase.regionserver.handler.count 默認值：10 說明：RegionServer的請求處理IO線程數。調優：這個參數的調優與內存息息相關。較少的IO線程，適用于處理單次請求內存消耗較高的Big PUT場景（大容量單次PUT或設置了較大cache的scan，均屬于Big PUT）或ReigonServer的內存比較緊張的場景。較多的IO線程，適用于單次請求內存消耗低，TPS要求非常高的場景。設置該值的時候，以監控內存為主要參考。這里需要注意的是如果server的region數量很少，大量的請求都落在一個region上，因快速充滿memstore觸發flush導致的讀寫鎖會影響全局TPS，不是IO線程數越高越好。壓測時，開啟Enabling RPC-level logging，可以同時監控每次請求的內存消耗和GC的狀況，最后通過多次壓測結果來合理調節IO線程數。 ## hbase.hregion.max.filesize 默認值：256M 說明：在當前ReigonServer上單個Reigon的最大存儲空間，單個Region超過該值時，這個Region會被自動split成更小的region。調優：小region對split和compaction友好，因為拆分region或compact小region里的storefile速度很快，內存占用低。缺點是split和compaction會很頻繁。特別是數量較多的小region不停地split, compaction，會導致集群響應時間波動很大，region數量太多不僅給管理上帶來麻煩，甚至會引發一些Hbase的bug。一般512以下的都算小region。大region，則不太適合經常split和compaction，因為做一次compact和split會產生較長時間的停頓，對應用的讀寫性能沖擊非常大。此外，大region意味著較大的storefile，compaction時對內存也是一個挑戰。當然，大region也有其用武之地。如果你的應用場景中，某個時間點的訪問量較低，那么在此時做compact和split，既能順利完成split和compaction，又能保證絕大多數時間平穩的讀寫性能。既然split和compaction如此影響性能，有沒有辦法去掉？ compaction是無法避免的，split倒是可以從自動調整為手動。只要通過將這個參數值調大到某個很難達到的值，比如100G，就可以間接禁用自動split（RegionServer不會對未到達100G的region做split）。再配合RegionSplitter這個工具，在需要split時，手動split。手動split在靈活性和穩定性上比起自動split要高很多，相反，管理成本增加不多，比較推薦online實時系統使用。內存方面，小region在設置memstore的大小值上比較靈活，大region則過大過小都不行，過大會導致flush時app的IO wait增高，過小則因store file過多影響讀性能。 ## hbase.regionserver.global.memstore.upperLimit/lowerLimit 默認值：0.4/0.35 upperlimit說明：hbase.hregion.memstore.flush.size 這個參數的作用是當單個Region內所有的memstore大小總和超過指定值時，flush該region的所有memstore。RegionServer的flush是通過將請求添加一個隊列，模擬生產消費模式來異步處理的。那這里就有一個問題，當隊列來不及消費，產生大量積壓請求時，可能會導致內存陡增，最壞的情況是觸發OOM。這個參數的作用是防止內存占用過大，當ReigonServer內所有region的memstores所占用內存總和達到heap的40%時，HBase會強制block所有的更新并flush這些region以釋放所有memstore占用的內存。 lowerLimit說明：同upperLimit，只不過lowerLimit在所有region的memstores所占用內存達到Heap的35%時，不flush所有的memstore。它會找一個memstore內存占用最大的region，做個別flush，此時寫更新還是會被block。lowerLimit算是一個在所有region強制flush導致性能降低前的補救措施。在日志中，表現為 “** Flush thread woke up with memory above low water.” 調優：這是一個Heap內存保護參數，默認值已經能適用大多數場景。?參數調整會影響讀寫，如果寫的壓力大導致經常超過這個閥值，則調小讀緩存hfile.block.cache.size增大該閥值，或者Heap余量較多時，不修改讀緩存大小。如果在高壓情況下，也沒超過這個閥值，那么建議你適當調小這個閥值再做壓測，確保觸發次數不要太多，然后還有較多Heap余量的時候，調大hfile.block.cache.size提高讀性能。還有一種可能性是?hbase.hregion.memstore.flush.size保持不變，但RS維護了過多的region，要知道 region數量直接影響占用內存的大小。 ## hfile.block.cache.size 默認值：0.2 說明：storefile的讀緩存占用Heap的大小百分比，0.2表示20%。該值直接影響數據讀的性能。?調優：當然是越大越好，如果寫比讀少很多，開到0.4-0.5也沒問題。如果讀寫較均衡，0.3左右。如果寫比讀多，果斷默認吧。設置這個值的時候，你同時要參考?hbase.regionserver.global.memstore.upperLimit?，該值是memstore占heap的最大百分比，兩個參數一個影響讀，一個影響寫。如果兩值加起來超過80-90%，會有OOM的風險，謹慎設置。 hbase.hstore.blockingStoreFiles 默認值：7 說明：在flush時，當一個region中的Store（Coulmn Family）內有超過7個storefile時，則block所有的寫請求進行compaction，以減少storefile數量。調優：block寫請求會嚴重影響當前regionServer的響應時間，但過多的storefile也會影響讀性能。從實際應用來看，為了獲取較平滑的響應時間，可將值設為無限大。如果能容忍響應時間出現較大的波峰波谷，那么默認或根據自身場景調整即可。 ## hbase.hregion.memstore.block.multiplier 默認值：2 說明：當一個region里的memstore占用內存大小超過hbase.hregion.memstore.flush.size兩倍的大小時，block該region的所有請求，進行flush，釋放內存。雖然我們設置了region所占用的memstores總內存大小，比如64M，但想象一下，在最后63.9M的時候，我Put了一個200M的數據，此時memstore的大小會瞬間暴漲到超過預期的hbase.hregion.memstore.flush.size的幾倍。這個參數的作用是當memstore的大小增至超過hbase.hregion.memstore.flush.size 2倍時，block所有請求，遏制風險進一步擴大。調優：這個參數的默認值還是比較靠譜的。如果你預估你的正常應用場景（不包括異常）不會出現突發寫或寫的量可控，那么保持默認值即可。如果正常情況下，你的寫請求量就會經常暴長到正常的幾倍，那么你應該調大這個倍數并調整其他參數值，比如hfile.block.cache.size和hbase.regionserver.global.memstore.upperLimit/lowerLimit，以預留更多內存，防止HBase server OOM。 ## hbase.hregion.memstore.mslab.enabled 默認值：true 說明：減少因內存碎片導致的Full GC，提高整體性能。調優：詳見?http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation # 其他 ## 啟用LZO壓縮 LZO對比Hbase默認的GZip，前者性能較高，后者壓縮比較高，具體參見?Using LZO Compression?。對于想提高HBase讀寫性能的開發者，采用LZO是比較好的選擇。對于非常在乎存儲空間的開發者，則建議保持默認。 ## 不要在一張表里定義太多的Column Family Hbase目前不能良好的處理超過包含2-3個CF的表。 **因為某個CF在flush發生時，它鄰近的CF也會因關聯效應被觸發flush，最終導致系統產生更多IO** ## 批量導入在批量導入數據到Hbase前，你可以通過預先創建regions，來平衡數據的負載。 ## 避免CMS concurrent mode failure HBase使用CMS GC。默認觸發GC的時機是當年老代內存達到90%的時候，這個百分比由 -XX:CMSInitiatingOccupancyFraction=N 這個參數來設置。concurrent mode failed發生在這樣一個場景：當年老代內存達到90%的時候，CMS開始進行并發垃圾收集，于此同時，新生代還在迅速不斷地晉升對象到年老代。當年老代CMS還未完成并發標記時，年老代滿了，悲劇就發生了。CMS因為沒內存可用不得不暫停mark，并觸發一次stop the world（掛起所有jvm線程），然后采用單線程拷貝方式清理所有垃圾對象。這個過程會非常漫長。為了避免出現concurrent mode failed，建議讓GC在未到90%時，就觸發。通過設置`?-XX:CMSInitiatingOccupancyFraction=N` 這個百分比，可以簡單的這么計算。如果你的?hfile.block.cache.size 和?hbase.regionserver.global.memstore.upperLimit 加起來有60%（默認），那么你可以設置 70-80，一般高10%左右差不多。 # Hbase客戶端優化 ## AutoFlush 將HTable的setAutoFlush設為false，可以支持客戶端批量更新。即當Put填滿客戶端flush緩存時，才發送到服務端。默認是true。 ## Scan Caching scanner一次緩存多少數據來scan（從服務端一次抓多少數據回來scan）默認值是 1，一次只取一條。 ## Scan Attribute Selection scan時建議指定需要的Column Family，減少通信量，否則scan操作默認會返回整個row的所有數據（所有Coulmn Family）。 ## Close ResultScanners 通過scan取完數據后，記得要關閉ResultScanner，否則RegionServer可能會出現問題（對應的Server資源無法釋放）。 ## Optimal Loading of Row Keys 當你scan一張表的時候，返回結果只需要row key（不需要CF, qualifier,values,timestaps）時，你可以在scan實例中添加一個filterList，并設置 MUST_PASS_ALL操作，filterList中add?FirstKeyOnlyFilter或KeyOnlyFilter。這樣可以減少網絡通信量。 ## Turn off WAL on Puts 當Put某些非重要數據時，你可以設置writeToWAL(false)，來進一步提高寫性能。writeToWAL(false)會在Put時放棄寫WAL log。風險是，當RegionServer宕機時，可能你剛才Put的那些數據會丟失，且無法恢復。 ## 啟用Bloom Filter Bloom Filter通過空間換時間，提高讀操作性能 # 總結 ## hbase.hregion.max.filesize應該設置多少合適默認值：256M 說明：Maximum HStoreFile size. If any one of a column families' HStoreFiles has?grown to exceed this value, the hosting HRegion is split in two. HStoreFile的最大值。如果任何一個Column Family（或者說HStore）的HStoreFiles的大小超過這個值，那么，其所屬的HRegion就會Split成兩個。調優： hbase中hfile的默認最大值(hbase.hregion.max.filesize)是256MB，而google的bigtable論文中對tablet的最大值也推薦為100-200MB，這個大小有什么秘密呢？眾所周知hbase中數據一開始會寫入memstore，當memstore滿64MB以后，會flush到disk上而成為storefile。當storefile數量超過3時，會啟動compaction過程將它們合并為一個storefile。這個過程中會刪除一些timestamp過期的數據，比如update的數據。而當合并后的storefile大小大于hfile默認最大值時，會觸發split動作，將它切分成兩個region。 lz進行了持續insert壓力測試，并設置了不同的hbase.hregion.max.filesize，根據結果得到如下結論：值越小，平均吞吐量越大，但吞吐量越不穩定；值越大，平均吞吐量越小，吞吐量不穩定的時間相對更小。　　為什么會這樣呢？推論如下： ?? ?a 當hbase.hregion.max.filesize比較小時，觸發split的機率更大，而split的時候會將region offline，因此在split結束的時間前，訪問該region的請求將被block住，客戶端自我block的時間默認為1s。當大量的region同時發生split時，系統的整體訪問服務將大受影響。因此容易出現吞吐量及響應時間的不穩定現象 b 當hbase.hregion.max.filesize比較大時，單個region中觸發split的機率較小，大量region同時觸發split的機率也較小，因此吞吐量較之小hfile尺寸更加穩定些。但是由于長期得不到split，因此同一個region內發生多次compaction的機會增加了。compaction的原理是將原有數據讀一遍并重寫一遍到hdfs上，然后再刪除原有數據。無疑這種行為會降低以io為瓶頸的系統的速度，因此平均吞吐量會受到一些影響而下降。綜合以上兩種情況，hbase.hregion.max.filesize不宜過大或過小，256MB或許是一個更理想的經驗參數。對于離線型的應用，調整為128MB會更加合適一些，而在線應用除非對split機制進行改造，否則不應該低于256MB ## autoflush=false的影響　　無論是官方還是很多blog都提倡為了提高hbase的寫入速度而在應用代碼中設置autoflush=false，然后lz認為在在線應用中應該謹慎進行該設置。原因如下：　　a autoflush=false的原理是當客戶端提交delete或put請求時，將該請求在客戶端緩存，直到數據超過2M(hbase.client.write.buffer決定)或用戶執行了hbase.flushcommits()時才向regionserver提交請求。因此即使htable.put()執行返回成功，也并非說明請求真的成功了。假如還沒有達到該緩存而client崩潰，該部分數據將由于未發送到regionserver而丟失。這對于零容忍的在線服務是不可接受的。　　b autoflush=true雖然會讓寫入速度下降2-3倍，但是對于很多在線應用來說這都是必須打開的，也正是hbase為什么讓它默認值為true的原因。當該值為true時，每次請求都會發往regionserver,而regionserver接收到請求后第一件事就是寫hlog，因此對io的要求是非常高的，為了提高hbase的寫入速度，應該盡可能高地提高io吞吐量，比如增加磁盤、使用raid卡、減少replication因子數等 ## 從性能的角度談table中family和qualifier的設置對于傳統關系型數據庫中的一張table，在業務轉換到hbase上建模時，從性能的角度應該如何設置family和qualifier呢？最極端的，①每一列都設置成一個family，②一個表僅有一個family，所有列都是其中的一個qualifier，那么有什么區別呢？　　從讀的方面考慮： family越多，那么獲取每一個cell數據的優勢越明顯，因為io和網絡都減少了。　　如果只有一個family，那么每一次讀都會讀取當前rowkey的所有數據，網絡和io上會有一些損失。　　當然如果要獲取的是固定的幾列數據，那么把這幾列寫到一個family中比分別設置family要更好，因為只需一次請求就能拿回所有數據。　　從寫的角度考慮：　　首先，內存方面來說，對于一個Region，會為每一個表的每一個Family分配一個Store，而每一個Store，都會分配一個MemStore，所以更多的family會消耗更多的內存。其次，從flush和compaction方面說，目前版本的hbase，在flush和compaction都是以region為單位的，也就是說當一個family達到flush條件時，該region的所有family所屬的memstore都會flush一次，即使memstore中只有很少的數據也會觸發flush而生成小文件。這樣就增加了compaction發生的機率，而compaction也是以region為單位的，這樣就很容易發生compaction風暴從而降低系統的整體吞吐量。第三，從split方面考慮，由于hfile是以family為單位的，因此對于多個family來說，數據被分散到了更多的hfile中，減小了split發生的機率。這是把雙刃劍。更少的split會導致該region的體積比較大，由于balance是以region的數目而不是大小為單位來進行的，因此可能會導致balance失效。而從好的方面來說，更少的split會讓系統提供更加穩定的在線服務。而壞處我們可以通過在請求的低谷時間進行人工的split和balance來避免掉。因此對于寫比較多的系統，如果是離線應該，我們盡量只用一個family好了，但如果是在線應用，那還是應該根據應用的情況合理地分配family。 ## hbase.regionserver.handler.count ?RegionServer端開啟的RPC監聽器實例個數，也即RegionServer能夠處理的IO請求線程數。默認是10. ?此參數與內存息息相關。該值設置的時候，以監控內存為主要參考。 ?對于?單次請求內存消耗較高的Big PUT場景（大容量單次PUT或設置了較大cache的scan，均屬于Big PUT）或ReigonServer的內存比較緊張的場景，可以設置的相對較小。 ?對于?單次請求內存消耗低，TPS（TransactionPerSecond，每秒事務處理量）要求非常高的場景，可以設置的相對大些。