設置正確的批容量 · Spark 編程指南簡體中文版

# 設置正確的批容量為了Spark Streaming應用程序能夠在集群中穩定運行，系統應該能夠以足夠的速度處理接收的數據（即處理速度應該大于或等于接收數據的速度）。這可以通過流的網絡UI觀察得到。批處理時間應該小于批間隔時間。根據流計算的性質，批間隔時間可能顯著的影響數據處理速率，這個速率可以通過應用程序維持。可以考慮`WordCountNetwork`這個例子，對于一個特定的數據處理速率，系統可能可以每2秒打印一次單詞計數（批間隔時間為2秒），但無法每500毫秒打印一次單詞計數。所以，為了在生產環境中維持期望的數據處理速率，就應該設置合適的批間隔時間(即批數據的容量)。找出正確的批容量的一個好的辦法是用一個保守的批間隔時間（5-10,秒）和低數據速率來測試你的應用程序。為了驗證你的系統是否能滿足數據處理速率，你可以通過檢查端到端的延遲值來判斷（可以在 Spark驅動程序的log4j日志中查看"Total delay"或者利用StreamingListener接口）。如果延遲維持穩定，那么系統是穩定的。如果延遲持續增長，那么系統無法跟上數據處理速率，是不穩定的。你能夠嘗試著增加數據處理速率或者減少批容量來作進一步的測試。注意，因為瞬間的數據處理速度增加導致延遲瞬間的增長可能是正常的，只要延遲能重新回到了低值（小于批容量）。