# 監控 Kafka
主要從三個緯度
* Kafka 主機
* JVM
* Kafka 集群你
## 主機
主機監控:監控 Broker 所在的節點機器的性能
指標
* 機器負載(load)
* CPU 使用率
* 內存使用率,包括空閑內存(Free memory)、已用內存(Used memory)
* 磁盤 IO 使用率,包括讀使用率、寫使用率
* 網絡 IO 使用率
* TCP 連接數
* 打開文件數
* inode
## JVM
* Broker 進程的堆大小(HeapSize)
* GC
* Minor GC、Full GC 的頻率和時長
* 活躍對象的大小
* JVM 上應用線程的大致總數
* 一定要較空 Broker GC 日志,即以 kafkaServer-gc.log 開頭的文件
## 集群監控
* Broker 進程是否啟動,端口是否建立
* Broker 端關鍵日志
* Broker 端關鍵線程的運行狀態
* 最重要的兩類線程
* Log Compaction 線程
* 副本拉取消息的線程
* Broker 端關鍵 JMX 指標
* BytesIn/BytesOut:Broker 每秒入出的字節數
* NetworkProcessorAvgIdlePercent:網絡線程池平均的空閑比例
* 確保 > 30%
* UnderReplicatedPartitions:未充分備份的分區數
* ISRShrink / ISRExpand:ISR 收縮、擴容的頻次指標
* ActiveControllerCount:當前處于激活狀態的控制器的數量
## 客戶端
* 網絡往返時延(Round-Trip Time,i.e. RTT)
* 客戶端機器上 ping Broker IP,查看 RTT 值
* kafka-producer-network-thread 線程:負責實際發送消息
* kafka-coordinator-heartbeat-thread:心跳線程,事關 Rebalance
* Producer 角度
* request-latency:消息生產請求的延時,直接表征 Producer TPS
* Consumer 角度
* records-lag
* records-lead
* Consumer Group
* join rate
* sync rate
* 這兩個指標均表明了 Rebalance 的頻繁程度
- 概覽
- 入門
- 1. 消息引擎系統
- 2. Kafka 術語
- 3. 分布式流處理平臺
- 4. Kafka “發行版”
- 5. Kafka 版本號
- 基本使用
- 6. 生產集群部署
- 7. 集群參數配置
- 客戶端實踐與原理
- 9. Consumer 分區機制
- 10. Consumer 壓縮算法
- 11. 無消息丟失配置
- 12. 客戶端高級功能
- 13. Producer 管理 TCP
- 14. 冪等生產者和事務生產者
- 15. 消費者組
- 16. 位移主題
- 17. 消費者組重平衡(TODO)
- 18. 位移提交
- 19. CommitFailedException
- 20. 多線程開發者實例
- 21. Consumer 管理 TCP
- 22. 消費者組消費進度監控
- Kafka 內核
- 23. 副本機制
- 24. 請求處理
- 25. Rebalance 全流程
- 26. Kafka 控制器
- 27. 高水位和 Leader Epoch
- 管理與監控
- 28. Topic 管理
- 29. Kafka 動態配置
- 30. 重設消費者組位移
- 31. 工具腳本
- 32. KafkaAdminClient
- 33. 認證機制
- 34. 云下授權
- 35. 跨集群備份 MirrorMaker
- 36. 監控 Kafka
- 37. Kafka 監控框架
- 38. 調優 Kafka
- 39. 實時日志流處理平臺
- 流處理
- 40. Kafka Streams
- 41. Kafka Streams DSL
- 42. Kafka Streams 金融
- Q&A