[TOC]
# 監控
監控體系需要涉及到這些
端到端全方位監控

涉及以上5個點
Metrics延遲,錯誤監控
調用鏈,把問題及時暴露出來,不要人為去查
# 主流監控架構


agent負責收集日志和信息發送到后臺監控系統
發的比較大的話,需要加個隊列緩沖下
<br>
log主要用的是ELK
metrics主流會采用時間序列數據庫InfluxDB等,時間序列Grafana
健康檢查端點Nagios,Kubernetes
他們都有故障告警出來的能力