- SRE概念
- 運維剖析
- SRE介紹和理解
- SRE的定位和職責
- 職業素養篇
- 戰略目標
- 日常的技術支持
- oncall 值班制度
- 故障處理流程制度
- case study 復盤制度
- 高性價比的學習
- 成長路線
- 云原生
- k8s和docker
- 服務網格
- 不可不知的云上網絡
- 云原生背景下的運維價值思考與實踐
- 云原生背景運維轉型之 SRE 實踐
- 監控和報警
- 監控體系介紹
- APM可觀測
- Prometheus監控
- Trace全鏈路跟蹤
- ELK日志分析平臺
- 報警和值班機制
- 不設邊界的技術棧
- 測試&發布
- 穩定性建設
- 資源效能優化
- 應急處置和預案
- 操作系統-常見問題
- 分布式id生成器服務
- 開發、測試和生產環境管理
- 一次大規模技術棧遷移的回顧
- 行業文摘
- 2021年十大故障
- 從SRE角度來看推薦和搜索
- [B站] 2021.07.13 我們是這樣崩的
- 月活 12.8 億的微信是如何防止崩潰的?
- 故障復盤究竟怎么做?美圖SRE結合10年經驗做了三大總結