[TOC]
# scheduler調度步驟
kube-scheduler 給一個 Pod 做調度選擇時包含兩個步驟:
1. 過濾
2. 打分
過濾階段會將所有滿足 Pod 調度需求的節點選出來。 例如,PodFitsResources 過濾函數會檢查候選節點的可用資源能否滿足 Pod 的資源請求。 在過濾之后,得出一個節點列表,里面包含了所有可調度節點;通常情況下, 這個節點列表包含不止一個節點。如果這個列表是空的,代表這個 Pod 不可調度。
在打分階段,調度器會為 Pod 從所有可調度節點中選取一個最合適的節點。 根據當前啟用的打分規則,調度器會給每一個可調度節點進行打分。
最后,kube-scheduler 會將 Pod 調度到得分最高的節點上。 如果存在多個得分最高的節點,kube-scheduler 會從中隨機選取一個。
# 常見問題
## 調度不均衡
通常反饋都是內存不均衡。比如集群有三個節點,一臺是128G內存,兩臺是64G內存。預想的是三臺使用內存百分比差不多。實際上兩臺64G內存差不多跑滿了,另一臺128G內存才跑了50%左右。
為什么會出現這種問題呢?
> 我們先了解下調度的其中一個打分。k8s調度認為內存使用情況是 `節點總共調度的request值(kubectl describe node k8s-node01)` 最下面有打印(示例如下)
> 
**由此可見**:調度的時候不是按照主機實際使用內存情況,而是根據 該節點request總值來評估使用率。
**總結和建議**:pod設置一定要設置 request 值,且設置的時候與實際跑的內存相符。設置request值與實際跑的內存差距太大會出現如上情況。
## 監控主機內存接近滿載不驅逐
k8s是有自己一套主機內存判斷機制是否到達驅逐臨界定。[官網提供k8s檢測腳本](https://kubernetes.io/zh-cn/examples/admin/resource/memory-available.sh) / [【備份】本地下載官方k8s檢測腳本](./memory-available.sh) 判斷是否超過驅逐臨界點。超過該臨界點則開始驅逐pod。臨界點是 `--eviction-hard` 參數配置。查看配置的情況 `ps -ef | grep [k]ubelet | grep 'eviction-hard=memory.available'`
**由此可見**:可能與監控主機內存有出入,需參考上面提供腳本測試是否到達驅逐標準。
>[info] **總結**:通過 `free -h` 不是判斷驅逐條件,所有還是使用上面腳本為準哈。
# 參考文章
節點壓力驅逐:https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/node-pressure-eviction/
- 前言
- 架構
- 部署
- kubeadm部署
- kubeadm擴容節點
- 二進制安裝基礎組件
- 添加master節點
- 添加工作節點
- 選裝插件安裝
- Kubernetes使用
- k8s與dockerfile啟動參數
- hostPort與hostNetwork異同
- 應用上下線最佳實踐
- 進入容器命名空間
- 主機與pod之間拷貝
- events排序問題
- k8s會話保持
- 容器root特權
- CNI插件
- calico
- calicoctl安裝
- calico網絡通信
- calico更改pod地址范圍
- 新增節點網卡名不一致
- 修改calico模式
- calico數據存儲遷移
- 啟用 kubectl 來管理 Calico
- calico卸載
- cilium
- cilium架構
- cilium/hubble安裝
- cilium網絡路由
- IP地址管理(IPAM)
- Cilium替換KubeProxy
- NodePort運行DSR模式
- IP地址偽裝
- ingress使用
- nginx-ingress
- ingress安裝
- ingress高可用
- helm方式安裝
- 基本使用
- Rewrite配置
- tls安全路由
- ingress發布管理
- 代理k8s集群外的web應用
- ingress自定義日志
- ingress記錄真實IP地址
- 自定義參數
- traefik-ingress
- traefik名詞概念
- traefik安裝
- traefik初次使用
- traefik路由(IngressRoute)
- traefik中間件(middlewares)
- traefik記錄真實IP地址
- cert-manager
- 安裝教程
- 頒布者CA
- 創建證書
- 外部存儲
- 對接NFS
- 對接ceph-rbd
- 對接cephfs
- 監控平臺
- Prometheus
- Prometheus安裝
- grafana安裝
- Prometheus配置文件
- node_exporter安裝
- kube-state-metrics安裝
- Prometheus黑盒監控
- Prometheus告警
- grafana儀表盤設置
- 常用監控配置文件
- thanos
- Prometheus
- Sidecar組件
- Store Gateway組件
- Querier組件
- Compactor組件
- Prometheus監控項
- grafana
- Querier對接grafana
- alertmanager
- Prometheus對接alertmanager
- 日志中心
- filebeat安裝
- kafka安裝
- logstash安裝
- elasticsearch安裝
- elasticsearch索引生命周期管理
- kibana安裝
- event事件收集
- 資源預留
- 節點資源預留
- imagefs與nodefs驗證
- 資源預留 vs 驅逐 vs OOM
- scheduler調度原理
- Helm
- Helm安裝
- Helm基本使用
- 安全
- apiserver審計日志
- RBAC鑒權
- namespace資源限制
- 加密Secret數據
- 服務網格
- 備份恢復
- Velero安裝
- 備份與恢復
- 常用維護操作
- container runtime
- 拉取私有倉庫鏡像配置
- 拉取公網鏡像加速配置
- runtime網絡代理
- overlay2目錄占用過大
- 更改Docker的數據目錄
- Harbor
- 重置Harbor密碼
- 問題處理
- 關閉或開啟Harbor的認證
- 固定harbor的IP地址范圍
- ETCD
- ETCD擴縮容
- ETCD常用命令
- ETCD數據空間壓縮清理
- ingress
- ingress-nginx header配置
- kubernetes
- 驗證yaml合法性
- 切換KubeProxy模式
- 容器解析域名
- 刪除節點
- 修改鏡像倉庫
- 修改node名稱
- 升級k8s集群
- 切換容器運行時
- apiserver接口
- 其他
- 升級內核
- k8s組件性能分析
- ETCD
- calico
- calico健康檢查失敗
- Harbor
- harbor同步失敗
- Kubernetes
- 資源Terminating狀態
- 啟動容器報錯