創建高可用etcd集群 · kubernetes完整攻略

# 創建高可用 etcd 集群 kuberntes 系統使用 etcd 存儲所有數據，本文檔介紹部署一個三節點高可用 etcd 集群的步驟，這三個節點復用 kubernetes master 機器，分別命名為`test-001.jimmysong.io`、`test-002.jimmysong.io`、`test-003.jimmysong.io`： + test-001.jimmysong.io：172.20.0.113 + test-002.jimmysong.io：172.20.0.114 + test-003.jimmysong.io：172.20.0.115 ## TLS 認證文件需要為 etcd 集群創建加密通信的 TLS 證書，這里復用以前創建的 kubernetes 證書 ``` bash cp ca.pem kubernetes-key.pem kubernetes.pem /etc/kubernetes/ssl ``` + kubernetes 證書的 `hosts` 字段列表中包含上面三臺機器的 IP，否則后續證書校驗會失敗； ## 下載二進制文件到 `https://github.com/coreos/etcd/releases` 頁面下載最新版本的二進制文件 ``` bash wget https://github.com/coreos/etcd/releases/download/v3.1.5/etcd-v3.1.5-linux-amd64.tar.gz tar -xvf etcd-v3.1.5-linux-amd64.tar.gz mv etcd-v3.1.5-linux-amd64/etcd* /usr/local/bin ``` 或者直接使用yum命令安裝： ```bash yum install etcd ``` 若使用yum安裝，默認etcd命令將在`/usr/bin`目錄下，注意修改下面`的etcd.service`文件中的啟動命令地址為`/usr/bin/etcd`。 ## 創建 etcd 的 systemd unit 文件在/usr/lib/systemd/system/目錄下創建文件etcd.service，內容如下。注意替換IP地址為你自己的etcd集群的主機IP。 ``` bash [Unit] Description=Etcd Server After=network.target After=network-online.target Wants=network-online.target Documentation=https://github.com/coreos [Service] Type=notify WorkingDirectory=/var/lib/etcd/ EnvironmentFile=-/etc/etcd/etcd.conf ExecStart=/usr/local/bin/etcd \ --name ${ETCD_NAME} \ --cert-file=/etc/kubernetes/ssl/kubernetes.pem \ --key-file=/etc/kubernetes/ssl/kubernetes-key.pem \ --peer-cert-file=/etc/kubernetes/ssl/kubernetes.pem \ --peer-key-file=/etc/kubernetes/ssl/kubernetes-key.pem \ --trusted-ca-file=/etc/kubernetes/ssl/ca.pem \ --peer-trusted-ca-file=/etc/kubernetes/ssl/ca.pem \ --initial-advertise-peer-urls ${ETCD_INITIAL_ADVERTISE_PEER_URLS} \ --listen-peer-urls ${ETCD_LISTEN_PEER_URLS} \ --listen-client-urls ${ETCD_LISTEN_CLIENT_URLS},http://127.0.0.1:2379 \ --advertise-client-urls ${ETCD_ADVERTISE_CLIENT_URLS} \ --initial-cluster-token ${ETCD_INITIAL_CLUSTER_TOKEN} \ --initial-cluster infra1=https://172.20.0.113:2380,infra2=https://172.20.0.114:2380,infra3=https://172.20.0.115:2380 \ --initial-cluster-state new \ --data-dir=${ETCD_DATA_DIR} Restart=on-failure RestartSec=5 LimitNOFILE=65536 [Install] WantedBy=multi-user.target ``` + 指定 `etcd` 的工作目錄為 `/var/lib/etcd`，數據目錄為 `/var/lib/etcd`，需在啟動服務前創建這個目錄，否則啟動服務的時候會報錯“Failed at step CHDIR spawning /usr/bin/etcd: No such file or directory”； + 為了保證通信安全，需要指定 etcd 的公私鑰(cert-file和key-file)、Peers 通信的公私鑰和 CA 證書(peer-cert-file、peer-key-file、peer-trusted-ca-file)、客戶端的CA證書（trusted-ca-file）； + 創建 `kubernetes.pem` 證書時使用的 `kubernetes-csr.json` 文件的 `hosts` 字段**包含所有 etcd 節點的IP**，否則證書校驗會出錯； + `--initial-cluster-state` 值為 `new` 時，`--name` 的參數值必須位于 `--initial-cluster` 列表中；完整 unit 文件見：[etcd.service](../systemd/etcd.service) 環境變量配置文件`/etc/etcd/etcd.conf`。 ```ini # [member] ETCD_NAME=infra1 ETCD_DATA_DIR="/var/lib/etcd" ETCD_LISTEN_PEER_URLS="https://172.20.0.113:2380" ETCD_LISTEN_CLIENT_URLS="https://172.20.0.113:2379" #[cluster] ETCD_INITIAL_ADVERTISE_PEER_URLS="https://172.20.0.113:2380" ETCD_INITIAL_CLUSTER_TOKEN="etcd-cluster" ETCD_ADVERTISE_CLIENT_URLS="https://172.20.0.113:2379" ``` 這是172.20.0.113節點的配置，其他兩個etcd節點只要將上面的IP地址改成相應節點的IP地址即可。ETCD_NAME換成對應節點的infra1/2/3。 ## 啟動 etcd 服務 ``` bash mv etcd.service /usr/lib/systemd/system/ systemctl daemon-reload systemctl enable etcd systemctl start etcd systemctl status etcd ``` 在所有的 kubernetes master 節點重復上面的步驟，直到所有機器的 etcd 服務都已啟動。注意：如果日志中出現連接異常信息，請確認所有節點防火墻是否開放2379,2380端口。以centos7為例： ``` bash firewall-cmd --zone=public --add-port=2380/tcp --permanent firewall-cmd --zone=public --add-port=2379/tcp --permanent firewall-cmd --reload ``` ## 驗證服務在任一 kubernetes master 機器上執行如下命令： ``` bash $ etcdctl \ --ca-file=/etc/kubernetes/ssl/ca.pem \ --cert-file=/etc/kubernetes/ssl/kubernetes.pem \ --key-file=/etc/kubernetes/ssl/kubernetes-key.pem \ cluster-health 2017-04-11 15:17:09.082250 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated 2017-04-11 15:17:09.083681 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated member 9a2ec640d25672e5 is healthy: got healthy result from https://172.20.0.115:2379 member bc6f27ae3be34308 is healthy: got healthy result from https://172.20.0.114:2379 member e5c92ea26c4edba0 is healthy: got healthy result from https://172.20.0.113:2379 cluster is healthy ``` 結果最后一行為 `cluster is healthy` 時表示集群服務正常。 ## 更多資料關于如何在etcd中查看kubernetes的數據，請參考[使用etcdctl訪問kuberentes數據](../guide/using-etcdctl-to-access-kubernetes-data.md)。