# 漫畫:什么是ZooKeeper?


**————— 第二天 —————**










————————————







**Zookeeper的數據模型**
Zookeeper的數據模型是什么樣子呢?它很像數據結構當中的樹,也很像文件系統的目錄。

樹是由節點所組成,Zookeeper的數據存儲也同樣是基于節點,這種節點叫做**Znode**。
但是,不同于樹的節點,Znode的引用方式是**路徑引用**,類似于文件路徑:
/ 動物 / 倉鼠
/ 植物 / 荷花
這樣的層級結構,讓每一個Znode節點擁有唯一的路徑,就像命名空間一樣對不同信息作出清晰的隔離。



**data:**
Znode存儲的數據信息。
**ACL:**
記錄Znode的訪問權限,即哪些人或哪些IP可以訪問本節點。
**stat:**
包含Znode的各種元數據,比如事務ID、版本號、時間戳、大小等等。
**child:**
當前節點的子節點引用,類似于二叉樹的左孩子右孩子。
這里需要注意一點,Zookeeper是為讀多寫少的場景所設計。Znode并不是用來存儲大規模業務數據,而是用于存儲少量的狀態和配置信息,**每個節點的數據最大不能超過1MB**。


******Zookeeper的基本操作和事件通知******
Zookeeper包含了哪些基本操作呢?這里列舉出比較常用的API:
**create**
創建節點
**delete**
刪除節點
**exists**
判斷節點是否存在
**getData**
獲得一個節點的數據
**setData**
設置一個節點的數據
**getChildren**
獲取節點下的所有子節點
這其中,exists,getData,getChildren屬于讀操作。Zookeeper客戶端在請求讀操作的時候,可以選擇是否設置**Watch**。
Watch是什么意思呢?
我們可以理解成是注冊在特定Znode上的觸發器。當這個Znode發生改變,也就是調用了create,delete,setData方法的時候,將會觸發Znode上注冊的對應事件,請求Watch的客戶端會接收到**異步通知**。
具體交互過程如下:
1.客戶端調用getData方法,watch參數是true。服務端接到請求,返回節點數據,并且在對應的哈希表里插入被Watch的Znode路徑,以及Watcher列表。

2.當被Watch的Znode已刪除,服務端會查找哈希表,找到該Znode對應的所有Watcher,異步通知客戶端,并且刪除哈希表中對應的Key-Value。

****Zookeeper的一致性****


Zookeeper的集群長成什么樣呢?就像下圖這樣:

Zookeeper Service集群是一主多從結構。
在更新數據時,首先更新到主節點(這里的節點是指服務器,不是Znode),再同步到從節點。
在讀取數據時,直接讀取任意從節點。
為了保證主從節點的數據一致性,Zookeeper采用了**ZAB協議**,這種協議非常類似于一致性算法**Paxos**和**Raft**。


在學習ZAB之前,我們需要首先了解ZAB協議所定義的三種節點狀態:
**Looking**:選舉狀態。
**Following**:Follower節點(從節點)所處的狀態。
**Leading**:Leader節點(主節點)所處狀態。
我們還需要知道**最大ZXID**的概念:
最大ZXID也就是節點本地的最新事務編號,包含**epoch**和計數兩部分。epoch是紀元的意思,相當于Raft算法選主時候的term。
假如Zookeeper當前的主節點掛掉了,集群會進行**崩潰恢復**。ZAB的崩潰恢復分成三個階段:
**1.Leader election**
選舉階段,此時集群中的節點處于Looking狀態。它們會各自向其他節點發起投票,投票當中包含自己的服務器ID和最新事務ID(ZXID)。

接下來,節點會用自身的ZXID和從其他節點接收到的ZXID做比較,如果發現別人家的ZXID比自己大,也就是數據比自己新,那么就重新發起投票,投票給目前已知最大的ZXID所屬節點。

每次投票后,服務器都會統計投票數量,判斷是否有某個節點得到半數以上的投票。如果存在這樣的節點,該節點將會成為準Leader,狀態變為Leading。其他節點的狀態變為Following。

這就相當于,一群武林高手經過激烈的競爭,選出了武林盟主。
**2.Discovery**
發現階段,用于在從節點中發現最新的ZXID和事務日志。或許有人會問:既然Leader被選為主節點,已經是集群里數據最新的了,為什么還要從節點中尋找最新事務呢?
這是為了防止某些意外情況,比如因網絡原因在上一階段產生多個Leader的情況。
所以這一階段,Leader集思廣益,接收所有Follower發來各自的最新epoch值。Leader從中選出最大的epoch,基于此值加1,生成新的epoch分發給各個Follower。
各個Follower收到全新的epoch后,返回ACK給Leader,帶上各自最大的ZXID和歷史事務日志。Leader選出最大的ZXID,并更新自身歷史日志。
**3.Synchronization**
同步階段,把Leader剛才收集得到的最新歷史事務日志,同步給集群中所有的Follower。只有當半數Follower同步成功,這個準Leader才能成為正式的Leader。
自此,故障恢復正式完成。


什么是**Broadcast**呢?簡單來說,就是Zookeeper常規情況下更新數據的時候,由Leader廣播到所有的Follower。其過程如下:
1.客戶端發出寫入數據請求給任意Follower。
2.Follower把寫入數據請求轉發給Leader。
3.Leader采用二階段提交方式,先發送Propose廣播給Follower。
4.Follower接到Propose消息,寫入日志成功后,返回ACK消息給Leader。
5.Leader接到半數以上ACK消息,返回成功給客戶端,并且廣播Commit請求給Follower。

Zab協議既不是強一致性,也不是弱一致性,而是處于兩者之間的**單調一致性**。它依靠事務ID和版本號,保證了數據的更新和讀取是有序的。
********Zookeeper的應用********


**1.分布式鎖**
這是雅虎研究員設計Zookeeper的初衷。利用Zookeeper的臨時順序節點,可以輕松實現分布式鎖。
**2.服務注冊和發現**
利用Znode和Watcher,可以實現分布式服務的注冊和發現。最著名的應用就是阿里的分布式RPC框架Dubbo。
**3.共享配置和狀態信息**
Redis的分布式解決方案Codis,就利用了Zookeeper來存放數據路由表和 codis-proxy 節點的元信息。同時 codis-config 發起的命令都會通過 ZooKeeper 同步到各個存活的 codis-proxy。
此外,Kafka、HBase、Hadoop,也都依靠Zookeeper同步節點信息,實現高可用。


**幾點補充:**
1.ZAB協議相對比較復雜,小灰對此也只是淺層次的理解,有興趣的小伙伴們可以去官方社區進行進一步學習。
**2.本漫畫純屬娛樂,還請大家盡量珍惜當下的工作,切勿模仿小灰的行為哦。**
轉載至:[https://juejin.im/post/5b037d5c518825426e024473](https://juejin.im/post/5b037d5c518825426e024473)
- 一.JVM
- 1.1 java代碼是怎么運行的
- 1.2 JVM的內存區域
- 1.3 JVM運行時內存
- 1.4 JVM內存分配策略
- 1.5 JVM類加載機制與對象的生命周期
- 1.6 常用的垃圾回收算法
- 1.7 JVM垃圾收集器
- 1.8 CMS垃圾收集器
- 1.9 G1垃圾收集器
- 2.面試相關文章
- 2.1 可能是把Java內存區域講得最清楚的一篇文章
- 2.0 GC調優參數
- 2.1GC排查系列
- 2.2 內存泄漏和內存溢出
- 2.2.3 深入理解JVM-hotspot虛擬機對象探秘
- 1.10 并發的可達性分析相關問題
- 二.Java集合架構
- 1.ArrayList深入源碼分析
- 2.Vector深入源碼分析
- 3.LinkedList深入源碼分析
- 4.HashMap深入源碼分析
- 5.ConcurrentHashMap深入源碼分析
- 6.HashSet,LinkedHashSet 和 LinkedHashMap
- 7.容器中的設計模式
- 8.集合架構之面試指南
- 9.TreeSet和TreeMap
- 三.Java基礎
- 1.基礎概念
- 1.1 Java程序初始化的順序是怎么樣的
- 1.2 Java和C++的區別
- 1.3 反射
- 1.4 注解
- 1.5 泛型
- 1.6 字節與字符的區別以及訪問修飾符
- 1.7 深拷貝與淺拷貝
- 1.8 字符串常量池
- 2.面向對象
- 3.關鍵字
- 4.基本數據類型與運算
- 5.字符串與數組
- 6.異常處理
- 7.Object 通用方法
- 8.Java8
- 8.1 Java 8 Tutorial
- 8.2 Java 8 數據流(Stream)
- 8.3 Java 8 并發教程:線程和執行器
- 8.4 Java 8 并發教程:同步和鎖
- 8.5 Java 8 并發教程:原子變量和 ConcurrentMap
- 8.6 Java 8 API 示例:字符串、數值、算術和文件
- 8.7 在 Java 8 中避免 Null 檢查
- 8.8 使用 Intellij IDEA 解決 Java 8 的數據流問題
- 四.Java 并發編程
- 1.線程的實現/創建
- 2.線程生命周期/狀態轉換
- 3.線程池
- 4.線程中的協作、中斷
- 5.Java鎖
- 5.1 樂觀鎖、悲觀鎖和自旋鎖
- 5.2 Synchronized
- 5.3 ReentrantLock
- 5.4 公平鎖和非公平鎖
- 5.3.1 說說ReentrantLock的實現原理,以及ReentrantLock的核心源碼是如何實現的?
- 5.5 鎖優化和升級
- 6.多線程的上下文切換
- 7.死鎖的產生和解決
- 8.J.U.C(java.util.concurrent)
- 0.簡化版(快速復習用)
- 9.鎖優化
- 10.Java 內存模型(JMM)
- 11.ThreadLocal詳解
- 12 CAS
- 13.AQS
- 0.ArrayBlockingQueue和LinkedBlockingQueue的實現原理
- 1.DelayQueue的實現原理
- 14.Thread.join()實現原理
- 15.PriorityQueue 的特性和原理
- 16.CyclicBarrier的實際使用場景
- 五.Java I/O NIO
- 1.I/O模型簡述
- 2.Java NIO之緩沖區
- 3.JAVA NIO之文件通道
- 4.Java NIO之套接字通道
- 5.Java NIO之選擇器
- 6.基于 Java NIO 實現簡單的 HTTP 服務器
- 7.BIO-NIO-AIO
- 8.netty(一)
- 9.NIO面試題
- 六.Java設計模式
- 1.單例模式
- 2.策略模式
- 3.模板方法
- 4.適配器模式
- 5.簡單工廠
- 6.門面模式
- 7.代理模式
- 七.數據結構和算法
- 1.什么是紅黑樹
- 2.二叉樹
- 2.1 二叉樹的前序、中序、后序遍歷
- 3.排序算法匯總
- 4.java實現鏈表及鏈表的重用操作
- 4.1算法題-鏈表反轉
- 5.圖的概述
- 6.常見的幾道字符串算法題
- 7.幾道常見的鏈表算法題
- 8.leetcode常見算法題1
- 9.LRU緩存策略
- 10.二進制及位運算
- 10.1.二進制和十進制轉換
- 10.2.位運算
- 11.常見鏈表算法題
- 12.算法好文推薦
- 13.跳表
- 八.Spring 全家桶
- 1.Spring IOC
- 2.Spring AOP
- 3.Spring 事務管理
- 4.SpringMVC 運行流程和手動實現
- 0.Spring 核心技術
- 5.spring如何解決循環依賴問題
- 6.springboot自動裝配原理
- 7.Spring中的循環依賴解決機制中,為什么要三級緩存,用二級緩存不夠嗎
- 8.beanFactory和factoryBean有什么區別
- 九.數據庫
- 1.mybatis
- 1.1 MyBatis-# 與 $ 區別以及 sql 預編譯
- Mybatis系列1-Configuration
- Mybatis系列2-SQL執行過程
- Mybatis系列3-之SqlSession
- Mybatis系列4-之Executor
- Mybatis系列5-StatementHandler
- Mybatis系列6-MappedStatement
- Mybatis系列7-參數設置揭秘(ParameterHandler)
- Mybatis系列8-緩存機制
- 2.淺談聚簇索引和非聚簇索引的區別
- 3.mysql 證明為什么用limit時,offset很大會影響性能
- 4.MySQL中的索引
- 5.數據庫索引2
- 6.面試題收集
- 7.MySQL行鎖、表鎖、間隙鎖詳解
- 8.數據庫MVCC詳解
- 9.一條SQL查詢語句是如何執行的
- 10.MySQL 的 crash-safe 原理解析
- 11.MySQL 性能優化神器 Explain 使用分析
- 12.mysql中,一條update語句執行的過程是怎么樣的?期間用到了mysql的哪些log,分別有什么作用
- 十.Redis
- 0.快速復習回顧Redis
- 1.通俗易懂的Redis數據結構基礎教程
- 2.分布式鎖(一)
- 3.分布式鎖(二)
- 4.延時隊列
- 5.位圖Bitmaps
- 6.Bitmaps(位圖)的使用
- 7.Scan
- 8.redis緩存雪崩、緩存擊穿、緩存穿透
- 9.Redis為什么是單線程、及高并發快的3大原因詳解
- 10.布隆過濾器你值得擁有的開發利器
- 11.Redis哨兵、復制、集群的設計原理與區別
- 12.redis的IO多路復用
- 13.相關redis面試題
- 14.redis集群
- 十一.中間件
- 1.RabbitMQ
- 1.1 RabbitMQ實戰,hello world
- 1.2 RabbitMQ 實戰,工作隊列
- 1.3 RabbitMQ 實戰, 發布訂閱
- 1.4 RabbitMQ 實戰,路由
- 1.5 RabbitMQ 實戰,主題
- 1.6 Spring AMQP 的 AMQP 抽象
- 1.7 Spring AMQP 實戰 – 整合 RabbitMQ 發送郵件
- 1.8 RabbitMQ 的消息持久化與 Spring AMQP 的實現剖析
- 1.9 RabbitMQ必備核心知識
- 2.RocketMQ 的幾個簡單問題與答案
- 2.Kafka
- 2.1 kafka 基礎概念和術語
- 2.2 Kafka的重平衡(Rebalance)
- 2.3.kafka日志機制
- 2.4 kafka是pull還是push的方式傳遞消息的?
- 2.5 Kafka的數據處理流程
- 2.6 Kafka的腦裂預防和處理機制
- 2.7 Kafka中partition副本的Leader選舉機制
- 2.8 如果Leader掛了的時候,follower沒來得及同步,是否會出現數據不一致
- 2.9 kafka的partition副本是否會出現腦裂情況
- 十二.Zookeeper
- 0.什么是Zookeeper(漫畫)
- 1.使用docker安裝Zookeeper偽集群
- 3.ZooKeeper-Plus
- 4.zk實現分布式鎖
- 5.ZooKeeper之Watcher機制
- 6.Zookeeper之選舉及數據一致性
- 十三.計算機網絡
- 1.進制轉換:二進制、八進制、十六進制、十進制之間的轉換
- 2.位運算
- 3.計算機網絡面試題匯總1
- 十四.Docker
- 100.面試題收集合集
- 1.美團面試常見問題總結
- 2.b站部分面試題
- 3.比心面試題
- 4.騰訊面試題
- 5.哈羅部分面試
- 6.筆記
- 十五.Storm
- 1.Storm和流處理簡介
- 2.Storm 核心概念詳解
- 3.Storm 單機版本環境搭建
- 4.Storm 集群環境搭建
- 5.Storm 編程模型詳解
- 6.Storm 項目三種打包方式對比分析
- 7.Storm 集成 Redis 詳解
- 8.Storm 集成 HDFS 和 HBase
- 9.Storm 集成 Kafka
- 十六.Elasticsearch
- 1.初識ElasticSearch
- 2.文檔基本CRUD、集群健康檢查
- 3.shard&replica
- 4.document核心元數據解析及ES的并發控制
- 5.document的批量操作及數據路由原理
- 6.倒排索引
- 十七.分布式相關
- 1.分布式事務解決方案一網打盡
- 2.關于xxx怎么保證高可用的問題
- 3.一致性hash原理與實現
- 4.微服務注冊中心 Nacos 比 Eureka的優勢
- 5.Raft 協議算法
- 6.為什么微服務架構中需要網關
- 0.CAP與BASE理論
- 十八.Dubbo
- 1.快速掌握Dubbo常規應用
- 2.Dubbo應用進階
- 3.Dubbo調用模塊詳解
- 4.Dubbo調用模塊源碼分析
- 6.Dubbo協議模塊