5、Golang三色標記+混合寫屏障GC模式全分析 · Golang修養之路

# [TOC] ## 5、Golang三色標記+混合寫屏障GC模式全分析 > 本節為**重點**章節 > 本章節含視頻版: [![](https://img.kancloud.cn/76/35/7635fc44c3cf295bd3bbbea8cbe8095e_1024x768.jpeg)](https://www.bilibili.com/video/BV1wz4y1y7Kd) --- 垃圾回收(Garbage Collection，簡稱GC)是編程語言中提供的自動的內存管理機制，自動釋放不需要的內存對象，讓出存儲器資源。GC過程中無需程序員手動執行。GC機制在現代很多編程語言都支持，GC能力的性能與優劣也是不同語言之間對比度指標之一。 Golang在GC的演進過程中也經歷了很多次變革，Go V1.3之前的標記-清除(mark and sweep)算法，Go V1.3之前的標記-清掃(mark and sweep)的缺點 * Go V1.5的三色并發標記法 * Go V1.5的三色標記為什么需要STW * Go V1.5的三色標記為什么需要屏障機制(“強-弱” 三色不變式、插入屏障、刪除屏障 ) * Go V1.8混合寫屏障機制 * Go V1.8混合寫屏障機制的全場景分析 ### 一、Go V1.3之前的標記-清除(mark and sweep)算法接下來我們來看一下在Golang1.3之前的時候主要用的普通的標記-清除算法，此算法主要有兩個主要的步驟： - 標記(Mark phase) - 清除(Sweep phase) #### 1 標記清除算法的具體步驟 **第一步**，暫停程序業務邏輯, 分類出可達和不可達的對象，然后做上標記。 ![](https://img.kancloud.cn/01/60/0160c38ec63623f3108550ff648f0959_1494x1248.png) 圖中表示是程序與對象的可達關系，目前程序的可達對象有對象1-2-3，對象4-7等五個對象。 **第二步**, 開始標記，程序找出它所有可達的對象，并做上標記。如下圖所示： ![](https://img.kancloud.cn/36/32/3632e8ce6e28998dd370298c5f2f2815_1548x1230.png) 所以對象1-2-3、對象4-7等五個對象被做上標記。 **第三步**, 標記完了之后，然后開始清除未標記的對象. 結果如下。 ![](https://img.kancloud.cn/3e/a9/3ea9ec35364a573c669f5f32c03c8b50_1344x1326.png) 操作非常簡單，但是有一點需要額外注意：mark and sweep算法在執行的時候，需要程序暫停！即 `STW(stop the world)`，STW的過程中，CPU不執行用戶代碼，全部用于垃圾回收，這個過程的影響很大，所以STW也是一些回收機制最大的難題和希望優化的點。所以在執行第三步的這段時間，程序會暫定停止任何工作，卡在那等待回收執行完畢。 **第四步**, 停止暫停，讓程序繼續跑。然后循環重復這個過程，直到process程序生命周期結束。以上便是標記-清除（mark and sweep）回收的算法。 #### 2 標記-清除(mark and sweep)的缺點標記清除算法明了，過程鮮明干脆，但是也有非常嚴重的問題。 - STW，stop the world；讓程序暫停，程序出現卡頓 **(重要問題)**； - 標記需要掃描整個heap； - 清除數據會產生heap碎片。 Go V1.3版本之前就是以上來實施的, 在執行GC的基本流程就是首先啟動STW暫停，然后執行標記，再執行數據回收，最后停止STW，如圖所示。 ![](https://img.kancloud.cn/c7/da/c7da67305d321015d28af3f505ccc748_2426x578.png) 從上圖來看，全部的GC時間都是包裹在STW范圍之內的，這樣貌似程序暫停的時間過長，影響程序的運行性能。所以Go V1.3 做了簡單的優化,將STW的步驟提前, 減少STW暫停的時間范圍.如下所示 ![](https://img.kancloud.cn/7f/c9/7fc93a9ae9387d34e9843eb1edec31fe_2410x520.png) 上圖主要是將STW的步驟提前了異步，因為在Sweep清除的時候，可以不需要STW停止，因為這些對象已經是不可達對象了，不會出現回收寫沖突等問題。但是無論怎么優化，Go V1.3都面臨這個一個重要問題，就是**mark-and-sweep 算法會暫停整個程序** 。 Go是如何面對并這個問題的呢？接下來G V1.5版本就用**三色并發標記法**來優化這個問題. ### 三、Go V1.5的三色并發標記法 ?Golang中的垃圾回收主要應用三色標記法，GC過程和其他用戶goroutine可并發運行，但需要一定時間的**STW(stop the world)**，所謂**三色標記法**實際上就是通過三個階段的標記來確定清楚的對象都有哪些？我們來看一下具體的過程。 **第一步** , 每次新創建的對象，默認的顏色都是標記為“白色”，如圖所示。 ![](https://img.kancloud.cn/4a/0c/4a0c45a0aafa546feaab109dd6d97d89_2152x1364.png) 上圖所示，我們的程序可抵達的內存對象關系如左圖所示，右邊的標記表，是用來記錄目前每個對象的標記顏色分類。這里面需要注意的是，所謂“程序”，則是一些對象的跟節點集合。所以我們如果將“程序”展開，會得到類似如下的表現形式，如圖所示。 ![](https://img.kancloud.cn/e3/a5/e3a5759be1646a805ca4a12b0fbadfaa_1920x1080.jpeg) **第二步**, 每次GC回收開始, 會從根節點開始遍歷所有對象，把遍歷到的對象從白色集合放入“灰色”集合如圖所示。 ![](https://img.kancloud.cn/47/e0/47e0df9bb3e6a8dbf2c067cf1458d6e6_1920x1080.jpeg) 這里要注意的是，本次遍歷是一次遍歷，非遞歸形式，是從程序抽次可抵達的對象遍歷一層，如上圖所示，當前可抵達的對象是對象1和對象4，那么自然本輪遍歷結束，對象1和對象4就會被標記為灰色，灰色標記表就會多出這兩個對象。 **第三步**, 遍歷灰色集合，將灰色對象引用的對象從白色集合放入灰色集合，之后將此灰色對象放入黑色集合，如圖所示。 ![](https://img.kancloud.cn/75/50/755096e23bf5b8110de33ae8899ab35f_1920x1080.jpeg) 這一次遍歷是只掃描灰色對象，將灰色對象的第一層遍歷可抵達的對象由白色變為灰色，如：對象2、對象7. 而之前的灰色對象1和對象4則會被標記為黑色，同時由灰色標記表移動到黑色標記表中。 **第四步**, 重復**第三步**, 直到灰色中無任何對象，如圖所示。 ![](https://img.kancloud.cn/82/41/8241e5b771f6265d704220955531ecbd_1920x1080.jpeg) ![](https://img.kancloud.cn/a9/e1/a9e16da6ef4eb3b5e9da9ba2e0387b16_1920x1080.jpeg) 當我們全部的可達對象都遍歷完后，灰色標記表將不再存在灰色對象，目前全部內存的數據只有兩種顏色，黑色和白色。那么黑色對象就是我們程序邏輯可達（需要的）對象，這些數據是目前支撐程序正常業務運行的，是合法的有用數據，不可刪除，白色的對象是全部不可達對象，目前程序邏輯并不依賴他們，那么白色對象就是內存中目前的垃圾數據，需要被清除。 **第五步**: 回收所有的白色標記表的對象. 也就是回收垃圾，如圖所示。 ![](https://img.kancloud.cn/e3/81/e381c8281b51691d8d24fa20ad62e259_1920x1080.jpeg) 以上我們將全部的白色對象進行刪除回收，剩下的就是全部依賴的黑色對象。以上便是`三色并發標記法`，不難看出，我們上面已經清楚的體現`三色`的特性。但是這里面可能會有很多并發流程均會被掃描，執行并發流程的內存可能相互依賴，為了在GC過程中保證數據的安全，我們在開始三色標記之前就會加上STW，在掃描確定黑白對象之后再放開STW。但是很明顯這樣的GC掃描的性能實在是太低了。那么Go是如何解決標記-清除(mark and sweep)算法中的卡頓(stw，stop the world)問題的呢？ ### 四、沒有STW的三色標記法先拋磚引玉，我們加入如果沒有STW，那么也就不會再存在性能上的問題，那么接下來我們假設如果三色標記法不加入STW會發生什么事情？我們還是基于上述的三色并發標記法來說, 他是一定要依賴STW的. 因為如果不暫停程序, 程序的邏輯改變對象引用關系, 這種動作如果在標記階段做了修改，會影響標記結果的正確性，我們來看看一個場景，如果三色標記法, 標記過程不使用STW將會發生什么事情? 我們把初始狀態設置為已經經歷了第一輪掃描，目前黑色的有對象1和對象4，灰色的有對象2和對象7，其他的為白色對象，且對象2是通過指針p指向對象3的，如圖所示。 ![](https://img.kancloud.cn/6b/18/6b18a939e13214cd648251520bdc146f_1920x1080.jpeg) 現在如何三色標記過程不啟動STW，那么在GC掃描過程中，任意的對象均可能發生讀寫操作，如圖所示，在還沒有掃描到對象2的時候，已經標記為黑色的對象4，此時創建指針q，并且指向白色的對象3。 ![](https://img.kancloud.cn/fc/15/fc15a2549f89a685bd93ec96d9479468_1920x1080.jpeg) 與此同時灰色的對象2將指針p移除，那么白色的對象3實則就是被掛在了已經掃描完成的黑色的對象4下，如圖所示。 ![](https://img.kancloud.cn/cc/be/ccbef3f78a00821cd6135b64ec0f96bd_1920x1080.jpeg) 然后我們正常指向三色標記的算法邏輯，將所有灰色的對象標記為黑色，那么對象2和對象7就被標記成了黑色，如圖所示。 ![](https://img.kancloud.cn/20/a0/20a03b3e350d754fd3e958a3a5634d52_1920x1080.jpeg) 那么就執行了三色標記的最后一步，將所有白色對象當做垃圾進行回收，如圖所示。 ![](https://img.kancloud.cn/0d/a1/0da11e89ed4d4bfe80ac19a4afd0c680_1920x1080.jpeg) 但是最后我們才發現，本來是對象4合法引用的對象3，卻被GC給“誤殺”回收掉了。可以看出，有兩種情況，在三色標記法中，是不希望被發生的。 * 條件1: 一個白色對象被黑色對象引用**(白色被掛在黑色下)** * 條件2: 灰色對象與它之間的可達關系的白色對象遭到破壞**(灰色同時丟了該白色)** 如果當以上兩個條件同時滿足時，就會出現對象丟失現象! 并且，如圖所示的場景中，如果示例中的白色對象3還有很多下游對象的話, 也會一并都清理掉。為了防止這種現象的發生，最簡單的方式就是STW，直接禁止掉其他用戶程序對對象引用關系的干擾，但是**STW的過程有明顯的資源浪費，對所有的用戶程序都有很大影響**。那么是否可以在保證對象不丟失的情況下合理的盡可能的提高GC效率，減少STW時間呢？答案是可以的，我們只要使用一種機制，嘗試去破壞上面的兩個必要條件就可以了。 ### 五、屏障機制我們讓GC回收器，滿足下面兩種情況之一時，即可保對象不丟失。這兩種方式就是“強三色不變式”和“ 式”。 #### (1) “強-弱” 三色不變式 * 強三色不變式不存在黑色對象引用到白色對象的指針。 ![](https://img.kancloud.cn/40/dd/40dd8d5e63aa3b7ec4104d7da162178f_1920x1080.jpeg) 弱三色不變色實際上是強制性的不允許黑色對象引用白色對象，這樣就不會出現有白色對象被誤刪的情況。 * 弱三色不變式所有被黑色對象引用的白色對象都處于灰色保護狀態。 ![](https://img.kancloud.cn/86/76/8676a065ee333c705a93e28362de9a17_1920x1080.jpeg) 弱三色不變式強調，黑色對象可以引用白色對象，但是這個白色對象必須存在其他灰色對象對它的引用，或者可達它的鏈路上游存在灰色對象。這樣實則是黑色對象引用白色對象，白色對象處于一個危險被刪除的狀態，但是上游灰色對象的引用，可以保護該白色對象，使其安全。為了遵循上述的兩個方式，GC算法演進到兩種屏障方式，他們“插入屏障”, “刪除屏障”。 #### (2) 插入屏障 `具體操作`: 在A對象引用B對象的時候，B對象被標記為灰色。(將B掛在A下游，B必須被標記為灰色) `滿足`: **強三色不變式**. (不存在黑色對象引用白色對象的情況了，因為白色會強制變成灰色) 偽碼如下: ```go 添加下游對象(當前下游對象slot, 新下游對象ptr) { //1 標記灰色(新下游對象ptr) //2 當前下游對象slot = 新下游對象ptr } ``` 場景： ```go A.添加下游對象(nil, B) //A 之前沒有下游，新添加一個下游對象B， B被標記為灰色 A.添加下游對象(C, B) //A 將下游對象C 更換為B， B被標記為灰色 ``` ? 這段偽碼邏輯就是寫屏障,. 我們知道,黑色對象的內存槽有兩種位置, `棧`和`堆`. 棧空間的特點是容量小,但是要求相應速度快,因為函數調用彈出頻繁使用, 所以“插入屏障”機制,在**棧空間的對象操作中不使用**. 而僅僅使用在堆空間對象的操作中. ? 接下來，我們用幾張圖，來模擬整個一個詳細的過程，希望您能夠更可觀的看清晰整體流程。 --- ![](https://img.kancloud.cn/16/57/16572fc059aeafe81256ec0922c6189e_1920x1080.jpeg) --- ![](https://img.kancloud.cn/de/ad/dead5c7327aa36a9dd6491fcd8ae75be_1920x1080.jpeg) --- ![](https://img.kancloud.cn/29/42/294216ca5997f0df13b621781a47cd24_1920x1080.jpeg) --- ![](https://img.kancloud.cn/62/c3/62c363973c3baf17dee6871b8fd5fd79_1920x1080.jpeg) --- ![](https://img.kancloud.cn/54/57/545783724293dc5769123f2ead384eda_1920x1080.jpeg) --- ![](https://img.kancloud.cn/b3/53/b3536074823deff4ee9a0d50706c2caf_1920x1080.jpeg) ? 但是如果棧不添加,當全部三色標記掃描之后,棧上有可能依然存在白色對象被引用的情況(如上圖的對象9). 所以要對棧重新進行三色標記掃描, 但這次為了對象不丟失, 要對本次標記掃描啟動STW暫停. 直到棧空間的三色標記結束. --- ![](https://img.kancloud.cn/4a/24/4a2463054b2f336d5f1ee08409e32f11_1920x1080.jpeg) --- ![](https://img.kancloud.cn/89/5e/895ea8ca38e0c80f8dc8e5f6445c207f_1920x1080.jpeg) --- ![](https://img.kancloud.cn/9c/c7/9cc7fd99761d60d386d2ca87d3a01fbd_1920x1080.jpeg) --- ? 最后將棧和堆空間掃描剩余的全部白色節點清除. 這次STW大約的時間在10~100ms間. ![](https://img.kancloud.cn/58/cb/58cb90c72f84312af826b22fc3cbbb15_1920x1080.jpeg) --- #### (3) 刪除屏障 `具體操作`: 被刪除的對象，如果自身為灰色或者白色，那么被標記為灰色。 `滿足`: **弱三色不變式**. (保護灰色對象到白色對象的路徑不會斷) 偽代碼： ```go 添加下游對象(當前下游對象slot，新下游對象ptr) { //1 if (當前下游對象slot是灰色 || 當前下游對象slot是白色) { 標記灰色(當前下游對象slot) //slot為被刪除對象，標記為灰色 } //2 當前下游對象slot = 新下游對象ptr } ``` 場景： ```go A.添加下游對象(B, nil) //A對象，刪除B對象的引用。 B被A刪除，被標記為灰(如果B之前為白) A.添加下游對象(B, C) //A對象，更換下游B變成C。 B被A刪除，被標記為灰(如果B之前為白) ``` 接下來，我們用幾張圖，來模擬整個一個詳細的過程，希望您能夠更可觀的看清晰整體流程。 ![](https://img.kancloud.cn/65/f2/65f2b58b0b3a1b20f26dcde525315599_1920x1080.jpeg) ![](https://img.kancloud.cn/d2/f2/d2f2a76d2aaf5c16cf9b7c094073fbbc_1920x1080.jpeg) ![](https://img.kancloud.cn/dc/78/dc7866c2f884a1c245630c3ed91644e5_1920x1080.jpeg) ![](https://img.kancloud.cn/c2/f0/c2f05206cd9ae498025973c8bc763daa_1920x1080.jpeg) ![](https://img.kancloud.cn/a8/54/a8541799ee4f9e598bef49136d448ade_1920x1080.jpeg) ![](https://img.kancloud.cn/fc/17/fc176d88b2eab093ebd5aee643e0677a_1920x1080.jpeg) ![](https://img.kancloud.cn/8e/d3/8ed3690aa81a7ee78a1ce739c0adab38_1920x1080.jpeg) 這種方式的回收精度低，一個對象即使被刪除了最后一個指向它的指針也依舊可以活過這一輪，在下一輪GC中被清理掉。 ### 六、Go V1.8的混合寫屏障(hybrid write barrier)機制插入寫屏障和刪除寫屏障的短板： * 插入寫屏障：結束時需要STW來重新掃描棧，標記棧上引用的白色對象的存活； * 刪除寫屏障：回收精度低，GC開始時STW掃描堆棧來記錄初始快照，這個過程會保護開始時刻的所有存活對象。 Go V1.8版本引入了混合寫屏障機制（hybrid write barrier），避免了對棧re-scan的過程，極大的減少了STW的時間。結合了兩者的優點。 --- #### (1) 混合寫屏障規則 `具體操作`: 1、GC開始將棧上的對象全部掃描并標記為黑色(之后不再進行第二次重復掃描，無需STW)， 2、GC期間，任何在棧上創建的新對象，均為黑色。 3、被刪除的對象標記為灰色。 4、被添加的對象標記為灰色。 `滿足`: 變形的**弱三色不變式**. 偽代碼： ```go 添加下游對象(當前下游對象slot, 新下游對象ptr) { //1 標記灰色(當前下游對象slot) //只要當前下游對象被移走，就標記灰色 //2 標記灰色(新下游對象ptr) //3 當前下游對象slot = 新下游對象ptr } ``` > 這里我們注意，屏障技術是不在棧上應用的，因為要保證棧的運行效率。 #### (2) 混合寫屏障的具體場景分析接下來，我們用幾張圖，來模擬整個一個詳細的過程，希望您能夠更可觀的看清晰整體流程。 > 注意混合寫屏障是Gc的一種屏障機制，所以只是當程序執行GC的時候，才會觸發這種機制。 ##### GC開始：掃描棧區，將可達對象全部標記為黑 ![](https://img.kancloud.cn/45/2c/452c55637b22078abad29786241d5000_1920x1080.jpeg) ![](https://img.kancloud.cn/42/aa/42aa1f73230061792851a43ce495acb6_1920x1080.jpeg) --- ##### 場景一：對象被一個堆對象刪除引用，成為棧對象的下游 > 偽代碼 ```go //前提：堆對象4->對象7 = 對象7； //對象7 被對象4引用棧對象1->對象7 = 堆對象7； //將堆對象7 掛在棧對象1 下游堆對象4->對象7 = null； //對象4 刪除引用對象7 ``` ![](https://img.kancloud.cn/64/c7/64c76eea3706c37f160b8345b7b3742c_1920x1080.jpeg) ![](https://img.kancloud.cn/4d/67/4d6728d276d2786017cde37b824333aa_1920x1080.jpeg) ##### 場景二：對象被一個棧對象刪除引用，成為另一個棧對象的下游 > 偽代碼 ```go new 棧對象9；對象8->對象3 = 對象3； //將棧對象3 掛在棧對象9 下游對象2->對象3 = null； //對象2 刪除引用對象3 ``` ![](https://img.kancloud.cn/be/ed/beedb81ec3cd5a4813aaa5bce1341949_1920x1080.jpeg) ![](https://img.kancloud.cn/48/56/48569d6dfb8ac6f1b0d6238a9d8150b3_1920x1080.jpeg) ![](https://img.kancloud.cn/46/e6/46e6be62e880e0f5796bc1e6f050b512_1920x1080.jpeg) ##### 場景三：對象被一個堆對象刪除引用，成為另一個堆對象的下游 > 偽代碼 ```go 堆對象10->對象7 = 堆對象7； //將堆對象7 掛在堆對象10 下游堆對象4->對象7 = null； //對象4 刪除引用對象7 ``` ![](https://img.kancloud.cn/a6/b7/a6b76e3f99029e603dbfe49fc7da30e8_1920x1080.jpeg) ![](https://img.kancloud.cn/d0/1e/d01e30f003f4a40e439d1a68ced89f34_1920x1080.jpeg) ![](https://img.kancloud.cn/ef/af/efaf7b7e32498db84eea797ed11201bf_1920x1080.jpeg) ##### 場景四：對象從一個棧對象刪除引用，成為另一個堆對象的下游 > 偽代碼 ```go 堆對象10->對象7 = 堆對象7； //將堆對象7 掛在堆對象10 下游堆對象4->對象7 = null； //對象4 刪除引用對象7 ``` ![](https://img.kancloud.cn/a3/a7/a3a7d82de782d14d28fa5999b7d5b36d_1920x1080.jpeg) ![](https://img.kancloud.cn/17/9c/179c86e25de0f0d0dbb24f371229d19d_1920x1080.jpeg) ![](https://img.kancloud.cn/7a/cb/7acb9b30746955ae0467ca2871a69e01_1920x1080.jpeg) ? Golang中的混合寫屏障滿足`弱三色不變式`，結合了刪除寫屏障和插入寫屏障的優點，只需要在開始時并發掃描各個goroutine的棧，使其變黑并一直保持，這個過程不需要STW，而標記結束后，因為棧在掃描后始終是黑色的，也無需再進行re-scan操作了，減少了STW的時間。 #### 七、總結 ? 以上便是Golang的GC全部的標記-清除邏輯及場景演示全過程。 GoV1.3- 普通標記清除法，整體過程需要啟動STW，效率極低。 GoV1.5- 三色標記法，堆空間啟動寫屏障，棧空間不啟動，全部掃描之后，需要重新掃描一次棧(需要STW)，效率普通 GoV1.8-三色標記法，混合寫屏障機制，棧空間不啟動，堆空間啟動。整個過程幾乎不需要STW，效率較高。