1.4 揭秘內存屏障 · 并發框架Disruptor介紹

# 剖析Disruptor:為什么會這么快？ ## (四) 揭秘內存屏障最近我博客文章更新有點慢，因為我在忙著寫一篇介紹內存屏障（Memory Barries）以及如何將其應用于Disruptor的文章。問題是，無論我翻閱了多少資料，向耐心的Martin和Mike請教了多少遍，以試圖理清一些知識點，可我總是不能直觀地抓到重點。大概是因為我不具備深厚的背景知識來幫助我透徹理解。所以，與其像個傻瓜一樣試圖去解釋一些自己都沒完全弄懂的東西，還不如在抽象和大量簡化的層次上，把我在該領域所掌握的知識分享給大家。Martin已經寫了一篇文章《going into memory barriers》介紹內存屏障的一些具體細節，所以我就略過不說了。免責聲明：文章中如有錯誤全由本人負責，與Disruptor的實現和LMAX里真正懂這些知識的大牛們無關。 ### 主題是什么？我寫這個系列的博客主要目的是解析Disruptor是如何工作的，并深入了解下為什么這樣工作。理論上，我應該從可能準備使用disruptor的開發人員的角度來寫，以便在代碼和技術論文[Disruptor-1.0.pdf]之間搭建一座橋梁。這篇文章提及到了內存屏障，我想弄清楚它們到底是什么，以及它們是如何應用于實踐中的。 ### 什么是內存屏障？它是一個CPU指令。沒錯，又一次，我們在討論CPU級別的東西，以便獲得我們想要的性能（Martin著名的Mechanical Sympathy理論）。基本上，它是這樣一條指令： a)確保一些特定操作執行的順序； b)影響一些數據的可見性(可能是某些指令執行后的結果)。編譯器和CPU可以在保證輸出結果一樣的情況下對指令重排序，使性能得到優化。插入一個內存屏障，相當于告訴CPU和編譯器先于這個命令的必須先執行，后于這個命令的必須后執行。正如去拉斯維加斯旅途中各個站點的先后順序在你心中都一清二楚。 ![](https://box.kancloud.cn/c06df80694399dba59f42a7d06605c22_220x192.png) 內存屏障另一個作用是強制更新一次不同CPU的緩存。例如，一個寫屏障會把這個屏障前寫入的數據刷新到緩存，這樣任何試圖讀取該數據的線程將得到最新值，而不用考慮到底是被哪個cpu核心或者哪顆CPU執行的。 ### 和Java有什么關系？現在我知道你在想什么——這不是匯編程序。它是Java。這里有個神奇咒語叫volatile(我覺得這個詞在Java規范中從未被解釋清楚)。如果你的字段是volatile，Java內存模型將在寫操作后插入一個寫屏障指令，在讀操作前插入一個讀屏障指令。 ![](https://box.kancloud.cn/edf92546b899a88da3eeb446f9942390_222x192.png) 這意味著如果你對一個volatile字段進行寫操作，你必須知道： 1. 一旦你完成寫入，任何訪問這個字段的線程將會得到最新的值。 2. 在你寫入前，會保證所有之前發生的事已經發生，并且任何更新過的數據值也是可見的，因為內存屏障會把之前的寫入值都刷新到緩存。 ### 舉個例子唄！很高興你這樣說了。又是時候讓我來畫幾個甜甜圈了。 RingBuffer的指針(cursor)（譯注：指向隊尾元素）屬于一個神奇的volatile變量，同時也是我們能夠不用鎖操作就能實現Disruptor的原因之一。 ![](https://box.kancloud.cn/1ab2d9a91adeed1c2f5e0539c651ce40_400x226.png) 生產者將會取得下一個Entry（或者是一批）,并可對它（們）作任意改動，把它（們）更新為任何想要的值。如你所知，在所有改動都完成后，生產者對ring buffer調用commit方法來更新序列號（譯注:把cursor更新為該Entry的序列號）。對volatile字段(cursor)的寫操作創建了一個內存屏障，這個屏障將刷新所有緩存里的值（或者至少相應地使得緩存失效）。這時候，消費者們能獲得最新的序列號碼(8)，并且因為內存屏障保證了它之前執行的指令的順序，消費者們可以確信生產者對7號Entry所作的改動已經可用。 ### …那么消費者那邊會發生什么？消費者中的序列號是volatile類型的，會被若干個外部對象讀取——其他的下游消費者可能在跟蹤這個消費者。ProducerBarrier/RingBuffer(取決于你看的是舊的還是新的代碼)跟蹤它以確保環沒有出現重疊（wrap）的情況（譯注：為了防止下游的消費者和上游的消費者對同一個Entry競爭消費，導致在環形隊列中互相覆蓋數據，下游消費者要對上游消費者的消費情況進行跟蹤）。 ![](https://box.kancloud.cn/c3129a918b8dc464d200c9d903fa3307_631x219.png) 所以，如果你的下游消費者(C2)看見前一個消費者(C1)在消費號碼為12的Entry，當C2的讀取也到了12，它在更新序列號前將可以獲得C1對該Entry的所作的更新。基本來說就是，C1更新序列號前對ring buffer的所有操作（如上圖黑色所示），必須先發生，待C2拿到C1更新過的序列號之后，C2才可以為所欲為（如上圖藍色所示）。 ### 對性能的影響內存屏障作為另一個CPU級的指令，沒有鎖那樣大的開銷。內核并沒有在多個線程間干涉和調度。但凡事都是有代價的。內存屏障的確是有開銷的——編譯器/cpu不能重排序指令，導致不可以盡可能地高效利用CPU，另外刷新緩存亦會有開銷。所以不要以為用volatile代替鎖操作就一點事都沒。你會注意到Disruptor的實現對序列號的讀寫頻率盡量降到最低。對volatile字段的每次讀或寫都是相對高成本的操作。但是，也應該認識到在批量的情況下可以獲得很好的表現。如果你知道不應對序列號頻繁讀寫，那么很合理的想到，先獲得一整批Entries,并在更新序列號前處理它們。這個技巧對生產者和消費者都適用。以下的例子來自BatchConsumer: ``` long nextSequence = sequence + 1; while (running) { try { final long availableSequence = consumerBarrier.waitFor(nextSequence); while (nextSequence <= availableSequence) { entry = consumerBarrier.getEntry(nextSequence); handler.onAvailable(entry); nextSequence++; } handler.onEndOfBatch(); sequence = entry.getSequence(); } … catch (final Exception ex) { exceptionHandler.handle(ex, entry); sequence = entry.getSequence(); nextSequence = entry.getSequence() + 1; } } ``` （你會注意到，這是個舊式的代碼和命名習慣，因為這是摘自我以前的博客文章，我認為如果直接轉換為新式的代碼和命名習慣會讓人有點混亂）在上面的代碼中，我們在消費者處理entries的循環中用一個局部變量（nextSequence）來遞增。這表明我們想盡可能地減少對volatile類型的序列號的進行讀寫。 ### 總結內存屏障是CPU指令，它允許你對數據什么時候對其他進程可見作出假設。在Java里，你使用volatile關鍵字來實現內存屏障。使用volatile意味著你不用被迫選擇加鎖，并且還能讓你獲得性能的提升。但是，你需要對你的設計進行一些更細致的思考，特別是你對volatile字段的使用有多頻繁，以及對它們的讀寫有多頻繁。 PS：上文中講到的Disruptor中使用的New World Order 是一種完全不同于我目前為止所發表的博文中的命名習慣。我想下一篇文章會對舊式的和新式的命名習慣做一個對照。