3.3規范化 · ApacheCN 深度學習譯文集

### 3.3規范化如前所述，由于在這些網絡中發生的非線性操作的級聯，多層體系結構是高度非線性的。除了上一節中討論的整流非線性之外，歸一化是另一個非線性處理塊，它在ConvNet架構中起著重要作用。 ConvNets中使用最廣泛的標準化形式是所謂的Divisive Normalization或DN（也稱為局部響應標準化）。本節闡述了歸一化步驟的作用，并描述了它如何糾正前兩個處理塊（_，即_。卷積和整流）的一些缺點。再次從生物學和理論的角度討論規范化的作用。 #### 3.3.1生物學觀點早期由神經生理學家提出標準化來解釋視網膜中光適應的現象[13]，后來擴展到解釋哺乳動物視皮層中神經元的非線性特性[66]。實際上，從生物學的角度來看，對標準化步驟的需求源于兩個主要觀察[67,66]。首先，雖然細胞反應被證明是刺激特異性的[74]，但也表明細胞反應可以相互抑制，并且存在交叉定向抑制現象，其中神經元對其優選刺激的反應被減弱。如果它與另一種無效的刺激疊加[67,14,19]。線性模型（卷積步驟中的_即_。）和前一節中討論的不同形式的整流，例如計算神經科學家提出的半波整流，都沒有解釋這種交叉定向抑制和抑制行為。。其次，雖然已知細胞響應在高對比度下飽和，但僅依賴于卷積和無界整流器（例如ReLU）的模型將具有隨著對比度增加而不斷增加的值。這兩個觀察結果表明，需要一個折扣其他刺激反應的步驟，以保持每個細胞的特異性，并使其對比不變，同時解釋細胞的其他抑制行為。處理這些問題的一種流行模型包括在數學上描述如下的分裂歸一化塊 ![](https://img.kancloud.cn/8f/2d/8f2d656c2011293a8ff1417a304a021e_139x45.gif)（3.8）其中![](https://img.kancloud.cn/b4/23/b423806e83b1ae4311168bded5c2134b_17x15.gif)是平方半波整流卷積運算的輸出，匯集在一組方向和尺度上![](https://img.kancloud.cn/f3/99/f3990417ea74c9d830634565aa466608_9x16.gif)和![](https://img.kancloud.cn/8c/97/8c97e53e47d9ac642fc260db31a39a84_17x16.jpg)是一個飽和常數，可以根據兩種適應機制中的任何一種來選擇[66] ]。在第一種情況下，從細胞的反應歷史中學習的每個細胞可能是不同的值。第二種可能性是從所有細胞的反應統計數據中推導出來。這種分裂歸一化方案丟棄了關于對比度大小的信息，有利于在歸一化操作中，根據輸入響應![](https://img.kancloud.cn/d3/c3/d3c3500d4ef8d92003533e5c06fd7fa5_19x18.gif)的相對對比度對基礎圖像模式進行編碼，（3.8）。使用該模型似乎可以很好地適應哺乳動物視皮層的神經元反應[67]。還表明它也很好地解釋了交叉方向抑制現象[14]。 ##### 討論有趣的是，大多數研究分裂歸一化作用的研究表明，包括它的神經元模型很好地符合記錄數據（_，例如_。[66,67,14,19]）。事實上，最近的研究表明，分裂正常化也可以解釋IT皮層的適應現象，其中神經反應隨著刺激重復而降低（_，例如_。[83]）。此外，在皮質的幾個區域中建議的分裂正常化的普遍性導致了這樣的假設：分裂歸一化可以被視為哺乳動物視覺皮層的規范操作，類似于卷積的操作[19]。 #### 3.3.2理論觀點從理論的角度來看，歸一化已被解釋為在表示自然圖像時實現有效編碼的方法[102]。在這項工作中，標準化步驟的動機是關于自然圖像統計的發現[102]，這些結果已知是高度相關的并且包含非常冗余的信息。根據這些發現，引入了歸一化步驟，目的是找到最小化圖像中統計依賴性的表示。為了實現這一目標，在[102,101]中徹底討論的流行推導開始于使用基于高斯尺度混合的統計模型來表示圖像。使用該模型和目標函數，其作用是最小化依賴性，非線性以形式導出 ![](https://img.kancloud.cn/18/66/18660be3990b6d3ca1d0177cf847d387_127x24.gif)（3.9）其中![](https://img.kancloud.cn/42/c9/42c9d02a8d8f13696994eb0204c82e63_14x11.jpg)和![](https://img.kancloud.cn/e9/eb/e9eb8574ea1ee9a3f2ed46b25361704d_12x11.gif)分別是輸入和輸出圖像，而![](https://img.kancloud.cn/a0/76/a07675eb420c5a094218ccaf1bb3763f_8x13.gif)，![](https://img.kancloud.cn/c3/61/c3613cb00d78b4d0d6e7619f639a4181_13x11.gif)和![](https://img.kancloud.cn/d2/5f/d25f4a36de037b23b21ec4d65cc935f8_12x11.gif)是可以從訓練集中學習的分裂歸一化的參數。值得注意的是，在處理冗余時引入的分裂歸一化的定義與自然圖像中的高階依賴性之間存在直接關系，（3.9），并且建議最佳地擬合視覺皮層中的神經元響應，（3.8）。特別是，隨著我們設置![](https://img.kancloud.cn/9b/da/9bda179c6f6c3c8dd328e4eb3d9b5f8f_137x42.gif)的變量的變化，我們看到這兩個方程通過元素運算（_即_。平方，與![](https://img.kancloud.cn/82/1d/821d4d3ba683fc0836bc36e90c86769c_58x21.gif)相關，受平方根差異的影響。 ]），從而兩個模型都達到了在滿足神經科學觀察的同時最大化獨立性的目標。另一種看待ConvNets標準化的方法是將其視為一種強化特征之間局部競爭的方式[77,91]，類似于生物神經元中發生的競爭。該競爭可以通過減法歸一化在特征地圖內的相鄰特征之間實施，或者通過在特征地圖上的相同空間位置處操作的分裂歸一化在特征地圖之間實施。或者，分裂歸一化可被視為一種最小化對乘法對比度變化的敏感性的方法[60]。在更深層次的網絡架構中，還發現分裂歸一化有助于提高網絡的泛化能力[88]。最近的ConvNets依賴于所謂的批量標準化[129]。批量標準化是另一種分裂標準化，它考慮了一批訓練數據來學習標準化參數（_即_。方程式（3.10）中的均值和方差）并且它還引入了新的超參數，![](https://img.kancloud.cn/ad/8f/ad8fd262604d7d99b5deb23f5bee753e_27x22.gif)和![](https://img.kancloud.cn/79/76/7976c0c31c474c11e13dadcd5d40f528_27x22.gif)，以控制每層所需的標準化量。批量標準化可以分為兩個步驟。首先，在具有![](https://img.kancloud.cn/da/b8/dab8f201ba10fb5a14e991ab157a9c7c_10x13.gif)維輸入![](https://img.kancloud.cn/66/e5/66e50825bc0aa7f53e99fcae25a10ba7_120x22.gif)的任何層，每個標量特征根據以下內容獨立標準化。 ![](https://img.kancloud.cn/b9/69/b96940292710b198381676a150fb4535_163x52.gif)（3.10） ![](https://img.kancloud.cn/7b/f4/7bf481fe9dfd1d9cf8ad9250281df528_51x23.gif)是小批量平均值![](https://img.kancloud.cn/7d/6c/7d6c801206d08cd800c04a98673dd1b8_142x51.gif)計算的小批量平均值，![](https://img.kancloud.cn/fb/2c/fb2c4987506004ab2ed055d67a1ad2e8_69x23.gif)是![](https://img.kancloud.cn/be/8b/be8b654516ec76c953109ee8b0a79720_253x51.gif)計算的相同小批量的方差。其次，等式（3.10）中歸一化的輸出經歷線性變換，使得所提出的批量歸一化塊的最終輸出由![](https://img.kancloud.cn/a1/0d/a10daea007688f579ffc52e4728a1080_157x22.gif)給出，其中![](https://img.kancloud.cn/ad/8f/ad8fd262604d7d99b5deb23f5bee753e_27x22.gif)和![](https://img.kancloud.cn/79/76/7976c0c31c474c11e13dadcd5d40f528_27x22.gif)是在參數期間學習的超參數。訓練。批量標準化的第一步旨在確定每層輸入的均值和方差。但是，由于該規范化策略可以改變或限制層可以表示的內容，因此包括第二個線性轉換步驟以維持網絡的表示能力。例如，如果輸入處的原始分布已經是最優的，則網絡可以通過學習身份映射來恢復它。因此，歸一化輸入![](https://img.kancloud.cn/8e/43/8e43a0d2e3c78d1e36c3def136e9ff27_26x18.gif)可以被認為是在網絡的每一層添加的線性塊的輸入。批量歸一化首先被引入作為對傳統分裂歸一化的改進，其最終目標是減少內部協變量移位問題，這是指每層輸入分布的連續變化[129]。每層輸入的變化規模和分布意味著網絡必須在每一層顯著調整其參數，因此訓練必須緩慢（_即_。使用小學習率）以保持損失在訓練期間減少（_即_。以避免訓練期間的分歧）。因此，引入批量標準化以保證所有輸入處的更規則分布。這種規范化策略的靈感來自為ConvNets的有效培訓而建立的一般經驗法則。特別是，為了在ConvNets中獲得良好的泛化性能，通常的做法是強制所有訓練和測試集樣本具有相同的分布（_，即_。通過歸一化）。例如，已經表明，當輸入始終變白時，網絡收斂得更快[91,77]。通過考慮每個層可以被視為淺層網絡，批量標準化建立在這個想法的基礎上。因此，確保輸入在每一層保持相同的分布是有利的，并且這通過學習訓練數據的分布（使用小批量）并使用訓練集的統計來標準化每個輸入來強制執行。更一般地說，重要的是要記住，從機器學習的角度來看，這種規范化方案還可以使特征更容易分類。例如，如果兩個不同的輸入引起兩個不同的輸出，如果響應位于相同的范圍內，則它們更容易被分類器分離，因此處理數據以滿足該條件是重要的。與分裂歸一化類似，批量歸一化也證明在ConvNets中起著重要作用。特別是，已經證明批量標準化不僅加速了訓練，而且在一般化方面起著非常重要的作用，它能夠超越以前最先進的圖像分類（特別是在ImageNet上）同時消除了對Dropout正則化的需求[88]。相比之下，批量歸一化有點類似于分裂歸一化，因為它們都使得每層輸入的比例相似。但是，Divisive Normalization通過將每個輸入的值除以同一層內同一位置的所有其他輸入來標準化每個輸入的值。另一方面，批量標準化相對于在相同位置處的訓練集的統計（或更準確地說，包含來自整個訓練集的示例的小批量的統計）對每個輸入進行標準化。批量標準化依賴于訓練集的統計的事實可以解釋這樣的事實，即它提高了表示的泛化能力。批量標準化的一個問題是它對小批量大小的依賴：如果選擇它太小，它可能無法正確表示每次迭代的訓練集;或者，如果它太大（_，即_，它會產生減慢訓練的負面影響。因為網絡必須在當前權重下看到所有訓練樣本以計算小批量統計數據）。此外，批量標準化不易應用于遞歸神經網絡，因為它依賴于在一小批訓練樣本上計算的統計數據。因此，在[4]中提出了層標準化。層規范化遵循批量歸一化中提出的相同過程，唯一的區別在于規范化統計的計算方式。批量標準化計算小批量的統計數據時，圖層標準化使用任何一個圖層中的所有要素圖或隱藏單位分別計算每個輸入的統計數據。因此，在批量標準化中，每個單元使用與該單元相關的不同統計量進行標準化，而層標準以相同方式標準化所有單元。雖然層次規范被證明在語言相關的應用程序中是有效的，其中循環網絡通常更合適，但它無法與使用批量標準化訓練的ConvNets競爭圖像處理任務[129]。作者提出的一個可能的解釋是，在ConvNets中，所有單位在輸出中激活單位時沒有做出同等貢獻;因此，在層標準化（_即_。使用所有單位來計算標準化的統計數據的情況下）的基本假設不適用于ConvNets。 ##### Discussion 本小節中討論的貢獻的共同點是，他們都同意標準化在提高多層體系結構的表征能力方面的重要作用。需要注意的另一個重要的一點是，它們都有著共同的目標，即減少輸入中的冗余，并且即使在以不同形式提出問題時也將其提高到相同的規模。實際上，雖然早期提出了分裂正常化，_，例如_。 [102]，明確地將問題作為冗余減少問題，諸如批量標準化[129]之類的新提議也通過在每一層白化數據來隱式地強制執行該操作。最后，從生物學角度反思歸一化問題，重要的是要注意生物系統在編碼自然信號的統計特性方面也是有效的，因為它們代表了具有小代碼的世界。因此，人們可能會假設他們也在執行類似的分裂歸一化操作，以減少冗余并獲得那些有效的代碼。