2.2.1最近ConvNets演變中的關鍵架構 · ApacheCN 深度學習譯文集

#### 2.2.1最近ConvNets演變中的關鍵架構重新引起對ConvNet架構興趣的工作是Krishevsky的AlexNet [88]。 AlexNet能夠在ImageNet數據集上實現破紀錄的對象識別結果。它由8層組成，5個卷積和3個完全連接，如圖2.8所示。 AlexNet介紹了幾種架構設計決策，允許使用標準隨機梯度下降進行有效的網絡訓練。特別是，四項重要貢獻是AlexNet成功的關鍵。首先，AlexNet考慮使用ReLU非線性而不是先前最先進的ConvNet架構中使用的飽和非線性（如sigmoids）（_，例如_ .LeNet [91]）。 ReLU的使用減少了消失梯度的問題，并導致更快的訓練。其次，注意到網絡中最后一個完全連接的層包含最多參數的事實，AlexNet使用了丟失，首先在神經網絡[136]的背景下引入，以減少過度擬合的問題。在AlexNet中實現的Dropout，包括隨機丟棄（_，即_。設置為零）一個層參數的給定百分比。該技術允許在每次通過時訓練略微不同的架構并且人為地減少每次通過時要學習的參數的數量，這最終有助于破壞單元之間的相關性，從而防止過度擬合。第三，AlexNet依靠數據增強來提高網絡學習不變表示的能力。例如，網絡不僅訓練在訓練集中的原始圖像上，而且還訓練通過隨機移動和反射訓練圖像而產生的變化。最后，AlexNet還依靠幾種技術使訓練過程更快地收斂，例如使用動量和預定學習率降低，從而每次學習停滯時學習率都會降低。 ![](https://img.kancloud.cn/e2/b6/e2b69200b3835c7795f761659c921898_564x179.png) 圖2.8：AlexNet架構。值得注意的是，雖然描述建議采用雙流體系結構，但實際上它是單流體系結構，這種描述僅反映了AlexNet在2個不同的GPU上并行訓練的事實。圖[88]再版。 AlexNet的出現導致試圖通過可視化了解網絡正在學習什么的論文數量急劇增加，如所謂的DeConvNet [154]，或者通過對各種架構的系統探索[22,23]。這些探索的直接結果之一是認識到更深的網絡可以實現更好的結果，如19層深VGG-Net中首次證明的那樣[135]。 VGG-Net通過簡單堆疊更多層來實現其深度，同時遵循AlexNet引入的標準實踐（_，例如_。依靠ReLU非線性和數據增強技術進行更好的培訓）。在VGG-Net中呈現的主要新穎性是使用空間范圍較小的濾波器（_即_。![](https://img.kancloud.cn/31/90/3190244ba5be1d70aed91cc959f632ed_40x12.gif)在整個網絡中過濾而不是_，例如_。在AlexNet中使用![](https://img.kancloud.cn/f9/45/f945cacde2536436e555f641cd896358_56x13.gif)過濾器），它允許增加深度而不會顯著增加網絡需要學習的參數數量。值得注意的是，在使用較小的過濾器時，VGG-Net每層需要更多的過濾器。 VGG-Net是遵循AlexNet的許多深度ConvNet架構中的第一個也是最簡單的。后來提出了一個更深層的架構，通常稱為GoogLeNet，有22層[138]。由于使用了所謂的初始模塊（如圖2.9（a）所示）作為構建塊，因此GoogLeNet比VGG-Net更深，所需參數要少得多。在初始模塊中，各種尺度的卷積運算和空間池并行發生。該模塊還增加了![](https://img.kancloud.cn/4b/87/4b87d4243363f6c46b6a8a9e50a2d715_38x13.gif)卷積（_，即_。跨通道池），用于降低維數以避免或衰減冗余過濾器，同時保持網絡的大小可管理。這種跨渠道匯集的想法是由以前的一項名為網絡網絡（NiN）[96]的研究結果推動的，該研究揭示了學習網絡中的大量冗余。堆疊許多初始模塊導致現在廣泛使用的GoogLeNet架構如圖2.9（b）所示。 | ![](https://img.kancloud.cn/6e/17/6e17f6c38eccba2409c28df672f111b0_332x174.png) | | （一個） | | ![](https://img.kancloud.cn/f0/04/f004c0238f4c664296817d3ce9e629d1_628x144.png) | | （b）中 | 圖2.9：GoogLeNet架構。（a）典型的初始模塊，顯示順序和并行發生的操作。（b）典型“初始”架構的圖示，其包括堆疊許多初始模塊。圖[......]轉載 GoogLeNet是第一個偏離簡單堆疊卷積和匯集層的策略的網絡，很快就出現了迄今為止最深層的架構之一，稱為ResNet [64]，它還提出了一個超過150層的新架構。 ResNet代表剩余網絡，主要貢獻在于它依賴于剩余學習。特別是，構建ResNet使得每個層在輸入![](https://img.kancloud.cn/77/90/7790dd0efb4a03a4c876741804d9b559_10x8.gif)之上學習增量變換![](https://img.kancloud.cn/59/b4/59b4640f5bad6b14066d718cf44e9f9c_37x18.gif)，根據 ![](https://img.kancloud.cn/5e/f8/5ef87aac00d84cf3cadc75bd8290f056_139x18.gif)（2.15）而不是像其他標準ConvNet架構那樣直接學習轉換![](https://img.kancloud.cn/4d/0f/4d0f7cac77c165860359fc888b63f730_39x18.gif)。這種剩余學習是通過使用跳過連接來實現的，如圖2.10（a）所示，它使用身份映射連接不同層的組件。信號的直接傳播![](https://img.kancloud.cn/77/90/7790dd0efb4a03a4c876741804d9b559_10x8.gif)在反向傳播期間對抗消失的梯度問題，從而能夠訓練非常深的架構。 | ![](https://img.kancloud.cn/b8/72/b8720d5adcb81de1d159bfa8b7337c8d_332x200.png) | | (a) | | ![](https://img.kancloud.cn/88/a5/88a5cd85f905142dfa0d3fafb46a28c9_630x92.png) | | (b) | 圖2.10：ResNet架構。（a）剩余模塊。（b）典型ResNet架構的圖示，包括堆疊許多剩余模塊。圖[64]轉載。最近，一個關于ResNet成功的密切相關的網絡就是所謂的DenseNet [72]，它進一步推動了剩余連接的概念。在DenseNet中，每個層通過跳過連接連接到密集塊的所有后續層，如圖2.11所示。具體地，密集塊將所有層與相同大小的特征圖連接（_，即空間池層之間的_。塊）。與ResNet不同，DenseNet不會添加前一層的特征映射（2.15），而是連接特征映射，以便網絡根據以下內容學習新的表示。 ![](https://img.kancloud.cn/c5/e7/c5e7a766325df6a9ce19881ada1a86d3_207x18.gif)（2.16）作者聲稱，這種策略允許DenseNet在每一層使用更少的過濾器，因為通過將在一層提取的特征推送到層次結構中更高層的其他層，可以避免可能的冗余信息。重要的是，這些深度跳過連接允許更好的梯度流，因為較低層可以更直接地訪問損耗函數。使用這個簡單的想法，DenseNet可以與其他深層架構競爭，例如ResNet，同時需要更少的參數并減少過度擬合。 | ![](https://img.kancloud.cn/6b/dc/6bdca5280e0da6c466c4d43e581680d8_332x235.png) | | (a) | | ![](https://img.kancloud.cn/1d/a5/1da59f92a5f4e652560b8b2d5aec88c5_628x87.png) | | (b) | 圖2.11：DenseNet架構。（a）密集的模塊。（b）典型的DenseNet架構的圖示，該架構包括堆疊許多密集模塊。圖[72]再版。