2.2.2走向ConvNet不變性 · ApacheCN 深度學習譯文集

#### 2.2.2走向ConvNet不變性使用ConvNets的挑戰之一是需要非常大的數據集來學習所有基礎參數。即使像ImageNet [126]這樣擁有超過一百萬張圖像的大型數據集也被認為太小而無法訓練某些深層架構。處理大數據集要求的一種方法是通過例如隨機翻轉，旋轉和抖動來改變圖像來人為地增加數據集。這些增強的主要優點是所得到的網絡對各種變換變得更加不變。事實上，這項技術是AlexNet取得巨大成功背后的主要原因之一。因此，除了改變網絡架構以便于培訓的方法之外，如前一節所述，其他工作旨在引入能夠產生更好培訓的新型構建模塊。具體而言，本節討論的網絡引入了新的塊，這些塊直接包含來自原始數據的學習不變表示。一個明確解決不變性最大化的著名ConvNet是空間變壓器網絡（STN）[76]。特別地，該網絡利用了一種新的學習模塊，該模塊增加了對不重要的空間變換的不變性，_，例如_。在物體識別過程中由不同視點產生的那些。該模塊由三個子模塊組成：定位網，網格生成器和采樣器，如圖2.12（a）所示。執行的操作可以分為三個步驟。首先，定位網絡（通常是一個小的2層神經網絡）將一個特征圖![](https://img.kancloud.cn/5a/7f/5a7ff183ef9bed05791f88aa7e41f2b3_13x12.gif)作為輸入，并從該輸入中學習變換參數![](https://img.kancloud.cn/d7/4e/d74edaaf2305d2d981f9c13219e34f36_9x12.gif)。例如，轉換![](https://img.kancloud.cn/66/33/6633e24b86742d5a0da7972058c1f1fe_16x16.gif)可以定義為一般的仿射變換，允許網絡學習翻譯，縮放，旋轉和剪切。其次，給定變換參數和預定義大小的輸出網格![](https://img.kancloud.cn/9e/bb/9ebb2db1fc35cfe1c1ab8c76d35bde19_58x12.gif)，網格生成器為每個輸出坐標![](https://img.kancloud.cn/32/7f/327fe04bb22309be14d9375805506520_51x21.gif)計算應從輸入中采樣的相應坐標![](https://img.kancloud.cn/99/df/99df9d5fef753f215d31c0774408a2d9_53x19.gif)，![](https://img.kancloud.cn/5a/7f/5a7ff183ef9bed05791f88aa7e41f2b3_13x12.gif)，根據 ![](https://img.kancloud.cn/18/66/18660be3990b6d3ca1d0177cf847d387_127x24.gif)（2.17）最后，采樣器采用特征圖![](https://img.kancloud.cn/5a/7f/5a7ff183ef9bed05791f88aa7e41f2b3_13x12.gif)和采樣網格，并插入像素值![](https://img.kancloud.cn/99/df/99df9d5fef753f215d31c0774408a2d9_53x19.gif)，以填充位置![](https://img.kancloud.cn/32/7f/327fe04bb22309be14d9375805506520_51x21.gif)的輸出特征圖![](https://img.kancloud.cn/ba/ea/baeac1d9d7cf057a52a3fbff326ac3de_14x12.jpg)，如圖2.12所示（b））。在任何ConvNet架構的每一層添加此類模塊，使其能夠從輸入中自適應地學習各種變換，以增加其不變性，從而提高其準確性。 | ![](https://img.kancloud.cn/63/c7/63c7e6c2d2a9a6f7048a0776c9a14c4b_412x178.png) | ![](https://img.kancloud.cn/06/c7/06c7eca7a69cb770891f01c0a5a76393_214x181.png) | | （一個） | （b）中 | 圖2.12：空間變壓器網絡運營。（a）空間變換器模塊的描述，典型的變換操作在（b）中示出。圖[?]復制。為了增強ConvNets的幾何變換建模能力，兩種現代方法，即Deformable ConvNet [29]和Active ConvNet [78]，引入了靈活的卷積塊。這些方法的基本思想是避免在卷積過程中使用剛性窗口，以有利于學習進行卷積的感興趣區域（RoI）。這個想法類似于空間變換器模塊的定位網絡和網格生成器所做的事情。為了確定每層的RoI，修改卷積塊以使其從初始剛性卷積窗口學習偏移。具體來說，從在給定的剛性窗口上的卷積運算的標準定義開始 ![](https://img.kancloud.cn/0d/e4/0de4cf26e62b52a6d895069df553d8d0_217x42.gif)（2.18）其中![](https://img.kancloud.cn/44/3a/443a3476c31c58eb77a7d419e1b84a1c_14x12.gif)是執行卷積的區域，![](https://img.kancloud.cn/d9/25/d9258a59245833381958e5545bce0ce2_18x12.gif)是區域內的像素位置![](https://img.kancloud.cn/44/3a/443a3476c31c58eb77a7d419e1b84a1c_14x12.gif)，![](https://img.kancloud.cn/a6/b0/a6b0be345db0ef116fdc1d5afd7cd84c_44x18.gif)是相應的濾波器權重，添加新術語以包括根據的偏移量 ![](https://img.kancloud.cn/ff/1a/ff1af7db57b656e518efcccf64bbf8d2_273x42.gif)（2.19）其中![](https://img.kancloud.cn/6f/2b/6f2bb3ba1a817977e58c5b772decd6d2_32x18.gif)是偏移量，現在最終的卷積步驟將在變形窗口上執行，而不是傳統的剛性![](https://img.kancloud.cn/35/84/358496eee2e338abdedbf9ab75bac30f_44x9.gif)窗口。為了學習偏移量![](https://img.kancloud.cn/6f/2b/6f2bb3ba1a817977e58c5b772decd6d2_32x18.gif)，可以修改可變形ConvNets的卷積塊，使其包含一個新的子模塊，其作用是學習偏移，如圖2.13所示。與可交替學習子模塊參數和網絡權重的空間變換器網絡不同，可變形控制器可同時學習權重和偏移，從而使其在各種體系結構中的部署速度更快，更容易。 ![](https://img.kancloud.cn/17/c6/17c647dcb8cbcd4e984a40e48ff2c915_465x292.png) 圖2.13：可變形或主動卷積。從固定的窗口大小開始，網絡通過一個小的子網絡（在圖的頂部顯示為綠色）學習偏移，最后在變形的窗口上執行卷積。圖[29]再版。 #### 2.2.3走向ConvNet本地化除了簡單的分類任務，例如對象識別，最近ConvNets在需要精確定位的任務中也表現出色，例如語義分割和對象檢測。用于語義分割的最成功的網絡是所謂的完全卷積網絡（FCN）[98]。顧名思義，FCN沒有明確地使用完全連接的層，而是將它們轉換為卷積層，其感知域覆蓋整個底層特征映射。重要的是，網絡學習上采樣或反卷積濾波器，恢復最后一層圖像的完整分辨率，如圖2.14所示。在FCN中，通過將問題轉換為密集像素分類來實現分割。換句話說，softmax層附加到每個像素，并且通過對屬于相同類的像素進行分組來實現分割。值得注意的是，在這項工作中報告說，在上采樣步驟中使用來自架構的較低層的特征起著重要作用。它允許更精確的分割，因為較低層特征傾向于捕獲更細粒度的細節，與分類相比，這對于分割任務而言更為重要。學習反卷積濾波器的替代方法依賴于使用atrou或擴張卷積[24]，_，即_。上采樣稀疏濾波器，有助于恢復更高分辨率的特征映射，同時保持可學習的參數數量可管理。 ![](https://img.kancloud.cn/ec/1e/ec1e005a60f6b5b1cf6b30adbdff3435_332x165.png) 圖2.14：完全卷積網絡。在上采樣以在最后一層恢復圖像全分辨率之后，使用softmax對每個像素進行分類以最終生成片段。圖[98]再版。在對象本地化方面，ConvNet框架中最早的方法之一被稱為Region CNN或R-CNN。該網絡將區域提議方法與ConvNet架構相結合[53]。盡管R-CNN是圍繞簡單的想法而建立的，但它產生了最先進的物體檢測結果。特別地，R-CNN首先使用用于區域提議的現成算法（_，例如_。選擇性搜索[140]）來檢測可能包含對象的潛在區域。然后將這些區域扭曲以匹配所使用的ConvNet的默認輸入大小，并將其饋送到ConvNet以進行特征提取。最后，每個區域的特征用SVM分類，并在后處理步驟中通過非最大抑制進行細化。在其天真的版本中，R-CNN簡單地使用ConvNets作為特征提取器。然而，它的突破性結果帶來了改進，更多地利用了ConvNets的強大代表性。例如，快速R-CNN [52]，更快的R-CNN [116]和掩模R-CNN [61]。快速R-CNN ，提出通過網絡傳播獨立計算區域提議，以提取最后一個特征映射層中的相應區域。這種技術避免了從圖像中提取的每個區域的昂貴的網絡傳輸。此外，快速R-CNN避免了重載 - 處理步驟通過改變網絡的最后一層，使其學習對象類和精煉的邊界框坐標。重要的是，在R-CNN和快速R-CNN中，檢測瓶頸在于區域提議步驟，該步驟是在ConvNet范例。更快的R-CNN通過在ConvNet的最后一個卷積層之后添加稱為區域提議網絡（RPN）的子模塊（或子網絡）來進一步推動使用ConvNets。 RPN模塊使網絡能夠學習區域提議，作為網絡優化的一部分。具體來說，RPN被設計為一個小的ConvNet，由卷積層和一個小的完全連接層組成，兩個輸出返回潛在的物體位置和物體分數（_，即_。屬于一個物體類的概率）。按照迭代的兩步程序完成整個網絡的培訓。首先，使用RPN單元優化網絡以進行區域建議提取。其次，保持提取的區域提議固定，網絡被微調用于對象分類和最終對象邊界框位置。最近，引入掩模R-CNN以增強更快的R-CNN，其具有分割檢測區域的能力，從而在檢測到的物體周圍產生緊密掩模。為此，掩碼R-CNN將分段分支添加到更快的R-CNN的分類和邊界框回歸分支。特別是，新分支實現為一個小FCN，它被優化用于將任何邊界框中的像素分類為兩個類中的一個;前景或背景。圖2.15說明了從簡單的R-CNN到屏蔽R-CNN的差異和進展。 | ![](https://img.kancloud.cn/ab/85/ab853bd746739fee2eccb37ddd70243c_266x77.png) | ![](https://img.kancloud.cn/da/72/da726ed26029c926cebe208673b5f0c8_133x52.png) | | (a) | (b) | | ![](https://img.kancloud.cn/b3/f5/b3f5c2956d0d7e2b9b5c38bbfbae9d1d_134x140.png) | ![](https://img.kancloud.cn/cc/6f/cc6f41bdfb0be32efec2bc774f51f492_134x90.png) | | （C） | （d） | 圖2.15：突出區域提案網絡的進展情況。（a）原始R-CNN的結構。圖[...]轉載。（b）快速R-CNN的結構。圖[...]轉載。（c）更快的R-CNN的結構。從[116]再現的圖。（d）掩模R-CNN的結構。圖[?]復制。