第2章多層網絡 · ApacheCN 深度學習譯文集

## 第2章多層網絡本章簡要概述了計算機視覺中應用最突出的多層結構。值得注意的是，雖然本章涵蓋了文獻中最重要的貢獻，但它不會對這些結構進行全面的介紹，因為這樣的介紹可以在別處獲得（例如參考文獻[17,56,90]）。相反，本章的目的是為文檔的其余部分奠定基礎，并詳細介紹和討論目前對應用于視覺信息處理的卷積網絡的理解。 ### 2.1多層架構在最近成功開發基于深度學習的網絡之前，用于識別的最先進的計算機視覺系統依賴于兩個獨立但互補的步驟。首先，通過一組手工設計的操作（例如。具有基組，局部或全局編碼方法的卷積）將輸入數據轉換成合適的形式。輸入引起的變換通常需要找到輸入數據的緊湊和/或抽象表示，同時根據手頭的任務注入若干不變性。這種轉換的目標是以一種更容易被分類器分開的方式改變數據。其次，變換后的數據用于訓練某種分類器（例如支持向量機）來識別輸入信號的內容。使用的任何分類器的性能通常都會受到使用的轉換的嚴重影響。具有學習的多層體系結構通過提出不僅僅使用分類器來學習，而且還直接從數據中學習所需的轉換操作，從而對問題產生了不同的展望。這種學習形式通常被稱為表示學習[7,90]，當在深層多層體系結構的前后層結構中使用時，稱為深度學習。多層體系結構可以定義為允許從輸入數據中提取多個抽象級別有用信息的計算模型。通常，多層架構被設計為放大較高層輸入的重要成分，同時對較不顯著的變化變得越來越穩健。大多數多層架構交替使用線性和非線性函數堆疊簡單構建模塊。多年來，學者們提出了多種多樣的多層架構，本節將介紹計算機視覺應用中最突出的這種架構。特別是由于顯著性，人工神經網絡架構將成為焦點。為了簡潔起見，下面將更簡單地將這種網絡稱為神經網絡。 #### 2.1.1神經網絡典型的神經網絡架構由輸入層![](https://img.kancloud.cn/aa/85/aa85b6b0c139ed6c6019e2fa1da829ae_12x8.gif)，輸出層![](https://img.kancloud.cn/79/3a/793aabe3a888757958de85c213d91777_11x11.gif)，和多個隱藏層組成的堆棧![](https://img.kancloud.cn/25/eb/25eb8314e4066c5f4231986db7bb1d55_12x12.gif)組成，其中每層由多個單元或單元組成，如圖2.1所示。通常，每個隱藏單元![](https://img.kancloud.cn/90/4c/904c4f721800674185dd5a9441ae066d_15x19.gif)接收來自前一層所有單元的輸入，其輸出由輸入的加權組合與非線性計算得到，計算公式見（2.1） ![](https://img.kancloud.cn/25/ee/25ee8ac06664437a697256e58930b8d5_172x39.gif)（2.1）其中，![](https://img.kancloud.cn/0c/b7/0cb794e95b1279eecf04055fc9cc3d69_23x14.gif)是控制輸入單元和隱藏單元之間連接強度的權重系數，![](https://img.kancloud.cn/23/85/2385fd768ca5cffbb7af93612a67551e_14x19.gif)是隱藏單元的微小偏移量，![](https://img.kancloud.cn/72/c0/72c0eca6ac5d70aec1fe31878537ae93_32x18.gif)是飽和非線性函數，如Sigmoid函數。 ![](https://img.kancloud.cn/37/ee/37ee5fc30b89178a782fc80ec1f49b39_267x306.png) 圖2.1：典型神經網絡架構的圖示。復制自文獻[17]。深度神經網絡可以看作是Rosenblatt所提出的感知器[122]和多層感知器[123]的現代版實例。雖然，神經網絡模型已存在多年（神經網絡由1960年代首次提出），它們直到最近才被大量使用。神經網絡的沉寂多年原因復雜。最初，實驗的負面結果表明感知器無法對XOR這樣的簡單操作進行建模，這一失敗在一定時間內阻礙了對感知器的進一步研究，直到感知器由單層推廣到多層[106]。此外，缺乏適當的訓練算法亦使得研究進展緩慢，直到反向傳播算法的普及[125]。然而，阻礙多層神經網絡發展的更大障礙是它們依賴于非常大量的參數，這反過來意味著多層神經網絡需要大量的訓練數據和計算資源來支持參數的學習。通過使用受限玻爾茲曼機（RBM）[68]，深度神經網絡領域在分層無監督預訓練方面取得重大進展。受限玻爾茲曼機可以看作受限只允許前饋連接的兩層神經網絡。當應用于圖像識別時，用于訓練RBM的無監督學習方法可以歸納為三個步驟。首先，每個像素![](https://img.kancloud.cn/42/c9/42c9d02a8d8f13696994eb0204c82e63_14x11.jpg)作為輸入，隨機權重設為![](https://img.kancloud.cn/0c/b7/0cb794e95b1279eecf04055fc9cc3d69_23x14.gif)，偏差為![](https://img.kancloud.cn/23/85/2385fd768ca5cffbb7af93612a67551e_14x19.gif)，每個單位的隱藏狀態![](https://img.kancloud.cn/90/4c/904c4f721800674185dd5a9441ae066d_15x19.gif)值為![](https://img.kancloud.cn/55/95/559537f1e11c68d8ba3d9f6d540de6b0_7x13.gif)的概率設為![](https://img.kancloud.cn/f5/6a/f56ad1f539773c7e7d9d6095aa601896_16x14.gif)。概率由式（2.2定義） ![](https://img.kancloud.cn/41/12/41128a41eaf7664ec1045c545ba8592a_170x39.gif)（2.2）其中![](https://img.kancloud.cn/8f/27/8f2773c680984ce4b1db0f922601fb96_185x19.gif)。其次，一旦基于等式2.2隨機地設置了所有隱藏狀態，通過以概率![](https://img.kancloud.cn/d5/be/d5bebaf54f263ab26a11df5f0ccbac92_168x42.gif)將每個像素![](https://img.kancloud.cn/42/c9/42c9d02a8d8f13696994eb0204c82e63_14x11.jpg)設置為![](https://img.kancloud.cn/55/95/559537f1e11c68d8ba3d9f6d540de6b0_7x13.gif)以嘗試重建圖像。第三，通過基于由式（2.3）給出的重建誤差更新權重和偏差來校正隱藏單元 ![](https://img.kancloud.cn/ba/44/ba4400712bbe47653e8406bc5f32eb77_199x23.gif)（2.3）其中![](https://img.kancloud.cn/38/9a/389a9983ea24ad0b3af0559c2aca381b_11x8.gif)是學習率，![](https://img.kancloud.cn/71/b2/71b2f6ded9a30a57858823ae61bdf9e3_44x20.gif)是像素![](https://img.kancloud.cn/42/c9/42c9d02a8d8f13696994eb0204c82e63_14x11.jpg)和隱藏單元![](https://img.kancloud.cn/90/4c/904c4f721800674185dd5a9441ae066d_15x19.gif)在一起的次數。整個迭代過程最大重復為![](https://img.kancloud.cn/05/58/0558e93d918ff32e873b6a71703e9969_16x12.gif)次，或當直到誤差下降到預設閾值![](https://img.kancloud.cn/54/87/5487216ac20959242740cf0d4ab53fe4_10x8.jpg)時迭代結束。當完成一層的訓練后，該層的輸出將作為層次結構中下一層的輸入。下一層亦將循環該過程。通常，在完成所有網絡層的預訓練之后，使用梯度下降，通過誤差反向傳播進一步對標記數據進行微調[68]。通過使用該分層無監督預訓練方法，深度神經網絡不需要大量標記數據亦可進行訓練，因為無監督RBM預訓練提供了用于經驗上有用的初始化各種網絡參數的方式。依賴于堆疊RBM的神經網絡首先成功地在人臉識別應用中作為一種降維方法進行部署[69]，其中它們被用作一種自動編碼器。簡而言之，自動編碼器可以定義為由兩個主要部分組成的多層神經網絡：首先，其中編碼器將輸入數據轉換為特征向量;第二，解碼器將生成的特征向量映射回輸入空間;見圖2.2。通過最小化輸入與其重建版本之間的、誤差來學習自動編碼器的參數。 ![](https://img.kancloud.cn/81/9d/819de9e7c493a571aab324d52b56bafa_299x193.png) 圖2.2：典型自編碼器網絡的結構。復制自文獻[17]。除了基于RBM的自動編碼器之外，后來學者們又提出了幾種類型的自動編碼器。每個自動編碼器都引入了一種不同的正則化方法，即使在執行不同的不變性時，也能阻止網絡學習不重要的解決方案。主要范例包括稀疏自動編碼器（SAE）[8]，去噪自動編碼器（DAE）[141,142]和壓縮自動編碼器（CAE）[118]。稀疏自動編碼器[8]允許中間表示的大小（即由編碼器部分生成的）大于輸入的大小，同時通過懲罰負輸出來強制實現稀疏。相比之下，去噪自動編碼器[141,142]通過嘗試從人為損壞的版本重建干凈的輸入來改變重建本身的目標，其目的是學習穩健的表示能力。類似地，壓縮自動編碼器[118]通過進一步懲罰對注入噪聲最敏感的單元來構建去噪自動編碼器。各種類型自動編碼器的更詳細介紹可以在其他地方找到，如參考文獻[7]。 #### 2.1.2循環神經網絡在解決依賴于順序輸入的任務時，其中一種最成功的多層架構是循環神經網絡（RNN）[9]。如圖2.3所示，RNN可以看作是一種特殊的神經網絡，其中每個隱藏單元從當前時間步驟觀察到的數據以及前一時間點的狀態中獲取輸入。 RNN的輸出定義為 ![](https://img.kancloud.cn/83/7e/837ed9f80a30e1957266c5a635b9bbcd_166x18.gif)（2.4）其中![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)是非線性擠壓函數，![](https://img.kancloud.cn/49/4f/494f262c0ded99d8ddd368cee8ff26d6_17x11.jpg)和![](https://img.kancloud.cn/7d/26/7d2635eef468491bbf4e560245f7806d_14x11.jpg)是控制當前和過去信息相對重要性的網絡參數。 ![](https://img.kancloud.cn/88/83/8883f21e794fa31b0ef1a5ebf790cb33_398x184.png) 圖2.3：標準回歸神經網絡的工作流程說明。每個RNN單元在當前時間幀![](https://img.kancloud.cn/6b/b6/6bb6b44b99de35c7a8035353f9f37142_15x11.gif)處獲取新輸入，并且從之前的時間步長![](https://img.kancloud.cn/e7/06/e70648bb9558f04f3879f619a9fe700f_30x17.gif)和當前單元的新輸出可根據式（2.4）計算，并可被輸入至多層RNN的另一層處理中。雖然RNN看似是強大的架構，但它們的主要問題之一是它們對長期依賴性建模的能力有限。這種限制歸咎于由于在通過多個時間步驟傳播誤差時可能發生的梯度爆炸或者消失導致的訓練困難[9]。特別是，在訓練期間，反向傳播的梯度將與從當前時間步長一直倒退到初始時間步長的網絡權重相乘。因此，由于這種乘法累加，權重可以對傳播的梯度具有重要的影響。如果權重很小，則梯度消失，而較大的權重導致梯度爆炸。為了解決這個難題，學者們提出了長期短期記憶（LSTM）[70]。 LSTM是配備了存儲或者記憶器件的循環網絡，如圖2.4所示，它可以隨時間累積信息。 LSTM的存儲器單元可被門控，以便允許從中讀寫信息。值得注意的是，LSTM還包含一個遺忘門，允許網絡在不再需要時擦寫信息。 LSTM由三個不同的門（輸入門![](https://img.kancloud.cn/0f/fd/0ffd5df53df943858d11e6c0d6e62e20_11x16.gif)，遺忘門![](https://img.kancloud.cn/31/1c/311c7b06ce1ec2125486315db90b6e05_14x16.gif)和輸出門![](https://img.kancloud.cn/50/dd/50dd650e375035428b2ac869fe0c751b_14x11.jpg)）以及存儲器單元狀態![](https://img.kancloud.cn/7e/34/7e348e2eddfeacab1eedd4cf371591f1_13x11.gif)控制。輸入門由當前輸入![](https://img.kancloud.cn/6b/b6/6bb6b44b99de35c7a8035353f9f37142_15x11.gif)和先前狀態![](https://img.kancloud.cn/e7/06/e70648bb9558f04f3879f619a9fe700f_30x17.gif)控制，計算公式定義為 ![](https://img.kancloud.cn/5b/de/5bde85d72ed0a4a2b0b90ceed3d85051_203x18.gif)（2.5）其中，![](https://img.kancloud.cn/49/4f/494f262c0ded99d8ddd368cee8ff26d6_17x11.jpg)，![](https://img.kancloud.cn/7d/26/7d2635eef468491bbf4e560245f7806d_14x11.jpg)，![](https://img.kancloud.cn/e0/dd/e0ddd641d93ee0cb5bd7d1bb86f1a672_12x16.gif)分別表示控制與輸入門的連接的權重和偏移量，![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)通常是S形函數。遺忘門同樣被定義為 ![](https://img.kancloud.cn/b0/d8/b0d8e77e431bcb9b0a88343a1d757b06_215x20.gif)（2.6）它由相應的權重和偏差![](img/tex32.gif)，![](https://img.kancloud.cn/59/7b/597ba7be8070320996c3c0a8cfb8eaa5_17x14.gif)，![](https://img.kancloud.cn/ae/d1/aed1a1e231011b1266b847d3bd4a4b28_15x19.gif)控制。可以說，LSTM最重要的方面是它可以應對梯度消失和爆炸漸變的挑戰。在確定存儲器單元的狀態時，通過遺忘門和輸入門狀態的相加組合來實現該能力，該狀態又控制信息是否經由輸出門傳遞到另一個單元。具體地，以兩個步驟計算單元狀態。首先，根據估計候選結構狀態 ![](https://img.kancloud.cn/62/70/627026e1d2a75b58b7039081f055de01_208x18.gif)（2.7）其中![](https://img.kancloud.cn/27/b9/27b9a3bd68c6a5a4c5a8967297b2c8dd_11x16.jpg)通常是雙曲正切函數。其次，最終的單元狀態最終由當前估計的單元狀態![](https://img.kancloud.cn/7f/6b/7f6b19f632c7de7dc0365d013fa05113_14x12.jpg)和先前的單元狀態![](https://img.kancloud.cn/a7/01/a701eb6365aac84d9022421b95283265_29x12.gif)控制，由輸入和遺忘門調制根據式(2.8)計算得到 ![](https://img.kancloud.cn/64/e4/64e42dedf3a5ec76199a4cf6129268bf_133x17.gif)（2.8）最后，使用單元的狀態以及當前和先前的輸入，輸出門的值和LSTM單元的輸出根據 ![](https://img.kancloud.cn/0d/9b/0d9b8646603eeee1417c421e9f8d2b3a_211x18.gif)（2.9）其中 ![](https://img.kancloud.cn/11/2d/112d490d54f72bca733e5e2f2dafc5fd_99x18.gif)（2.10） ![](https://img.kancloud.cn/82/5d/825d60f9e2ad7950ef856570bdaf7226_333x218.png) 圖2.4：典型LSTM單元的圖示。該單元在當前時間輸入![](https://img.kancloud.cn/6b/b6/6bb6b44b99de35c7a8035353f9f37142_15x11.gif)，從之前的時間![](https://img.kancloud.cn/e7/06/e70648bb9558f04f3879f619a9fe700f_30x17.gif)獲取輸入，并返回下一次輸入的輸出![](https://img.kancloud.cn/7c/14/7c144242a8b8d2c54fbee09425fa348b_14x16.gif)。 LSTM單元的最終輸出由輸入門![](https://img.kancloud.cn/0f/fd/0ffd5df53df943858d11e6c0d6e62e20_11x16.gif)，遺忘門![](https://img.kancloud.cn/31/1c/311c7b06ce1ec2125486315db90b6e05_14x16.gif)和輸出門![](https://img.kancloud.cn/50/dd/50dd650e375035428b2ac869fe0c751b_14x11.jpg)以及存儲單元狀態![](https://img.kancloud.cn/7e/34/7e348e2eddfeacab1eedd4cf371591f1_13x11.gif)控制，它們由分別式（2.5），（2.6），（2.9）和（2.8）定義。本圖復制自文獻[33]。 #### 2.1.3卷積網絡卷積網絡（ConvNets）是一種特別適用于計算機視覺應用的特殊類型神經網絡，因為它們能夠通過本地操作進行分層抽象表示。兩個關鍵的設計理念推動計算機視覺中卷積體系結構的成功。首先，卷積網絡利用圖像的2D結構以及鄰域內的像素通常高度相關的事實。因此，卷積網絡避免在所有像素單元之間使用一對一連接（即大多數神經網絡的情況一樣），這有利于使用分組本地連接。此外，卷積網絡架構依賴于特征共享，因此每個通道（或輸出特征圖）由在所有位置使用相同濾波器的卷積生成，結構如圖2.5所述。卷積網絡的這一重要特性，使得其與標準神經網絡相比依賴于更少參數的架構。其次，卷積網絡還引入了一個池化步驟，該步驟提供了一定程度的平移不變性，使得架構受到位置的微小變化的影響較小。值得注意的是，由于網絡感知字段的大小增加，池化還允許網絡逐漸看到輸入的較大部分。接收場大小的增加（加上輸入分辨率的降低）允許網絡在網絡深度增加時表達輸入的更抽象的特征。例如，對于對象識別的任務，卷積網絡層首先將邊緣聚焦到對象部分以最終覆蓋層次結構中較高層的整個對象。 ![](https://img.kancloud.cn/1c/22/1c220b8ec5cec400dd56b0c19f51f0cb_530x189.png) 圖2.5：標準卷積網絡結構的圖示。本圖復制自文獻[93] 卷積網絡的體系結構很大程度上受到了視覺皮層中處理過程的啟發，如Hubel和Wiese在文獻l [74]的開創性工作所述（這將在第3章中進一步討論）。事實上，最早的卷積網絡實例似乎是Fukushima在文獻[49]中提出的神經認知機(Neocognitron)，它也依賴于本地連接，其中每個特征圖最大限度地響應特定特征類型。神經認知機由一系列![](https://img.kancloud.cn/3c/de/3cde17081450c796e69ed3a74adbffa2_16x12.gif)層組成，其中每層交替出現S細胞單元![](https://img.kancloud.cn/f1/b5/f1b510e0d918754ad4097320fa199720_21x15.gif)和復雜細胞單位![](https://img.kancloud.cn/00/ac/00acd7cb6a9c7a71914a91caa7732ff5_21x15.gif)，它們松散地模仿生物簡單和復雜細胞中發生的過程，分別如圖2.6所示。簡單細胞單元執行類似于局部卷積的操作，然后執行線性整流單元（ReLU）非線性函數![](https://img.kancloud.cn/ab/9b/ab9bfd7657dc8bcf954f8e385dab9ad7_175x45.gif)，而復雜單元執行類似于平均合并的操作。該模型還包括一個分裂的非線性過程，以實現類似于當代卷積網絡中規范化的過程。 ![](https://img.kancloud.cn/0f/63/0f637dcf3d78f48b2bf76051cdd2e913_431x267.png) 圖2.6：神經認知機結構圖。本圖復制自文獻[49] 與大多數標準卷積網絡架構（例如[91,88]）相反，神經認知機不需要標記數據進行學習，因為它是基于自組織映射設計的，通過重復學習連續層之間的局部連接一組激勵圖像的演示。具體地，訓練神經認知機以學習輸入特征圖和簡單細胞層之間的連接（簡單細胞層和復雜細胞層之間的連接是預先固定的），并且學習過程可以在兩個步驟中概括地概括。首先，每次在輸入處呈現新的激勵時，選擇最大響應它的簡單細胞作為該激勵類型的代表性細胞。其次，每次響應相同的輸入類型時，輸入和那些代表性單元之間的連接就會得到加強。值得注意的是，簡單的單元層被組織在不同的組或平面中，使得每個平面僅響應一種刺激類型（即類似于現代卷積網絡架構中的特征映射）。對神經認知機的后續擴展包括監督學習的允許[51]以及自上而下的注意力機制[50]。在最近計算機視覺應用中部署的大多數卷積網絡架構都受到LeCun在1998年所提出的成功架構的啟發，現在稱為LeNet，用于手寫識別[91]。如關鍵文獻[77,93]所述，經典卷積網絡由四個基本處理層組成：（i）卷積層，（ii）非線性或整流層，（iii）歸一化層和（iv）池化層。如上所述，這些成分主要存在于神經認知機中。 LeNet的一個關鍵附加功能是結合反向傳播，以便相對有效地學習卷積參數。雖然允許優化架構的卷積網絡，與完全連接的神經網絡相比，所需要的參數要少得多，但它們的主要缺點仍然在于它們嚴重依賴學習和標記數據。這種數據依賴性可能是直到2012年卷積網絡未被廣泛使用的主要原因之一，因為大型ImageNet數據集的可用性[126]和相應的計算資源使得學者恢復對卷積網絡的興趣成為可能[88]。卷積網絡在ImageNet上的成功引發了各種卷積網絡架構研究的突飛猛進，并且該領域的大多數貢獻僅僅基于卷積網絡的基本構建塊的不同變化，稍后將在2.2節中討論。