2.1.4生成對抗網絡 · ApacheCN 深度學習譯文集

#### 2.1.4生成對抗網絡生成性對抗網絡（GAN）是利用多層體系結構強大的代表性功能的相對較新的模型。 GAN最初是在2014年推出的[57]雖然它們本身沒有提出不同的架構（_即_。例如，在新型網絡構建模塊方面），它們具有一些特殊性，這使得它們略有不同不同類型的多層架構。 GAN響應的一個關鍵挑戰是采用無監督的學習方法，不需要標記數據。典型的GAN由兩個競爭塊或子網組成，如圖2.7所示;發生器網絡![](https://img.kancloud.cn/d8/26/d8269b24182ee5a22641d376c5993358_60x20.gif)和鑒別器網絡![](https://img.kancloud.cn/84/b5/84b5516c36ee52c8dfdbc6bb75460b8d_63x18.gif)，其中![](https://img.kancloud.cn/7f/05/7f05ba32c44427a0a85b373fd193bb05_9x8.gif)是輸入隨機噪聲，![](https://img.kancloud.cn/3c/1a/3c1a60edb621d9a7b223a34d87cdef02_11x10.gif)是實際輸入數據（_，例如_。圖像）和![](https://img.kancloud.cn/19/b5/19b5edfbfd190edb57cd97dc6e381191_15x18.gif)和![](https://img.kancloud.cn/2e/e2/2ee237c15e5041876276ffbf6a747ece_15x15.gif)分別是兩個塊的參數。每個塊可以由任何先前定義的多層體系結構構成。在原始論文中，發生器和鑒別器都是多層全連接網絡。鑒別器![](https://img.kancloud.cn/26/61/2661c2f73236ce62700299f2115fb4d9_15x12.gif)被訓練為識別來自發生器的數據并且以概率![](https://img.kancloud.cn/ae/6d/ae6d7dcb015d3d9a4878611695b4d0c8_17x12.gif)分配標簽“假”，同時以概率![](https://img.kancloud.cn/53/f4/53f4a2336db9f462081fd46690604bc5_46x16.gif)將標簽“真實”分配給真實輸入數據。作為補充，生成器網絡被優化以生成能夠欺騙鑒別器的偽表示。這兩個塊在幾個步驟中交替訓練，其中訓練過程的理想結果是鑒別器，其將![](https://img.kancloud.cn/c3/b5/c3b5904fc03536dbc796c74b06060961_32x15.gif)的概率分配給真實和偽造數據。換句話說，在收斂之后，生成器應該能夠從隨機輸入生成實際數據。 ![](https://img.kancloud.cn/de/9c/de9c8426d92e4f010cdb6a88af05cf15_333x246.png) 圖2.7：通用生成性對抗網絡（GAN）結構的圖示。自原始論文以來，許多貢獻都參與了通過使用更強大的多層架構作為網絡的主干來增強GAN的能力[114]（_，例如_。用于鑒別器和反卷積網絡的預訓練卷積網絡，學習發電機的上采樣濾波器。 GAN的一些成功應用包括：文本到圖像合成（其中網絡的輸入是要渲染的圖像的文本描述[115]），圖像超分辨率，其中GAN從較低的生成逼真的高分辨率圖像分辨率輸入[94]，圖像修復GAN的作用是從輸入圖像填充缺失信息的孔[149]和紋理合成，其中GAN用于從輸入噪聲合成真實紋理[10]。 #### 2.1.5多層網絡培訓如前幾節所述，各種多層架構的成功在很大程度上取決于其學習過程的成功與否。雖然神經網絡通常首先依賴于無監督的預訓練步驟，如2.1.1節所述，但它們通常遵循最廣泛使用的多層架構訓練策略，這是完全監督的。訓練過程通常基于使用梯度下降的誤差反向傳播。梯度下降因其簡單性而廣泛用于訓練多層架構。它依賴于最小化平滑誤差函數![](https://img.kancloud.cn/97/8f/978fb38532842fa6b79cc8ee2e428939_43x18.gif)，遵循定義為的迭代過程 ![](https://img.kancloud.cn/18/66/18660be3990b6d3ca1d0177cf847d387_127x24.gif)（2.11）其中![](https://img.kancloud.cn/86/7a/867a12bcaa0b2c9327f095d6ccd1bfa7_15x9.gif)表示網絡參數，![](https://img.kancloud.cn/38/9a/389a9983ea24ad0b3af0559c2aca381b_11x8.gif)是可以控制收斂速度的學習速率，![](https://img.kancloud.cn/a4/5d/a45d23410b59160d6955eb918252e2da_53x40.gif)是在訓練集上計算的誤差梯度。這種簡單的梯度下降方法特別適用于訓練多層網絡，這要歸功于使用鏈規則進行反向傳播并計算相對于不同層的各種網絡參數的誤差導數。雖然反向傳播可追溯到多年[16,146]，但它在多層架構的背景下得到了普及[125]。在實踐中，使用隨機梯度下降[2]，其包括從連續的相對小的子集中近似整個訓練集上的誤差梯度。梯度下降算法的主要問題之一是學習率![](https://img.kancloud.cn/38/9a/389a9983ea24ad0b3af0559c2aca381b_11x8.gif)的選擇。學習率太小會導致收斂緩慢，而較大的學習率會導致圍繞最佳狀態的過沖或波動。因此，提出了幾種方法來進一步改進簡單的隨機梯度下降優化方法。最簡單的方法，稱為隨機梯度下降與動量[137]，跟蹤從一次迭代到另一次迭代的更新量，并通過進一步推動更新，如果梯度從一個方向指向同一方向，進一步推動學習過程時間步驟到另一個定義， ![](https://img.kancloud.cn/18/66/18660be3990b6d3ca1d0177cf847d387_127x24.gif)（2.12）用![](https://img.kancloud.cn/8c/8b/8c8b9dbbd1e6b0fac772d9589e2d0ca2_10x12.jpg)控制動量。另一種簡單的方法涉及根據固定的時間表以遞減的方式設置學習速率，但這遠非理想，因為該時間表必須在訓練過程之前預先設定并且完全獨立于數據。其他更復雜的方法（_，例如_ .Adagrad [34]，Adadelta [152]，Adam [86]）建議通過執行較小的更新，在訓練期間調整學習率到每個參數![](https://img.kancloud.cn/49/4f/494f262c0ded99d8ddd368cee8ff26d6_17x11.jpg)。頻繁變化的參數和不常見的更新。這些算法的不同版本之間的詳細比較可以在其他地方找到[124]。使用梯度下降及其變體進行訓練的主要缺點是需要大量標記數據。解決這一困難的一種方法是采用無監督學習。用于訓練一些淺層ConvNet架構的流行的無監督方法基于預測稀疏分解（PSD）方法[85]。 Predictive Sparse Decomposition學習一組過度完整的濾波器，其組合可用于重建圖像。該方法特別適用于學習卷積體系結構的參數，因為該算法被設計用于學習以補丁方式重建圖像的基函數。具體地，預測稀疏分解（PSD）建立在稀疏編碼算法的基礎上，該算法試圖通過與基組B的線性組合來找到輸入信號X的有效表示Y.形式上，稀疏編碼的問題廣泛地存在。制定為最小化問題，定義為， ![](https://img.kancloud.cn/71/d0/71d0144f09e6cd32a31f88f4179d13a6_209x21.gif)（2.13） PSD通過最小化定義為的重構誤差，在卷積框架中調整稀疏編碼的思想， ![](https://img.kancloud.cn/08/e9/08e9f16aeab818cd9ed56dc64a71c4d0_490x21.gif)（2.14）其中![](https://img.kancloud.cn/af/68/af68991085075f1aa71a1c2e6cdbf021_281x18.gif)和![](https://img.kancloud.cn/98/2b/982ba703f70cd3d04aa174ca0d31e9ac_19x12.gif)，![](https://img.kancloud.cn/26/61/2661c2f73236ce62700299f2115fb4d9_15x12.gif)和![](https://img.kancloud.cn/33/8e/338ec0451e1b4b7e7decd0b4443a8828_14x12.gif)分別是網絡的權重，偏差和增益（或歸一化因子）。通過最小化方程2.14中定義的損失函數，算法學習表示![](https://img.kancloud.cn/11/0b/110b4406a2b7b64282c80e0d43398d01_14x12.jpg)，重建輸入補丁![](https://img.kancloud.cn/89/38/8938f7479ea72465602bb25b05952684_16x12.gif)，同時類似于預測表示![](https://img.kancloud.cn/01/aa/01aa158fc8bc3d7f7f3b2807df8b4a5e_14x12.gif)。由于等式的第二項，學習的表示也將是稀疏的。在實踐中，誤差在兩個交替步驟中被最小化，其中參數![](https://img.kancloud.cn/49/d4/49d4bbe8be1a84d6d5956f57efd64751_97x18.gif)是固定的并且在![](https://img.kancloud.cn/11/0b/110b4406a2b7b64282c80e0d43398d01_14x12.jpg)上執行最小化。然后，表示![](https://img.kancloud.cn/11/0b/110b4406a2b7b64282c80e0d43398d01_14x12.jpg)被固定，同時最小化其他參數。值得注意的是，PSD以補片程序應用，其中每組參數![](https://img.kancloud.cn/39/b2/39b2ccbd064f8e3241bb0dfae4f2a4c4_74x18.gif)是從輸入圖像重建不同的補丁中學習的。換句話說，通過將重建聚焦在輸入圖像的不同部分上來學習不同的內核集。 #### 2.1.6關于轉學的一個詞培訓多層體系結構的一個意想不到的好處是學習特征在不同數據集甚至不同任務中的令人驚訝的適應性。例子包括使用ImageNet訓練的網絡識別：其他物體識別數據集，如Caltech-101 [38]（_，例如_。[96,154]），其他識別任務，如紋理識別（_例如_。[25]），其他應用，如物體檢測（_，例如_。[53]）甚至基于視頻的任務，如視頻動作識別（_，例如_）。 [134,41,144]）。使用多層體系結構在不同數據集和任務中提取的特征的適應性可以歸因于它們的層次性，其中表示從簡單和局部到抽象和全局。因此，在層次結構的較低層提取的特征往往在不同的任務中是共同的，從而使多層架構更適合于轉移學習。對不同網絡和任務中特征的有趣可轉移性進行系統探索，揭示了考慮轉移學習時需要考慮的幾個良好實踐[150]。首先，它表明僅微調更高層，與微調整個網絡相比，系統性能更好。其次，這項研究表明，任務越多，轉移學習效率就越低。第三，更令人驚訝的是，人們發現，即使經過微調，網絡在初始任務下的表現也不會受到特別的阻礙。最近，一些新興的努力試圖通過將學習問題作為連續的兩步程序，_，例如_ [3,127]來強制執行網絡“轉移學習能力。首先，所謂的快速學習步驟如通常所做的那樣，在網絡針對特定任務進行優化的情況下執行。其次，在全局學習步驟中進一步更新網絡參數，該步驟嘗試最小化不同任務之間的錯誤。 ### 2.2空間卷積網絡理論上，卷積網絡可以應用于任意維度的數據。它們的二維實例非常適合于單個圖像的結構，因此在計算機視覺中受到了相當大的關注。隨著大規模數據集和功能強大的計算機的可用性，視覺界最近看到ConvNets在各種應用中的使用激增。本節介紹最突出的2D ConvNet架構，它將相對新穎的組件引入2.1.3節中描述的原始LeNet。