4.1.1 CNN介紹 · 手把手教你機器學習

# 從神經網絡到卷積神經網絡（CNN） * * * * * 我們知道神經網絡的結構是這樣的： :-: ![](https://box.kancloud.cn/0f9f1a7e806cd54614e6a5d0de90cfb1_762x319.png) 那卷積神經網絡跟它是什么關系呢？其實卷積神經網絡依舊是層級網絡，只是層的功能和形式做了變化，可以說是傳統神經網絡的一個改進。比如下圖中就多了許多傳統神經網絡沒有的層次。 :-: ![](https://box.kancloud.cn/71c609bc2d7f8758ed9c557d8c3a362d_768x371.png) # 卷積神經網絡的層級結構 * * * * * * 數據輸入層/ Input layer * 卷積計算層/ CONV layer * ReLU激勵層 / ReLU layer * 池化層 / Pooling layer * 全連接層 / FC layer ## 數據輸入層該層要做的處理主要是對原始圖像數據進行預處理，其中包括： * 去均值：把輸入數據各個維度都中心化為0，如下圖所示，其目的就是把樣本的中心拉回到坐標系原點上。 * 歸一化：幅度歸一化到同樣的范圍，如下所示，即減少各維度數據取值范圍的差異而帶來的干擾，比如，我們有兩個維度的特征A和B，A范圍是0到10，而B范圍是0到10000，如果直接使用這兩個特征是有問題的，好的做法就是歸一化，即A和B的數據都變為0到1的范圍。 * PCA/白化：用PCA降維；白化是對數據各個特征軸上的幅度歸一化去均值與歸一化效果圖： :-: ![](https://box.kancloud.cn/69f68f55ffac469983c6f681bf11b755_933x363.png) 去相關與白化效果圖： :-: ![](https://box.kancloud.cn/32e3854821562b8c94c2e893c0aa661a_920x371.png) ## 卷積計算層這一層就是卷積神經網絡最重要的一個層次，也是“卷積神經網絡”的名字來源。在這個卷積層，有兩個關鍵操作： * 局部關聯。每個神經元看做一個濾波器(filter) * 窗口(receptive field)滑動， filter對局部數據計算先介紹卷積層遇到的幾個名詞： * 深度/depth（解釋見下圖） * 步長/stride （窗口一次滑動的長度） * 填充值/zero-padding :-: ![](https://box.kancloud.cn/c1c96a7e0c76d89b72620958dfa9b31a_710x296.png) 填充值是什么呢？以下圖為例子，比如有這么一個5*5的圖片（一個格子一個像素），我們滑動窗口取2*2，步長取2，那么我們發現還剩下1個像素沒法滑完，那怎么辦呢？ :-: ![](https://box.kancloud.cn/f35e21ca10aa46447d9f73474640f0f5_261x157.png) 那我們在原先的矩陣加了一層填充值，使得變成6*6的矩陣，那么窗口就可以剛好把所有像素遍歷完。這就是填充值的作用。 :-: ![](https://box.kancloud.cn/0435c542f57288206e7f5eb0179a31b2_263x209.png) **卷積的計算**（注意，下面藍色矩陣周圍有一圈灰色的框，那些就是上面所說到的填充值） :-: ![](https://box.kancloud.cn/a5a123e957ebfd8eee463dda4c2eb4f9_800x465.png) 這里的藍色矩陣就是輸入的圖像，粉色矩陣就是卷積層的神經元，這里表示了有兩個神經元（w0,w1）。綠色矩陣就是經過卷積運算后的輸出矩陣，這里的步長設置為2。 :-: ![](https://box.kancloud.cn/6a31f1ef7cb83ff315d6b27a63d3ff09_784x460.png) 藍色的矩陣(輸入圖像)對粉色的矩陣（filter）進行矩陣內積計算并將三個內積運算的結果與偏置值b相加（比如上面圖的計算：2+（-2+1-2）+（1-2-2） + 1= 2 - 3 - 3 + 1 = -3），計算后的值就是綠框矩陣的一個元素。 :-: ![](https://box.kancloud.cn/ea1a4dbf92526e8f0d1108ebfa80b6d7_812x449.png) **參數共享機制** * 在卷積層中每個神經元連接數據窗的權重是固定的，每個神經元只關注一個特性。神經元就是圖像處理中的濾波器，比如邊緣檢測專用的Sobel濾波器，即卷積層的每個濾波器都會有自己所關注一個圖像特征，比如垂直邊緣，水平邊緣，顏色，紋理等等，這些所有神經元加起來就好比就是整張圖像的特征提取器集合。 * 需要估算的權重個數減少: AlexNet 1億 => 3.5w * 一組固定的權重和不同窗口內數據做內積: 卷積 :-: ![](https://box.kancloud.cn/f7fcd7077cbdeee7fa0eb6cde9b36a8c_840x450.png) ## 激勵層把卷積層輸出結果做非線性映射。 :-: ![](https://box.kancloud.cn/318193e92dc0f12a1c40ca84bd6e3cd4_760x373.png) CNN采用的激勵函數一般為ReLU(The Rectified Linear Unit/修正線性單元)，它的特點是收斂快，求梯度簡單，但較脆弱，圖像如下。 :-: ![](https://box.kancloud.cn/e2e1f3a4541c534e28add61a84185937_653x313.png) 激勵層的實踐經驗： 1. 不要用sigmoid！不要用sigmoid！不要用sigmoid！ 2. 首先試RELU，因為快，但要小心點 3. 如果2失效，請用Leaky ReLU或者Maxout 4. 某些情況下tanh倒是有不錯的結果，但是很少 ## 池化層池化層夾在連續的卷積層中間，用于壓縮數據和參數的量，減小過擬合。簡而言之，如果輸入是圖像的話，那么池化層的最主要作用就是壓縮圖像。這里再展開敘述池化層的具體作用。 1. 特征不變性，也就是我們在圖像處理中經常提到的特征的尺度不變性，池化操作就是圖像的resize，平時一張狗的圖像被縮小了一倍我們還能認出這是一張狗的照片，這說明這張圖像中仍保留著狗最重要的特征，我們一看就能判斷圖像中畫的是一只狗，圖像壓縮時去掉的信息只是一些無關緊要的信息，而留下的信息則是具有尺度不變性的特征，是最能表達圖像的特征。 2. 特征降維，我們知道一幅圖像含有的信息是很大的，特征也很多，但是有些信息對于我們做圖像任務時沒有太多用途或者有重復，我們可以把這類冗余信息去除，把最重要的特征抽取出來，這也是池化操作的一大作用。 3. 在一定程度上防止過擬合，更方便優化。 :-: ![](https://box.kancloud.cn/f832f1aae4d5cf3288422ab5a3883a1d_682x342.png) 池化層用的方法有Max pooling 和 average pooling，而實際用的較多的是Max pooling。這里就說一下Max pooling，其實思想非常簡單。 :-: ![](https://box.kancloud.cn/fd560ad3dcf462cb85e04c86bbb24da6_840x382.png) 對于每個2*2的窗口選出最大的數作為輸出矩陣的相應元素的值，比如輸入矩陣第一個2*2窗口中最大的數是6，那么輸出矩陣的第一個元素就是6，如此類推。 ## 全連接層兩層之間所有神經元都有權重連接，通常全連接層在卷積神經網絡尾部。也就是跟傳統的神經網絡神經元的連接方式是一樣的： :-: ![](https://box.kancloud.cn/e0ced97c1264179e640afa302b95f7fe_813x402.png) **一般CNN結構依次為** 1. INPUT 2. [[CONV -> RELU]*N -> POOL?]*M 3. [FC -> RELU]*K 4. FC **卷積神經網絡之訓練算法** 1. 同一般機器學習算法，先定義Loss function，衡量和實際結果之間差距。 2. 找到最小化損失函數的W和b， CNN中用的算法是SGD（隨機梯度下降）。 **卷積神經網絡之優缺點** 優點: 1. 共享卷積核，對高維數據處理無壓力 2. 無需手動選取特征，訓練好權重，即得特征分類效果好缺點: 1. 需要調參，需要大樣本量，訓練最好要GPU 2. 物理含義不明確（也就說，我們并不知道沒個卷積層到底提取到的是什么特征，而且神經網絡本身就是一種難以解釋的“黑箱模型”） **卷積神經網絡之典型CNN** * LeNet，這是最早用于數字識別的CNN * AlexNet， 2012 ILSVRC比賽遠超第2名的CNN，比LeNet更深，用多層小卷積層疊加替換單大卷積層 * ZF Net， 2013 ILSVRC比賽冠軍 * GoogLeNet， 2014 ILSVRC比賽冠軍 * VGGNet， 2014 ILSVRC比賽中的模型，圖像識別略差于GoogLeNet，但是在很多圖像轉化學習問題(比如object detection)上效果奇好 **卷積神經網絡之 fine-tuning** 何謂fine-tuning？ fine-tuning就是使用已用于其他目標、預訓練好模型的權重或者部分權重，作為初始值開始訓練。那為什么我們不用隨機選取選幾個數作為權重初始值？原因很簡單，第一，自己從頭訓練卷積神經網絡容易出現問題；第二，fine-tuning能很快收斂到一個較理想的狀態，省時又省心。那fine-tuning的具體做法是？ * 復用相同層的權重，新定義層取隨機權重初始值 * 調大新定義層的的學習率，調小復用層學習率 **卷積神經網絡的常用框架** **Caffe** * 源于Berkeley的主流CV工具包，支持C++,python,matlab * Model Zoo中有大量預訓練好的模型供使用 **Torch** * Facebook用的卷積神經網絡工具包 * 通過時域卷積的本地接口，使用非常直觀 * 定義新網絡層簡單 **TensorFlow** * Google的深度學習框架 * TensorBoard可視化很方便 * 數據和模型并行化好，速度快 # 總結卷積網絡在本質上是一種輸入到輸出的映射，它能夠學習大量的輸入與輸出之間的映射關系，而不需要任何輸入和輸出之間的精確的數學表達式，只要用已知的模式對卷積網絡加以訓練，網絡就具有輸入輸出對之間的映射能力。 CNN一個非常重要的特點就是頭重腳輕（越往輸入權值越小，越往輸出權值越多），呈現出一個倒三角的形態，這就很好地避免了BP神經網絡中反向傳播的時候梯度損失得太快。卷積神經網絡CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數據進行學習，所以在使用CNN時，避免了顯式的特征抽取，而隱式地從訓練數據中進行學習；再者由于同一特征映射面上的神經元權值相同，所以網絡可以并行學習，這也是卷積網絡相對于神經元彼此相連網絡的一大優勢。卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性，其布局更接近于實際的生物神經網絡，權值共享降低了網絡的復雜性，特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數據重建的復雜度。 **以下是我自己在學習CNN的時候遇到的一些困惑，以及查閱一些資料后得到的一些答案。** **第一個問題：為什么不用BP神經網絡去做呢？** * 全連接，權值太多，需要很多樣本去訓練，計算困難應對之道：減少權值的嘗試，局部連接，權值共享卷積神經網絡有兩種神器可以降低參數數目。　　第一種神器叫做局部感知野，一般認為人對外界的認知是從局部到全局的，而圖像的空間聯系也是局部的像素聯系較為緊密，而距離較遠的像素相關性則較弱。因而，每個神經元其實沒有必要對全局圖像進行感知，只需要對局部進行感知，然后在更高層將局部的信息綜合起來就得到了全局的信息。　　第二級神器，即權值共享。 :-: ![](https://box.kancloud.cn/f5cff8b50c44be19d3b8c7c378388b76_702x271.png) * 邊緣過渡不平滑應對之道：采樣窗口彼此重疊 :-: ![](https://box.kancloud.cn/a853e5fa85c404208bc240506f3ed34e_780x286.png) **第二個問題：LeNet里的隱層的神經元個數怎么確定呢？** 它和原圖像，也就是輸入的大小（神經元個數）、濾波器的大小和濾波器在圖像中的滑動步長都有關！ LeNet-5共有7層，不包含輸入，每層都包含可訓練參數（連接權重）。輸入圖像為32*32大小。 :-: ![](https://box.kancloud.cn/d73643f37aa5f5ad7612eee2a485ebd8_938x380.png) 例如，我的圖像是1000x1000像素，而濾波器大小是10x10，假設濾波器沒有重疊，也就是步長為10，這樣隱層的神經元個數就是(1000x1000 )/ (10x10)=100x100個神經元了。那重疊了怎么算？比如上面圖的C2中28*28是如何得來的？這里的步長就是1，窗口大小是5*5，所以窗口滑動肯定發生了重疊。下圖解釋了28的由來。 :-: ![](https://box.kancloud.cn/cd516f97f036cc9fcaaed03ef33f08e7_602x458.png) **第三個問題：S2層是一個下采樣層是干嘛用的？為什么是下采樣？** 也就是上面所說的池化層，只是叫法不同而已。這層利用圖像局部相關性的原理，對圖像進行子抽樣，可以減少數據處理量同時保留有用信息，相當于圖像壓縮。 **參考出處：https://www.cnblogs.com/skyfsm/p/6790245.html**