<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # 14 -- Regularization 上節課我們介紹了過擬合發生的原因:excessive power, stochastic/deterministic noise 和limited data。并介紹了解決overfitting的簡單方法。本節課,我們將介紹解決overfitting的另一種非常重要的方法:Regularization規則化。 ### **一、Regularized Hypothesis Set** 先來看一個典型的overfitting的例子: ![這里寫圖片描述](https://img.kancloud.cn/f3/05/f3052ec10836f397e505dc9a79b740cc_266x229.jpg) 如圖所示,在數據量不夠大的情況下,如果我們使用一個高階多項式(圖中紅色曲線所示),例如10階,對目標函數(藍色曲線)進行擬合。擬合曲線波動很大,雖然![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)很小,但是![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)很大,也就造成了過擬合現象。 那么如何對過擬合現象進行修正,使hypothesis更接近于target function呢?一種方法就是regularized fit。 ![這里寫圖片描述](https://img.kancloud.cn/5b/44/5b44707dcdf2bbb93de5a0f7c9abb903_281x225.jpg) 這種方法得到的紅色fit曲線,要比overfit的紅色曲線平滑很多,更接近與目標函數,它的階數要更低一些。那么問題就變成了我們要把高階(10階)的hypothesis sets轉換為低階(2階)的hypothesis sets。通過下圖我們發現,不同階數的hypothesis存在如下包含關系: ![這里寫圖片描述](https://img.kancloud.cn/56/7c/567cbfe0d558c7400cc14d0c3f8e913b_566x135.jpg) 我們發現10階多項式hypothesis sets里包含了2階多項式hypothesis sets的所有項,那么在![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)中加入一些限定條件,使它近似為![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)即可。這種函數近似曾被稱之為不適定問題(ill-posed problem)。 如何從10階轉換為2階呢?首先,![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)可表示為: 而![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)可表示為: 所以,如果限定條件是![](https://img.kancloud.cn/e9/de/e9de81958e9f94076cf14ce01de66377_175x16.jpg),那么就有![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)。也就是說,對于高階的hypothesis,為了防止過擬合,我們可以將其高階部分的權重w限制為0,這樣,就相當于從高階的形式轉換為低階,fit波形更加平滑,不容易發生過擬合。 ![這里寫圖片描述](https://img.kancloud.cn/df/ee/dfee5d6c7a05ae241ed6767b49aee3d9_566x294.jpg) 那有一個問題,令![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)高階權重w為0,為什么不直接使用![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)呢?這樣做的目的是拓展我們的視野,為即將討論的問題做準備。剛剛我們討論的限制是![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)高階部分的權重w限制為0,這是比較苛刻的一種限制。下面,我們把這個限制條件變得更寬松一點,即令任意8個權重w為0,并不非要限定![](https://img.kancloud.cn/e9/de/e9de81958e9f94076cf14ce01de66377_175x16.jpg),這個Looser Constraint可以寫成: 也就只是限定了w不為0的個數,并不限定必須是高階的w。這種hypothesis記為![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg),稱為sparse hypothesis set,它與![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)和![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)的關系為: ![這里寫圖片描述](https://img.kancloud.cn/3c/46/3c46c6c4e42a9c1e7a097d3a4e17cf2c_566x59.jpg) Looser Constraint對應的hypothesis應該更好解一些,但事實是sparse hypothesis set ![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)被證明也是NP-hard,求解非常困難。所以,還要轉換為另一種易于求解的限定條件。 那么,我們尋找一種更容易求解的寬松的限定條件Softer Constraint,即: 其中,C是常數,也就是說,所有的權重w的平方和的大小不超過C,我們把這種hypothesis sets記為![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)。 ![](https://img.kancloud.cn/7c/d2/7cd2f4c4d8ca7bfaa4f96ff16b49c432_19x14.jpg)與![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)的關系是,它們之間有重疊,有交集的部分,但是沒有完全包含的關系,也不一定相等。對應![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg),C值越大,限定的范圍越大,即越寬松: 當C無限大的時候,即限定條件非常寬松,相當于沒有加上任何限制,就與![](https://img.kancloud.cn/98/90/9890ce81d302eeea2b7713d0e5c7c9b1_25x15.jpg)沒有什么兩樣。![](https://img.kancloud.cn/36/9b/369b33e493fc489224ef4f5c6b61b1c6_38x18.jpg)稱為regularized hypothesis set,這種形式的限定條件是可以進行求解的,我們把求解的滿足限定條件的權重w記為![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。接下來就要探討如何求解![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。 ### **二、Weight Decay Regularization** 現在,針對H(c),即加上限定條件,我們的問題變成: ![這里寫圖片描述](https://img.kancloud.cn/fb/02/fb02f96f9b08919fe39c3cb8af5472c2_444x200.jpg) 我們的目的是計算![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的最小值,限定條件是![](https://img.kancloud.cn/de/b5/deb59eda59b29b4ccbf70fc6decedab4_71x18.jpg)。這個限定條件從幾何角度上的意思是,權重w被限定在半徑為![](https://img.kancloud.cn/47/e7/47e7b96989bb95139bfb9205cabb5a78_26x17.jpg)的圓內,而球外的w都不符合要求,即便它是靠近![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)梯度為零的w。 ![這里寫圖片描述](https://img.kancloud.cn/dc/9d/dc9dcdb21e3fd0d7a0b2bf7bd1bb2b06_566x56.jpg) 下面用一張圖來解釋在限定條件下,最小化![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的過程: ![這里寫圖片描述](https://img.kancloud.cn/34/96/3496a31024043a3816ec4124e1f372bc_566x227.jpg) 如上圖所示,假設在空間中的一點w,根據梯度下降算法,w會朝著![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)的方向移動(圖中藍色箭頭指示的方向),在沒有限定條件的情況下,w最終會取得最小值![](https://img.kancloud.cn/93/56/93565f162b5dcab4c34635c4ae6d4916_26x10.jpg),即“谷底”的位置。現在,加上限定條件,即w被限定在半徑為![](https://img.kancloud.cn/47/e7/47e7b96989bb95139bfb9205cabb5a78_26x17.jpg)的圓內,w距離原點的距離不能超過圓的半徑,球如圖中紅色圓圈所示![](https://img.kancloud.cn/80/51/80511377ee863cfc564632da5b614dbd_68x14.jpg)。那么,這種情況下,w不能到達![](https://img.kancloud.cn/93/56/93565f162b5dcab4c34635c4ae6d4916_26x10.jpg)的位置,最大只能位于圓上,沿著圓的切線方向移動(圖中綠色箭頭指示的方向)。與綠色向量垂直的向量(圖中紅色箭頭指示的方向)是圓切線的法向量,即w的方向,w不能靠近紅色箭頭方向移動。那么隨著迭代優化過程,只要![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)與w點切線方向不垂直,那么根據向量知識,![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)一定在w點切線方向上有不為零的分量,即w點會繼續移動。只有當![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)與綠色切線垂直,即與紅色法向量平行的時候,![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)在切線方向上沒有不為零的分量了,也就表示這時w達到了最優解的位置。 有了這個平行的概念,我們就得到了獲得最優解需要滿足的性質: 上面公式中的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)稱為Lagrange multiplier,是用來解有條件的最佳化問題常用的數學工具,![](https://img.kancloud.cn/0c/8f/0c8f18d16fd10ce97f3c1dad5e56e290_15x35.jpg)是方便后面公式推導。那么我們的目標就變成了求解滿足上面公式的![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)。 之前我們推導過,線性回歸的![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)的表達式為: 計算![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)梯度,并代入到平行條件中,得到: 這是一個線性方程式,直接得到![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)為: 上式中包含了求逆矩陣的過程,因為![](https://img.kancloud.cn/0c/8c/0c8c88f9cadccb551c510fd8640dc2c5_33x14.jpg)是半正定矩陣,如果![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)大于零,那么![](https://img.kancloud.cn/0c/8c/0c8c88f9cadccb551c510fd8640dc2c5_33x14.jpg)一定是正定矩陣,即一定可逆。另外提一下,統計學上把這叫做ridge regression,可以看成是linear regression的進階版。 如果對于更一般的情況,例如邏輯回歸問題中,![](https://img.kancloud.cn/aa/92/aa9233624c110684d7368fda5ca911c8_37x15.jpg)不是線性的,那么將其代入平行條件中得到的就不是一個線性方程式,![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)不易求解。下面我們從另一個角度來看一下平行等式: 已知![](https://img.kancloud.cn/aa/92/aa9233624c110684d7368fda5ca911c8_37x15.jpg)是![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)對![](https://img.kancloud.cn/fe/38/fe382784fa6ab3bb15f0b8a10a7b7191_39x10.jpg)的導數,而![](https://img.kancloud.cn/d9/d4/d9d4e1fcb9d9058fc5ed77463f246b4d_58x35.jpg)也可以看成是![](https://img.kancloud.cn/87/fb/87fba0b255a37cadf92e95e02531f526_56x34.jpg)的導數。那么平行等式左邊可以看成一個函數的導數,導數為零,即求該函數的最小值。也就是說,問題轉換為最小化該函數: 該函數中第二項就是限定條件regularizer,也稱為weight-decay regularization。我們把這個函數稱為Augmented Error,即![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)。 如果![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)不為零,對應于加上了限定條件,若![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)等于零,則對應于沒有任何限定條件,問題轉換成之前的最小化![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)。 下面給出一個曲線擬合的例子,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取不同的值時,得到的曲線也不相同: ![這里寫圖片描述](https://img.kancloud.cn/c4/f5/c4f55c95aa0c1801f348bcf0400d5ce2_566x203.jpg) 從圖中可以看出,當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)時,發生了過擬合;當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)時,擬合的效果很好;當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)和![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)時,發生了欠擬合。我們可以把![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)看成是一種penality,即對hypothesis復雜度的懲罰,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大,w就越小,對應于C值越小,即這種懲罰越大,擬合曲線就會越平滑,高階項就會削弱,容易發生欠擬合。![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)一般取比較小的值就能達到良好的擬合效果,過大過小都有問題,但究竟取什么值,要根據具體訓練數據和模型進行分析與調試。 ![這里寫圖片描述](https://img.kancloud.cn/ee/8b/ee8b0ab22887b8e2c358235aedd5c1e8_393x155.jpg) 事實上,這種regularization不僅可以用在多項式的hypothesis中,還可以應用在logistic regression等其他hypothesis中,都可以達到防止過擬合的效果。 我們目前討論的多項式是形如![](https://img.kancloud.cn/2f/be/2fbefa25e56299d2c19499fac41676dc_111x17.jpg)的形式,若x的范圍限定在[-1,1]之間,那么可能導致![](https://img.kancloud.cn/19/92/19924990c8f7345f2166503fdef97c8e_16x11.jpg)相對于低階的值要小得多,則其對于的w非常大,相當于要給高階項設置很大的懲罰。為了避免出現這種數據大小差別很大的情況,可以使用Legendre Polynomials代替![](https://img.kancloud.cn/2f/be/2fbefa25e56299d2c19499fac41676dc_111x17.jpg)這種形式,Legendre Polynomials各項之間是正交的,用它進行多項式擬合的效果更好。關于Legendre Polynomials的概念這里不詳細介紹,有興趣的童鞋可以看一下[維基百科](https://en.wikipedia.org/wiki/Legendre_polynomials)。 ### **三、Regularization and VC Theory** 下面我們研究一下Regularization與VC理論之間的關系。Augmented Error表達式如下: VC Bound表示為: 其中![](https://img.kancloud.cn/ab/61/ab614d2800a13e392642dc8031df3264_33x14.jpg)表示的是單個hypothesis的復雜度,記為![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg);而![](https://img.kancloud.cn/a7/6d/a76dff566ef5b5b3296b23949d6b2978_38x18.jpg)表示整個hypothesis set的復雜度。根據Augmented Error和VC Bound的表達式,![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg)包含于![](https://img.kancloud.cn/a7/6d/a76dff566ef5b5b3296b23949d6b2978_38x18.jpg)之內,所以,![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)比![](https://img.kancloud.cn/5b/cf/5bcf9eebe555c8380ea4c84aea710839_23x14.jpg)更接近于![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg),即更好地代表![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg),![](https://img.kancloud.cn/4a/f5/4af52050221bd0bdb768fe34494254e1_56x19.jpg)與![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)之間的誤差更小。 ![這里寫圖片描述](https://img.kancloud.cn/c7/3e/c73eca8b1db6323a1f73956dfffc9d26_566x202.jpg) 根據VC Dimension理論,整個hypothesis set的![](https://img.kancloud.cn/6e/1c/6e1c5079b40d6e2f1830686474fdd958_85x19.jpg),這是因為所有的w都考慮了,沒有任何限制條件。而引入限定條件的![](https://img.kancloud.cn/5b/39/5b390e131729dbe54a37a6e095571645_184x18.jpg),即有效的VC dimension。也就是說,![](https://img.kancloud.cn/d9/46/d946870a2c28781a9e73f7045b89b48c_54x18.jpg)比較大,因為它代表了整個hypothesis set,但是![](https://img.kancloud.cn/b2/70/b270fbe526f7a3f3b499ac44300b8b14_81x18.jpg)比較小,因為由于regularized的影響,限定了w只取一小部分。其中A表示regularized算法。當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)時,有: 這些與實際情況是相符的,比如對多項式擬合模型,當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)時,所有的w都給予考慮,相應的![](https://img.kancloud.cn/b4/c8/b4c87c6639d87ada7d0ebe0f897375ee_27x14.jpg)很大,容易發生過擬合。當![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)且越來越大時,很多w將被舍棄,![](https://img.kancloud.cn/b2/70/b270fbe526f7a3f3b499ac44300b8b14_81x18.jpg)減小,擬合曲線越來越平滑,容易發生欠擬合。 ### **四、General Regularizers** 那么通用的Regularizers,即![](https://img.kancloud.cn/48/e2/48e20591d2287c88f638a82c4e51ff3d_36x18.jpg),應該選擇什么樣的形式呢?一般地,我們會朝著目標函數的方向進行選取。有三種方式: * **target-dependent** * **plausible** * **friendly** ![這里寫圖片描述](https://img.kancloud.cn/69/60/696055af024dd348f8aff9b1517a9b08_566x180.jpg) 其實這三種方法跟之前error measure類似,其也有三種方法: * **user-dependent** * **plausible** * **friendly** regularizer與error measure是機器學習模型設計中的重要步驟。 ![這里寫圖片描述](https://img.kancloud.cn/2c/e5/2ce5aecf44e1650e7766f396e56f2a95_566x97.jpg) 接下來,介紹兩種Regularizer:L2和L1。L2 Regularizer一般比較通用,其形式如下: 這種形式的regularizer計算的是w的平方和,是凸函數,比較平滑,易于微分,容易進行最優化計算。 L1 Regularizer的表達式如下: L1計算的不是w的平方和,而是絕對值和,即長度和,也是凸函數。已知![](https://img.kancloud.cn/80/51/80511377ee863cfc564632da5b614dbd_68x14.jpg)圍成的是圓形,而![](https://img.kancloud.cn/1d/c3/1dc31c67d519e27abdb61d696a5c85ac_71x17.jpg)圍成的是正方形,那么在正方形的四個頂點處,是不可微分的(不像圓形,處處可微分)。根據之前介紹的平行等式推導過程,對應這種正方形,它的解大都位于四個頂點處(不太理解,歡迎補充賜教),因為正方形邊界處的w絕對值都不為零,若![](https://img.kancloud.cn/a2/ff/a2ffaf9e1ff3b2e14acdd8fa9b16f1a4_49x15.jpg)不與其平行,那么w就會向頂點處移動,頂點處的許多w分量為零,所以,L1 Regularizer的解是稀疏的,稱為sparsity。優點是計算速度快。 ![這里寫圖片描述](https://img.kancloud.cn/2b/ef/2bef8bcd430e08a0c91432969bb6d749_566x377.jpg) 下面來看一下![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)如何取值,首先,若stochastic noise不同,那么一般情況下,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取值有如下特點: ![這里寫圖片描述](https://img.kancloud.cn/0a/7c/0a7c5a8f2814755f985f70da35071fe8_279x209.jpg) 從圖中可以看出,stochastic noise越大,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大。 另一種情況,不同的deterministic noise,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)取值有如下特點: ![這里寫圖片描述](https://img.kancloud.cn/f1/a4/f1a44eb36cf7e5b938ffc32220adc3fe_277x208.jpg) 從圖中可以看出,deterministic noise越大,![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)越大。 以上兩種noise的情況下,都是noise越大,相應的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)也就越大。這也很好理解,如果在開車的情況下,路況也不好,即noise越多,那么就越會踩剎車,這里踩剎車指的就是regularization。但是大多數情況下,noise是不可知的,這種情況下如何選擇![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)?這部分內容,我們下節課將會討論。 ### **五、總結** 本節課主要介紹了Regularization。首先,原來的hypothesis set加上一些限制條件,就成了Regularized Hypothesis Set。加上限制條件之后,我們就可以把問題轉化為![](https://img.kancloud.cn/32/26/3226a8971528cd68f194ccc55cf51e84_31x16.jpg)最小化問題,即把w的平方加進去。這種過程,實際上回降低VC Dimension。最后,介紹regularization是通用的機器學習工具,設計方法通常包括target-dependent,plausible,friendly等等。下節課將介紹如何選取合適的![](https://img.kancloud.cn/6c/9a/6c9a2d4cdadb3b3dd53f11c31c8be95e_9x11.jpg)來建立最佳擬合模型。 **_注明:_** 文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看