8 -- Noise and Error · 臺灣大學林軒田機器學習筆記

# 8 -- Noise and Error 上一節課，我們主要介紹了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的，且有足夠多N的資料，同時能夠找到一個hypothesis使它的![](https://img.kancloud.cn/c9/38/c938ce5f2a3f7dfb47848be0e1a75bfc_54x15.jpg)，那么就能說明機器學習是可行的。本節課主要講了數據集有Noise的情況下，是否能夠進行機器學習，并且介紹了假設空間H下演算法A的Error估計。 ### **一、Noise and Probablistic target** 上節課推導VC Dimension的數據集是在沒有Noise的情況下，本節課討論如果數據集本身存在Noise，那VC Dimension的推導是否還成立呢？首先，Data Sets的Noise一般有三種情況： * **由于人為因素，正類被誤分為負類，或者負類被誤分為正類；** * **同樣特征的樣本被模型分為不同的類；** * **樣本的特征被錯誤記錄和使用。** ![這里寫圖片描述](https://img.kancloud.cn/8b/87/8b8710e644a4b18a7beee624614f7304_566x364.jpg) 之前的數據集是確定的，即沒有Noise的，我們稱之為Deterministic。現在有Noise了，也就是說在某點處不再是確定分布，而是概率分布了，即對每個(x，y)出現的概率是![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)。因為Noise的存在，比如在x點，有0.7的概率y=1，有0.3的概率y=0，即y是按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)分布的。數學上可以證明如果數據集按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布且是iid的，那么以前證明機器可以學習的方法依然奏效，VC Dimension有限即可推斷![](https://img.kancloud.cn/d7/ea/d7eaaebc3fc3d622d22ccb9631da8925_30x12.jpg)和![](https://img.kancloud.cn/03/bc/03bc2e6a3c1afb05f5d949aceaee097a_36x11.jpg)是近似的。 ![這里寫圖片描述](https://img.kancloud.cn/a5/12/a512edee3a7ce4a994ab207f39cbac90_566x396.jpg) ![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)稱之為目標分布（Target Distribution）。它實際上告訴我們最好的選擇是什么，同時伴隨著多少noise。其實，沒有noise的數據仍然可以看成“特殊”的![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布，即概率僅是1和0.對于以前確定的數據集： ![這里寫圖片描述](https://img.kancloud.cn/ea/99/ea997e5734f021f0050f33bd70688d40_566x359.jpg) 在引入noise的情況下，新的學習流程圖如下所示： ![這里寫圖片描述](https://img.kancloud.cn/5d/55/5d55588564dae34c7fe450f4c552fc19_566x311.jpg) ### **二、ERROR Measure** 機器學習需要考慮的問題是找出的矩g與目標函數f有多相近，我們一直使用![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)進行誤差的估計，那一般的錯誤測量有哪些形式呢？我們介紹的矩g對錯誤的衡量有三個特性： * **out-of-sample：樣本外的未知數據** * **pointwise：對每個數據點x進行測試** * **classification：看prediction與target是否一致，classification error通常稱為0/1 error** ![這里寫圖片描述](https://img.kancloud.cn/9b/22/9b229100e00ba40d4d5847fc46f4dd72_566x202.jpg) PointWise error實際上就是對數據集的每個點計算錯誤并計算平均，![](https://img.kancloud.cn/d7/ea/d7eaaebc3fc3d622d22ccb9631da8925_30x12.jpg)和![](https://img.kancloud.cn/03/bc/03bc2e6a3c1afb05f5d949aceaee097a_36x11.jpg)的pointwise error的表達式為： ![這里寫圖片描述](https://img.kancloud.cn/9d/9e/9d9e42a7fa6d0094bc753f971e50c1fa_562x122.jpg) pointwise error是機器學習中最常用也是最簡單的一種錯誤衡量方式，未來課程中，我們主要考慮這種方式。pointwise error一般可以分成兩類：0/1 error和squared error。0/1 error通常用在分類（classification）問題上，而squared error通常用在回歸（regression）問題上。 ![這里寫圖片描述](https://img.kancloud.cn/cb/7c/cb7c115d1d479d650c4261009f3a5c0f_563x131.jpg) Ideal Mini-Target由![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)和err共同決定，0/1 error和squared error的Ideal Mini-Target計算方法不一樣。例如下面這個例子，分別用0/1 error和squared error來估計最理想的mini-target是多少。0/1 error中的mini-target是取P(y|x)最大的那個類，而squared error中的mini-target是取所有類的加權平方和。 ![這里寫圖片描述](https://img.kancloud.cn/8e/e5/8ee5680d696f0e4a0c9c7d2d5718057f_566x399.jpg) 有了錯誤衡量，就會知道當前的矩g是好還是不好，并會讓演算法不斷修正，得到更好的矩g，從而使得g與目標函數更接近。所以，引入error measure后，學習流程圖如下所示： ![這里寫圖片描述](https://img.kancloud.cn/5c/6c/5c6c8e6b9b696d6371c4e339c8d4fcc3_566x278.jpg) ### **三、Algorithmic Error Measure** Error有兩種：false accept和false reject。false accept意思是誤把負類當成正類，false reject是誤把正類當成負類。根據不同的機器學習問題，false accept和false reject應該有不同的權重，這根實際情況是符合的，比如是超市優惠，那么false reject應該設的大一些；如果是安保系統，那么false accept應該設的大一些。 ![這里寫圖片描述](https://img.kancloud.cn/67/cd/67cdf01aa1225312ae1abdf6f8eddc68_566x123.jpg) 機器學習演算法A的cost function error估計有多種方法，真實的err一般難以計算，常用的方法可以采用plausible或者friendly，根據具體情況而定。 ![這里寫圖片描述](https://img.kancloud.cn/ac/69/ac6914d4df2a5e761dac746c20fad1bb_566x187.jpg) 引入algorithm error measure之后，學習流程圖如下： ![這里寫圖片描述](https://img.kancloud.cn/41/a3/41a30f6ce3a098149e4b71fff3ad4766_563x274.jpg) ### **四、Weighted Classification** 實際上，機器學習的Cost Function即來自于這些error，也就是算法里面的迭代的目標函數，通過優化使得Error（Ein）不斷變小。 cost function中，false accept和false reject賦予不同的權重，在演算法中體現。對不同權重的錯誤懲罰，可以選用virtual copying的方法。 ![這里寫圖片描述](https://img.kancloud.cn/41/16/41162e947b07c7588d613b4c3d788ed1_566x404.jpg) ![這里寫圖片描述](https://img.kancloud.cn/c0/6f/c06f2e9113d86b79e976ca8b009d5422_566x386.jpg) ### **五、總結** 本節課主要講了在有Noise的情況下，即數據集按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布，那么VC Dimension仍然成立，機器學習算法推導仍然有效。機器學習cost function常用的Error有0/1 error和squared error兩類。實際問題中，對false accept和false reject應該選擇不同的權重。 **_注明：_** 文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程。