<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                企業??AI智能體構建引擎,智能編排和調試,一鍵部署,支持知識庫和私有化部署方案 廣告
                # 8 -- Noise and Error 上一節課,我們主要介紹了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的,且有足夠多N的資料,同時能夠找到一個hypothesis使它的![](https://img.kancloud.cn/c9/38/c938ce5f2a3f7dfb47848be0e1a75bfc_54x15.jpg),那么就能說明機器學習是可行的。本節課主要講了數據集有Noise的情況下,是否能夠進行機器學習,并且介紹了假設空間H下演算法A的Error估計。 ### **一、Noise and Probablistic target** 上節課推導VC Dimension的數據集是在沒有Noise的情況下,本節課討論如果數據集本身存在Noise,那VC Dimension的推導是否還成立呢? 首先,Data Sets的Noise一般有三種情況: * **由于人為因素,正類被誤分為負類,或者負類被誤分為正類;** * **同樣特征的樣本被模型分為不同的類;** * **樣本的特征被錯誤記錄和使用。** ![這里寫圖片描述](https://img.kancloud.cn/8b/87/8b8710e644a4b18a7beee624614f7304_566x364.jpg) 之前的數據集是確定的,即沒有Noise的,我們稱之為Deterministic。現在有Noise了,也就是說在某點處不再是確定分布,而是概率分布了,即對每個(x,y)出現的概率是![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)。 因為Noise的存在,比如在x點,有0.7的概率y=1,有0.3的概率y=0,即y是按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)分布的。數學上可以證明如果數據集按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布且是iid的,那么以前證明機器可以學習的方法依然奏效,VC Dimension有限即可推斷![](https://img.kancloud.cn/d7/ea/d7eaaebc3fc3d622d22ccb9631da8925_30x12.jpg)和![](https://img.kancloud.cn/03/bc/03bc2e6a3c1afb05f5d949aceaee097a_36x11.jpg)是近似的。 ![這里寫圖片描述](https://img.kancloud.cn/a5/12/a512edee3a7ce4a994ab207f39cbac90_566x396.jpg) ![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)稱之為目標分布(Target Distribution)。它實際上告訴我們最好的選擇是什么,同時伴隨著多少noise。其實,沒有noise的數據仍然可以看成“特殊”的![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布,即概率僅是1和0.對于以前確定的數據集: ![這里寫圖片描述](https://img.kancloud.cn/ea/99/ea997e5734f021f0050f33bd70688d40_566x359.jpg) 在引入noise的情況下,新的學習流程圖如下所示: ![這里寫圖片描述](https://img.kancloud.cn/5d/55/5d55588564dae34c7fe450f4c552fc19_566x311.jpg) ### **二、ERROR Measure** 機器學習需要考慮的問題是找出的矩g與目標函數f有多相近,我們一直使用![](https://img.kancloud.cn/dd/0f/dd0f9962b91f91dfa644b8d9c6d853d2_29x14.jpg)進行誤差的估計,那一般的錯誤測量有哪些形式呢? 我們介紹的矩g對錯誤的衡量有三個特性: * **out-of-sample:樣本外的未知數據** * **pointwise:對每個數據點x進行測試** * **classification:看prediction與target是否一致,classification error通常稱為0/1 error** ![這里寫圖片描述](https://img.kancloud.cn/9b/22/9b229100e00ba40d4d5847fc46f4dd72_566x202.jpg) PointWise error實際上就是對數據集的每個點計算錯誤并計算平均,![](https://img.kancloud.cn/d7/ea/d7eaaebc3fc3d622d22ccb9631da8925_30x12.jpg)和![](https://img.kancloud.cn/03/bc/03bc2e6a3c1afb05f5d949aceaee097a_36x11.jpg)的pointwise error的表達式為: ![這里寫圖片描述](https://img.kancloud.cn/9d/9e/9d9e42a7fa6d0094bc753f971e50c1fa_562x122.jpg) pointwise error是機器學習中最常用也是最簡單的一種錯誤衡量方式,未來課程中,我們主要考慮這種方式。pointwise error一般可以分成兩類:0/1 error和squared error。0/1 error通常用在分類(classification)問題上,而squared error通常用在回歸(regression)問題上。 ![這里寫圖片描述](https://img.kancloud.cn/cb/7c/cb7c115d1d479d650c4261009f3a5c0f_563x131.jpg) Ideal Mini-Target由![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)和err共同決定,0/1 error和squared error的Ideal Mini-Target計算方法不一樣。例如下面這個例子,分別用0/1 error和squared error來估計最理想的mini-target是多少。0/1 error中的mini-target是取P(y|x)最大的那個類,而squared error中的mini-target是取所有類的加權平方和。 ![這里寫圖片描述](https://img.kancloud.cn/8e/e5/8ee5680d696f0e4a0c9c7d2d5718057f_566x399.jpg) 有了錯誤衡量,就會知道當前的矩g是好還是不好,并會讓演算法不斷修正,得到更好的矩g,從而使得g與目標函數更接近。所以,引入error measure后,學習流程圖如下所示: ![這里寫圖片描述](https://img.kancloud.cn/5c/6c/5c6c8e6b9b696d6371c4e339c8d4fcc3_566x278.jpg) ### **三、Algorithmic Error Measure** Error有兩種:false accept和false reject。false accept意思是誤把負類當成正類,false reject是誤把正類當成負類。 根據不同的機器學習問題,false accept和false reject應該有不同的權重,這根實際情況是符合的,比如是超市優惠,那么false reject應該設的大一些;如果是安保系統,那么false accept應該設的大一些。 ![這里寫圖片描述](https://img.kancloud.cn/67/cd/67cdf01aa1225312ae1abdf6f8eddc68_566x123.jpg) 機器學習演算法A的cost function error估計有多種方法,真實的err一般難以計算,常用的方法可以采用plausible或者friendly,根據具體情況而定。 ![這里寫圖片描述](https://img.kancloud.cn/ac/69/ac6914d4df2a5e761dac746c20fad1bb_566x187.jpg) 引入algorithm error measure之后,學習流程圖如下: ![這里寫圖片描述](https://img.kancloud.cn/41/a3/41a30f6ce3a098149e4b71fff3ad4766_563x274.jpg) ### **四、Weighted Classification** 實際上,機器學習的Cost Function即來自于這些error,也就是算法里面的迭代的目標函數,通過優化使得Error(Ein)不斷變小。 cost function中,false accept和false reject賦予不同的權重,在演算法中體現。對不同權重的錯誤懲罰,可以選用virtual copying的方法。 ![這里寫圖片描述](https://img.kancloud.cn/41/16/41162e947b07c7588d613b4c3d788ed1_566x404.jpg) ![這里寫圖片描述](https://img.kancloud.cn/c0/6f/c06f2e9113d86b79e976ca8b009d5422_566x386.jpg) ### **五、總結** 本節課主要講了在有Noise的情況下,即數據集按照![](https://img.kancloud.cn/59/87/59870e17b1997c94cef4ffd4162e397f_46x18.jpg)概率分布,那么VC Dimension仍然成立,機器學習算法推導仍然有效。機器學習cost function常用的Error有0/1 error和squared error兩類。實際問題中,對false accept和false reject應該選擇不同的權重。 **_注明:_** 文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看