<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 5 -- Kernel Logistic Regression 上節課我們主要介紹了Soft-Margin SVM,即如果允許有分類錯誤的點存在,那么在原來的Hard-Margin SVM中添加新的懲罰因子C,修正原來的公式,得到新的![](https://img.kancloud.cn/96/42/964237caf2be6185a33aa601075d68fb_19x11.jpg)值。最終的到的![](https://img.kancloud.cn/96/42/964237caf2be6185a33aa601075d68fb_19x11.jpg)有個上界,上界就是C。Soft-Margin SVM權衡了large-margin和error point之前的關系,目的是在盡可能犯更少錯誤的前提下,得到最大分類邊界。本節課將把Soft-Margin SVM和我們之前介紹的Logistic Regression聯系起來,研究如何使用kernel技巧來解決更多的問題。 ### **Soft-Margin SVM as Regularized Model** 先復習一下我們已經介紹過的內容,我們最早開始講了Hard-Margin Primal的數學表達式,然后推導了Hard-Margin Dual形式。后來,為了允許有錯誤點的存在(或者noise),也為了避免模型過于復雜化,造成過擬合,我們建立了Soft-Margin Primal的數學表達式,并引入了新的參數C作為權衡因子,然后也推導了其Soft-Margin Dual形式。因為Soft-Margin Dual SVM更加靈活、便于調整參數,所以在實際應用中,使用Soft-Margin Dual SVM來解決分類問題的情況更多一些。 ![這里寫圖片描述](https://img.kancloud.cn/e9/2d/e92dd7074b9b2ee604e04e5865a6bca4_563x297.jpg) Soft-Margin Dual SVM有兩個應用非常廣泛的工具包,分別是Libsvm和Liblinear。 Libsvm和Liblinear都是國立臺灣大學的Chih-Jen Lin博士開發的,Chih-Jen Lin的個人網站為:[Welcome to Chih-Jen Lin’s Home Page](http://www.csie.ntu.edu.tw/~cjlin/index.html) 下面我們再來回顧一下Soft-Margin SVM的主要內容。我們的出發點是用![](https://img.kancloud.cn/0d/25/0d257e86e15e68e2fb04463117382289_16x16.jpg)來表示margin violation,即犯錯值的大小,沒有犯錯對應的![](https://img.kancloud.cn/aa/48/aa48961fb3e05ae5f97876aab6d96c14_50x16.jpg)。然后將有條件問題轉化為對偶dual形式,使用QP來得到最佳化的解。 從另外一個角度來看,![](https://img.kancloud.cn/0d/25/0d257e86e15e68e2fb04463117382289_16x16.jpg)描述的是點![](https://img.kancloud.cn/9d/1a/9d1a5d7c1e5b2f5533cedbe4eecb4fbe_56x18.jpg) 距離![](https://img.kancloud.cn/e3/38/e338226fa144adc373be876bedbf09cd_133x20.jpg)的邊界有多遠。第一種情況是violating margin,即不滿足![](https://img.kancloud.cn/1e/d0/1ed09660e5a3a86a823b4ea9de999b55_134x20.jpg)。那么![](https://img.kancloud.cn/0d/25/0d257e86e15e68e2fb04463117382289_16x16.jpg)可表示為:![](https://img.kancloud.cn/21/c8/21c88dfa0bb17afaa0c9b25c0bd50679_206x20.jpg)。第二種情況是not violating margin,即點![](https://img.kancloud.cn/9d/1a/9d1a5d7c1e5b2f5533cedbe4eecb4fbe_56x18.jpg) 在邊界之外,滿足![](https://img.kancloud.cn/1e/d0/1ed09660e5a3a86a823b4ea9de999b55_134x20.jpg)的條件,此時![](https://img.kancloud.cn/aa/48/aa48961fb3e05ae5f97876aab6d96c14_50x16.jpg)。我們可以將兩種情況整合到一個表達式中,對任意點: ![](https://img.kancloud.cn/bf/02/bf02f58c5c4a4c15693ddc532ecec4b7_238x20.jpg) 上式表明,如果有voilating margin,則![](https://img.kancloud.cn/02/b5/02b59d7abfc643410d697d9cf51591b8_165x20.jpg),![](https://img.kancloud.cn/c9/7e/c97e19da4b3ccfac119e3abe04817602_173x20.jpg);如果not violating margin,則![](https://img.kancloud.cn/57/75/5775408e0833979dbf990ad6ee341c84_165x20.jpg),![](https://img.kancloud.cn/aa/48/aa48961fb3e05ae5f97876aab6d96c14_50x16.jpg)。整合之后,我們可以把Soft-Margin SVM的最小化問題寫成如下形式: ![](https://img.kancloud.cn/96/53/96531a266e5b247adcc06d1455943eda_314x54.jpg) 經過這種轉換之后,表征犯錯誤值大小的變量![](https://img.kancloud.cn/0d/25/0d257e86e15e68e2fb04463117382289_16x16.jpg)就被消去了,轉而由一個max操作代替。 ![這里寫圖片描述](https://img.kancloud.cn/9d/f4/9df4a14ecf450e91015561daf6c4d7ca_588x374.jpg) 為什么要將把Soft-Margin SVM轉換為這種unconstrained form呢?我們再來看一下轉換后的形式,其中包含兩項,第一項是w的內積,第二項關于y和w,b,z的表達式,似乎有點像一種錯誤估計![](https://img.kancloud.cn/d4/a4/d4a4c9bc29e42c640420fb9aefcb096f_25x13.jpg),則類似這樣的形式: ![](https://img.kancloud.cn/62/b6/62b6621ab2640634c795c33837300144_181x37.jpg) 看到這樣的形式我們應該很熟悉,因為之前介紹的L2 Regularization中最優化問題的表達式跟這個是類似的: ![](https://img.kancloud.cn/19/59/19598d927d49b0cbe8fbedee6aaef529_194x37.jpg) ![這里寫圖片描述](https://img.kancloud.cn/73/c0/73c06185f1c49a51aba9250eec808a1e_583x242.jpg) 這里提一下,既然unconstrained form SVM與L2 Regularization的形式是一致的,而且L2 Regularization的解法我們之前也介紹過,那么為什么不直接利用這種方法來解決unconstrained form SVM的問題呢?有兩個原因。一個是這種無條件的最優化問題無法通過QP解決,即對偶推導和kernel都無法使用;另一個是這種形式中包含的max()項可能造成函數并不是處處可導,這種情況難以用微分方法解決。 我們在第一節課中就介紹過Hard-Margin SVM與Regularization Model是有關系的。Regularization的目標是最小化![](https://img.kancloud.cn/1a/7b/1a7b854be0e1a2c00757595948b96a68_25x15.jpg),條件是![](https://img.kancloud.cn/9f/23/9f23c7d811876d26cb3739761398ff31_75x19.jpg),而Hard-Margin SVM的目標是最小化![](https://img.kancloud.cn/e5/d0/e5d085ef2bc7dc30c7a6aae8393e47d4_37x16.jpg),條件是![](https://img.kancloud.cn/ee/11/ee1179c7ba76c387ed2d14d1f656f2c9_60x15.jpg),即它們的最小化目標和限制條件是相互對調的。對于L2 Regularization來說,條件和最優化問題結合起來,整體形式寫成: ![](https://img.kancloud.cn/cb/8a/cb8a875b162833c343071c0ac2fbac1e_102x37.jpg) 而對于Soft-Margin SVM來說,條件和最優化問題結合起來,整體形式寫成: ![](https://img.kancloud.cn/30/da/30da5ecb7b678a63f6fc70703d7c0230_125x37.jpg) ![這里寫圖片描述](https://img.kancloud.cn/b9/eb/b9ebc107ebef68e882c7a54f1d82e72f_578x138.jpg) 通過對比,我們發現L2 Regularization和Soft-Margin SVM的形式是相同的,兩個式子分別包含了參數![](https://img.kancloud.cn/99/d3/99d394e7d0b74248114405067e0ffd51_10x12.jpg)和C。Soft-Margin SVM中的large margin對應著L2 Regularization中的short w,也就是都讓hyperplanes更簡單一些。我們使用特別的![](https://img.kancloud.cn/d4/a4/d4a4c9bc29e42c640420fb9aefcb096f_25x13.jpg)來代表可以容忍犯錯誤的程度,即soft margin。L2 Regularization中的![](https://img.kancloud.cn/99/d3/99d394e7d0b74248114405067e0ffd51_10x12.jpg)和Soft-Margin SVM中的C也是相互對應的,![](https://img.kancloud.cn/99/d3/99d394e7d0b74248114405067e0ffd51_10x12.jpg)越大,w會越小,Regularization的程度就越大;C越小,![](https://img.kancloud.cn/b7/bf/b7bf061515c8aa0551ec0d8c3e01fe58_25x20.jpg)會越大,相應的margin就越大。所以說增大C,或者減小![](https://img.kancloud.cn/99/d3/99d394e7d0b74248114405067e0ffd51_10x12.jpg),效果是一致的,Large-Margin等同于Regularization,都起到了防止過擬合的作用。 ![這里寫圖片描述](https://img.kancloud.cn/0f/2c/0f2c52496d319506fa0b6281265feabe_579x113.jpg) 建立了Regularization和Soft-Margin SVM的關系,接下來我們將嘗試看看是否能把SVM作為一個regularized的模型進行擴展,來解決其它一些問題。 ### **SVM versus Logistic Regression** 上一小節,我們已經把Soft-Margin SVM轉換成無條件的形式: ![這里寫圖片描述](https://img.kancloud.cn/51/6c/516c3bc4494cbeda9420f6a8eda5ea16_572x63.jpg) 上式中第二項的![](https://img.kancloud.cn/3c/2e/3c2eb812d7dea385ee80cde01a8310fc_198x20.jpg)倍設置為![](https://img.kancloud.cn/d4/a4/d4a4c9bc29e42c640420fb9aefcb096f_25x13.jpg)。下面我們來看看![](https://img.kancloud.cn/d4/a4/d4a4c9bc29e42c640420fb9aefcb096f_25x13.jpg)與之前再二元分類中介紹過的![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)有什么關系。 對于![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg),它的linear score ![](https://img.kancloud.cn/f7/50/f750c30765b7b57c00523c7228726774_103x19.jpg),當![](https://img.kancloud.cn/9c/bc/9cbc1503e74e4117d02bc0594c3c093d_51x16.jpg)時,![](https://img.kancloud.cn/04/63/04633e410c2cba66b9eeb8491d8b0721_78x18.jpg);當![](https://img.kancloud.cn/4f/5f/4f5f1ee5577d80f5fde15373087b9590_51x16.jpg)時,![](https://img.kancloud.cn/e7/02/e702cd1077901c02dc6e66e1bc43c3d5_77x18.jpg),呈階梯狀,如下圖所示。而對于![](https://img.kancloud.cn/d4/a4/d4a4c9bc29e42c640420fb9aefcb096f_25x13.jpg),當![](https://img.kancloud.cn/9c/bc/9cbc1503e74e4117d02bc0594c3c093d_51x16.jpg)時,![](https://img.kancloud.cn/04/63/04633e410c2cba66b9eeb8491d8b0721_78x18.jpg);當![](https://img.kancloud.cn/4f/5f/4f5f1ee5577d80f5fde15373087b9590_51x16.jpg)時,![](https://img.kancloud.cn/ba/0d/ba0daefef1f402ee4ab282161eec84ca_118x18.jpg),呈折線狀,如下圖所示,通常把![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)稱為hinge error measure。比較兩條error曲線,我們發現![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)始終在![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)的上面,則![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)可作為![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)的上界。所以,可以使用![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)來代替![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg),解決二元線性分類問題,而且![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)是一個凸函數,使它在最佳化問題中有更好的性質。 ![這里寫圖片描述](https://img.kancloud.cn/4c/a9/4ca9dfc2dee28bbee04fbff50d0fc889_587x257.jpg) 緊接著,我們再來看一下logistic regression中的error function。邏輯回歸中,![](https://img.kancloud.cn/06/63/06637b53f3035af4e2a68492b798b54c_215x18.jpg),當ys=0時,![](https://img.kancloud.cn/13/27/132778ad0ed4c9ea7edd48682613172a_76x15.jpg)。它的err曲線如下所示。 ![這里寫圖片描述](https://img.kancloud.cn/f2/b1/f2b1de60fa7956d981675005f5e672ab_589x285.jpg) 很明顯,![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)也是![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)的上界,而![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)與![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)也是比較相近的。因為當ys趨向正無窮大的時候,![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)和![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)都趨向于零;當ys趨向負無窮大的時候,![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)和![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg)都趨向于正無窮大。正因為二者的這種相似性,我們可以把SVM看成是L2-regularized logistic regression。 總結一下,我們已經介紹過幾種Binary Classification的Linear Models,包括PLA,Logistic Regression和Soft-Margin SVM。PLA是相對簡單的一個模型,對應的是![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg),通過不斷修正錯誤的點來獲得最佳分類線。它的優點是簡單快速,缺點是只對線性可分的情況有用,線性不可分的情況需要用到pocket算法。Logistic Regression對應的是![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg),通常使用GD/SGD算法求解最佳分類線。它的優點是凸函數![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)便于最優化求解,而且有regularization作為避免過擬合的保證;缺點是![](https://img.kancloud.cn/46/5b/465b6a3939c2ba4b60fceb7a9d2025e4_43x11.jpg)作為![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)的上界,當ys很小(負值)時,上界變得更寬松,不利于最優化求解。Soft-Margin SVM對應的是![](https://img.kancloud.cn/c9/42/c94209330d57899e986ea129aa6fce84_50x16.jpg),通常使用QP求解最佳分類線。它的優點和Logistic Regression一樣,凸優化問題計算簡單而且分類線比較“粗壯”一些;缺點也和Logistic Regression一樣,當ys很小(負值)時,上界變得過于寬松。其實,Logistic Regression和Soft-Margin SVM都是在最佳化![](https://img.kancloud.cn/78/f5/78f5face8df8bf2172ec9e235e239e83_43x14.jpg)的上界而已。 ![這里寫圖片描述](https://img.kancloud.cn/b5/01/b501f44dbeaeb59bdef0319dfaba4aa2_585x316.jpg) 至此,可以看出,求解regularized logistic regression的問題等同于求解soft-margin SVM的問題。反過來,如果我們求解了一個soft-margin SVM的問題,那這個解能否直接為regularized logistic regression所用?來預測結果是正類的幾率是多少,就像regularized logistic regression做的一樣。我們下一小節將來解答這個問題。 ### **SVM for Soft Binary Classification** 接下來,我們探討如何將SVM的結果應用在Soft Binary Classification中,得到是正類的概率值。 第一種簡單的方法是先得到SVM的解![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg),然后直接代入到logistic regression中,得到![](https://img.kancloud.cn/1b/9b/1b9b847f1109da679b0e7b4424be1463_182x21.jpg)。這種方法直接使用了SVM和logistic regression的相似性,一般情況下表現還不錯。但是,這種形式過于簡單,與logistic regression的關聯不大,沒有使用到logistic regression中好的性質和方法。 第二種簡單的方法是同樣先得到SVM的解![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg),然后把![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg)作為logistic regression的初始值,再進行迭代訓練修正,速度比較快,最后,將得到的b和w代入到g(x)中。這種做法有點顯得多此一舉,因為并沒有比直接使用logistic regression快捷多少。 ![這里寫圖片描述](https://img.kancloud.cn/31/c6/31c6b58ca51ed9379a1c8cb80b851767_561x273.jpg) 這兩種方法都沒有融合SVM和logistic regression各自的優勢,下面構造一個模型,融合了二者的優勢。構造的模型g(x)表達式為: ![](https://img.kancloud.cn/15/ed/15ed4d769ff21f537a0080e25550b1ec_286x21.jpg) 與上述第一種簡單方法不同,我們額外增加了放縮因子A和平移因子B。首先利用SVM的解![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg)來構造這個模型,放縮因子A和平移因子B是待定系數。然后再用通用的logistic regression優化算法,通過迭代優化,得到最終的A和B。一般來說,如果![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg)較為合理的話,滿足A&gt;0且![](https://img.kancloud.cn/1e/e8/1ee8842d3a7b76c0d11dd82fb71f91bf_48x12.jpg)。 ![這里寫圖片描述](https://img.kancloud.cn/c2/b4/c2b4d039d93aa0f26e4f9c7bad08720e_579x175.jpg) 那么,新的logistic regression表達式為: ![這里寫圖片描述](https://img.kancloud.cn/0c/f3/0cf346c3051016ca877ee00f7816141a_577x125.jpg) 這個表達式看上去很復雜,其實其中的![](https://img.kancloud.cn/fa/22/fa220017aac47ecbde8042158d9a93d5_90x18.jpg)已經在SVM中解出來了,實際上的未知參數只有A和B兩個。歸納一下,這種Probabilistic SVM的做法分為三個步驟: ![這里寫圖片描述](https://img.kancloud.cn/1c/50/1c50798ce80ae50f2decd010b02e3c1b_580x182.jpg) 這種soft binary classifier方法得到的結果跟直接使用SVM classifier得到的結果可能不一樣,這是因為我們引入了系數A和B。一般來說,soft binary classifier效果更好。至于logistic regression的解法,可以選擇GD、SGD等等。 ### **Kernel Logistic Regression** 上一小節我們介紹的是通過kernel SVM在z空間中求得logistic regression的近似解。如果我們希望直接在z空間中直接求解logistic regression,通過引入kernel,來解決最優化問題,又該怎么做呢?SVM中使用kernel,轉化為QP問題,進行求解,但是logistic regression卻不是個QP問題,看似好像沒有辦法利用kernel來解決。 我們先來看看之前介紹的kernel trick為什么會work,kernel trick就是把z空間的內積轉換到x空間中比較容易計算的函數。如果w可以表示為z的線性組合,即![](https://img.kancloud.cn/1a/4f/1a4f3cdae6a705a13dd8d6c17fec4261_108x54.jpg)的形式,那么乘積項![](https://img.kancloud.cn/e9/c6/e9c654ad865e51a3f3b8f170c5b6e3d4_272x54.jpg),即其中包含了z的內積。也就是w可以表示為z的線性組合是kernel trick可以work的關鍵。 我們之前介紹過SVM、PLA包擴logistic regression都可以表示成z的線性組合,這也提供了一種可能,就是將kernel應用到這些問題中去,簡化z空間的計算難度。 ![這里寫圖片描述](https://img.kancloud.cn/7b/25/7b250480637200a3661afc09ae66b485_584x176.jpg) 有這樣一個理論,對于L2-regularized linear model,如果它的最小化問題形式為如下的話,那么最優解![](https://img.kancloud.cn/1a/4f/1a4f3cdae6a705a13dd8d6c17fec4261_108x54.jpg)。 ![這里寫圖片描述](https://img.kancloud.cn/0b/d7/0bd734b1c8c7dd371287b95127329de4_579x136.jpg) 下面給出簡單的證明,假如最優解![](https://img.kancloud.cn/3d/6e/3d6ea39b6eeebe0fb0655bb6ff010f60_110x17.jpg)。其中,![](https://img.kancloud.cn/7d/b3/7db3b2f95e0a689ef19d99bbc9bc5848_20x14.jpg)和![](https://img.kancloud.cn/75/ef/75ef640a4242528f65ca9cad69bf21bf_23x11.jpg)分別是平行z空間和垂直z空間的部分。我們需要證明的是![](https://img.kancloud.cn/d6/df/d6df1f8c55118b3d1f5110d9d8d4d9af_57x15.jpg)。利用反證法,假如![](https://img.kancloud.cn/26/56/26567d63a70959ce5d0ae51622f57ddb_57x18.jpg),考慮![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)與![](https://img.kancloud.cn/7d/b3/7db3b2f95e0a689ef19d99bbc9bc5848_20x14.jpg)的比較。第一步先比較最小化問題的第二項:![](https://img.kancloud.cn/d7/c2/d7c27392f10afb1281705efd048e6086_414x24.jpg),即第二項是相等的。然后第二步比較第一項:![](https://img.kancloud.cn/81/7b/817b620364b70e8f703505da7fdb8bc9_326x24.jpg),即![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)對應的L2-regularized linear model值要比![](https://img.kancloud.cn/7d/b3/7db3b2f95e0a689ef19d99bbc9bc5848_20x14.jpg)大,這就說明![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)并不是最優解,從而證明![](https://img.kancloud.cn/75/ef/75ef640a4242528f65ca9cad69bf21bf_23x11.jpg)必然等于零,即![](https://img.kancloud.cn/1a/4f/1a4f3cdae6a705a13dd8d6c17fec4261_108x54.jpg)一定成立,![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)一定可以寫成z的線性組合形式。 ![這里寫圖片描述](https://img.kancloud.cn/42/a7/42a7c6dff07add39093c505fa3ba231a_581x175.jpg) 經過證明和分析,我們得到了結論是任何L2-regularized linear model都可以使用kernel來解決。 現在,我們來看看如何把kernel應用在L2-regularized logistic regression上。上面我們已經證明了![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)一定可以寫成z的線性組合形式,即![](https://img.kancloud.cn/1a/4f/1a4f3cdae6a705a13dd8d6c17fec4261_108x54.jpg)。那么我們就無需一定求出![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg),而只要求出其中的![](https://img.kancloud.cn/ed/bb/edbbfa3694db051722568362e9ce30b7_18x16.jpg)就行了。怎么求呢?直接將![](https://img.kancloud.cn/1a/4f/1a4f3cdae6a705a13dd8d6c17fec4261_108x54.jpg)代入到L2-regularized logistic regression最小化問題中,得到: ![這里寫圖片描述](https://img.kancloud.cn/bb/09/bb09112eea2f3cf0259d3e309a644cda_581x154.jpg) ![這里寫圖片描述](https://img.kancloud.cn/24/8c/248c279e692e0a9e8c0bb5ae9df5fd1c_580x139.jpg) 上式中,所有的w項都換成![](https://img.kancloud.cn/ed/bb/edbbfa3694db051722568362e9ce30b7_18x16.jpg)來表示了,變成了沒有條件限制的最優化問題。我們把這種問題稱為kernel logistic regression,即引入kernel,將求w的問題轉換為求![](https://img.kancloud.cn/ed/bb/edbbfa3694db051722568362e9ce30b7_18x16.jpg)的問題。 從另外一個角度來看Kernel Logistic Regression(KLR): ![這里寫圖片描述](https://img.kancloud.cn/35/04/350477b89590093f2326dbd886bcbb06_580x68.jpg) 上式中log項里的![](https://img.kancloud.cn/48/da/48da0f86b175df2adbca17d214d50166_132x54.jpg)可以看成是變量![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)和![](https://img.kancloud.cn/92/02/92026037275b52cf4f3aa9c187ddc0a8_79x18.jpg)的內積。上式第一項中的![](https://img.kancloud.cn/a9/8a/a98a5a3c42e9b21b1b54ea0ac969aaed_179x54.jpg)可以看成是關于![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)的正則化項![](https://img.kancloud.cn/0e/b4/0eb42bbaf1cd6b96f480c015af315696_49x20.jpg)。所以,KLR是![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)的線性組合,其中包含了kernel內積項和kernel regularizer。這與SVM是相似的形式。 但值得一提的是,KLR中的![](https://img.kancloud.cn/ed/bb/edbbfa3694db051722568362e9ce30b7_18x16.jpg)與SVM中的![](https://img.kancloud.cn/96/42/964237caf2be6185a33aa601075d68fb_19x11.jpg)是有區別的。SVM中的![](https://img.kancloud.cn/96/42/964237caf2be6185a33aa601075d68fb_19x11.jpg)大部分為零,SV的個數通常是比較少的;而KLR中的![](https://img.kancloud.cn/ed/bb/edbbfa3694db051722568362e9ce30b7_18x16.jpg)通常都是非零值。 ### **總結** 本節課主要介紹了Kernel Logistic Regression。首先把Soft-Margin SVM解釋成Regularized Model,建立二者之間的聯系,其實Soft-Margin SVM就是一個L2-regularization,對應著hinge error messure。然后利用它們之間的相似性,討論了如何利用SVM的解來得到Soft Binary Classification。方法是先得到SVM的解,再在logistic regression中引入參數A和B,迭代訓練,得到最佳解。最后介紹了Kernel Logistic Regression,證明L2-regularized logistic regression中,最佳解![](https://img.kancloud.cn/f9/86/f986aaf25afadf31e3d5719928a0f301_19x11.jpg)一定可以寫成z的線性組合形式,從而可以將kernel引入logistic regression中,使用kernel思想在z空間直接求解L2-regularized logistic regression問題。 **_注明:_** 文章中所有的圖片均來自臺灣大學林軒田《機器學習技法》課程
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看