支持向量機 · 《機器學習實戰》筆記

該節的內容是支持向量機(SVM, support vectormachine)。這里首先要推薦一下July的SVM三層境界([http://blog.csdn.net/v_july_v/article/details/7624837](http://blog.csdn.net/v_july_v/article/details/7624837))由于《機器學習實戰》關于SVM一章的內容很多，本節先簡單歸納一下關于支持向量機的基礎。 **一.概念描述** 支持向量機，就是通過最大化支持向量到分類超平面之間的分類間隔。分類超平面就是我們想要得到的決策曲面；支持向量就是離分類超平面最近的點，而間隔即為支持向量到分類超平面的距離。核函數：這是一種將SVM擴展到更多數據集的方式，一般的說法是，核函數的作用是將數據從低維空間映射到高維空間，使得線性不可分變得線性可分。這句話的意思用個簡單的例子來說明：有：`a1 * x1^2 + a2 * x2^2 + a3 * x1x2 = 0` 此時令：`z1=x1^2,`?`z2=x2^2`,?`z3=x1x2` 這樣就由原來的二維映射到三維空間了，而此時問題變成線性可分了。我們知道，在求解SVM時，**所有的運算都可以寫成內積的形式**，但是在高維空間中計算內積往往比較復雜，有時可能出現維數災難，此時我們就可以把內急運算符換成核函數，從而解決這個問題。設非線性映射`Φ(x)`將全部原始數據?`x`?變換到另一個特征空間，在訓練SVM時，需要計算兩個樣本間的內積，兩個樣本`xi`和`xj`對應的高維空間的內積為：`<Φ(xi), Φ(xj)>`，該內積可以通過一個核函數`K(xi, xj)`計算得到。而不用知道這個樣本映射Φ(x)是怎樣。徑向基函數是SVM中常用的一個核函數： ![](https://box.kancloud.cn/2016-01-05_568b383834d96.jpg) 徑向基函數是一個采用向量作為自變量的函數，能夠基于向量距離運算輸出一個標量。 **二.書中提到的幾點** * SVM可能是現成最好的分類器，這里“現成”指的是分類器不加修改即可直接使用。幾乎所有的分類問題都可以使用SVM，但是，SVM本身是一個二值分類器，對于多類分類問題，如果需要使用SVM，則需要對代碼做一些修改。 * SVM的實現方法有很多，最常用的就是序列最小最優化算法(SMO，Sequential Minimal Optimization) * 支持向量機是一種分類器。之所以稱為“機”是因為它會產生一個二值決策結果，即它是一種決策“機”。