1.3. 內核嶺回歸 · sklearn中文文檔

# 1.3. 內核嶺回歸校驗者: [@不吃曲奇的趣多多](https://github.com/apachecn/scikit-learn-doc-zh) 翻譯者: [@Counting stars](https://github.com/apachecn/scikit-learn-doc-zh) Kernel ridge regression (KRR) （內核嶺回歸）\[M2012\]\_ 由使用內核方法的 :ref:[`](#id2)ridge\_regression`（嶺回歸）（使用 l2 正則化的最小二乘法）所組成。因此，它所學習到的在空間中不同的線性函數是由不同的內核和數據所導致的。對于非線性的內核，它與原始空間中的非線性函數相對應。由 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 學習的模型的形式與支持向量回歸( `SVR` ) 是一樣的。但是他們使用不同的損失函數：內核嶺回歸（KRR）使用 squared error loss （平方誤差損失函數）而 support vector regression （支持向量回歸）（SVR）使用 ![\epsilon](https://box.kancloud.cn/3ec5a738819e1e6501032891d360ef4a_7x8.jpg)-insensitive loss ( ε-不敏感損失 )，兩者都使用 l2 regularization （l2 正則化）。與 `SVR` 相反，擬合 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 可以以 closed-form （封閉形式）完成，對于中型數據集通常更快。另一方面，學習的模型是非稀疏的，因此比 SVR 慢，在預測時間，SVR 學習了:math:epsilon > 0 的稀疏模型。下圖比較了人造數據集上的 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 和 `SVR` 的區別，它由一個正弦目標函數和每五個數據點產生一個強噪聲組成。圖中分別繪制了由 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 和 `SVR` 學習到的回歸曲線。兩者都使用網格搜索優化了 RBF 內核的 complexity/regularization （復雜性/正則化）和 bandwidth （帶寬）。它們的 learned functions （學習函數）非常相似;但是，擬合 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 大約比擬合 `SVR` 快七倍（都使用 grid-search ( 網格搜索 ) ）。然而，由于 SVR 只學習了一個稀疏模型，所以 SVR 預測 10 萬個目標值比使用 KernelRidge 快三倍以上。SVR 只使用了百分之三十的數據點做為支撐向量。 [![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_kernel_ridge_regression_0011.png](https://box.kancloud.cn/8987ad93a8aaa849300f0c95ab9e072c_566x424.jpg)](../auto_examples/plot_kernel_ridge_regression.html) 下圖顯示不同大小訓練集的 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 和 `SVR` 的 fitting （擬合）和 prediction （預測）時間。對于中型訓練集（小于 1000 個樣本），擬合 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 比 `SVR` 快; 然而，對于更大的訓練集 `SVR` 通常更好。關于預測時間，由于學習的稀疏解，`SVR` 對于所有不同大小的訓練集都比 [`KernelRidge`](generated/sklearn.kernel_ridge.KernelRidge.html#sklearn.kernel_ridge.KernelRidge "sklearn.kernel_ridge.KernelRidge") 快。注意，稀疏度和預測時間取決于 `SVR` 的參數 ![\epsilon](https://box.kancloud.cn/3ec5a738819e1e6501032891d360ef4a_7x8.jpg) 和 ![C](https://box.kancloud.cn/95378f1036b3ba9a15a5f33f8521b6f2_14x12.jpg) ; ![\epsilon = 0](https://box.kancloud.cn/1d39401db3e7c8edaefa7037c6982b26_40x12.jpg) 將對應于密集模型。 [![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_kernel_ridge_regression_0021.png](https://box.kancloud.cn/3b3e03463a3d4b032cf78ea2e98e2497_566x424.jpg)](../auto_examples/plot_kernel_ridge_regression.html) 參考: \[M2012\]“Machine Learning: A Probabilistic Perspective” Murphy, K. P. - chapter 14.4.3, pp. 492-493, The MIT Press, 2012