介紹 · TensorFlow 機器學習秘籍中文第二版

# 介紹最近鄰方法植根于基于距離的概念思想。我們認為我們的訓練設定了一個模型，并根據它們與訓練集中的點的接近程度對新點進行預測。一種簡單的方法是使預測類與最接近的訓練數據點類相同。但由于大多數數據集包含一定程度的噪聲，因此更常見的方法是采用一組`k-`最近鄰居的加權平均值。該方法稱為 k-最近鄰居（k-NN）。給定具有相應目標（`y[1], y[2]....y[n]`）的訓練數據集（`x[1],x[2].....x[n]`），我們可以通過查看一組最近鄰居來對點`z`進行預測。實際的預測方法取決于我們是進行回歸（連續`y[i]`）還是分類（離散`y[i]`）。對于離散分類目標，可以通過最大投票方案給出預測，通過到預測點的距離加權： ![](https://img.kancloud.cn/5e/9a/5e9af82335faa75ce0f890b8b9fa28ad_1940x570.png) 我們這里的預測`f(z)`是所有類別`j`的最大加權值，其中從預測點到訓練點的加權距離`i`由`φ(d[ij])`給出。如果點`i`在類`j.`中，`l[ij]`只是一個指示器函數如果點`i`在類`j`中，則指示器函數取值 1，如果不是，則取值 0 另外，`k`是要考慮的最近點數。對于連續回歸目標，預測由最接近預測的所有`k`點的加權平均值給出： ![](https://img.kancloud.cn/eb/76/eb76561ebc33d65cb49aa5f688cc1782_1500x570.png) 很明顯，預測很大程度上取決于距離度量的選擇`d`。距離度量的常用規范是 L1 和 L2 距離，如下所示： * ![](https://img.kancloud.cn/47/78/4778160dabfae663024ed797af973e7f_4320x220.png) * ![](https://img.kancloud.cn/eb/14/eb140b61f8ec5a2fa2a77b4cc6924ba5_4850x370.png) 我們可以選擇許多不同規格的距離指標。在本章中，我們將探討 L1 和 L2 指標，以及編輯和文本距離。我們還必須選擇如何加權距離。對距離進行加權的直接方法是距離本身。遠離我們預測的點應該比較近點的影響小。最常見的權重方法是通過距離的歸一化逆。我們將在下一個秘籍中實現此方法。 > 注意，k-NN 是一種聚合方法。對于回歸，我們正在執行鄰居的加權平均。因此，預測將不那么極端，并且與實際目標相比變化較小。這種影響的大小將由算法中鄰居的數量`k`決定。