機器學習算法的過擬合和欠擬合 · Machine Learning Mastery 博客文章翻譯

# 機器學習算法的過擬合和欠擬合 > 原文： [https://machinelearningmastery.com/overfitting-and-underfitting-with-machine-learning-algorithms/](https://machinelearningmastery.com/overfitting-and-underfitting-with-machine-learning-algorithms/) 機器學習中表現不佳的原因是過度擬合或數據不合適。在這篇文章中，您將發現機器學習中的泛化概念以及隨之而來的過度擬合和欠擬合的問題。讓我們開始吧。 ![Overfitting and Underfitting With Machine Learning Algorithms](img/43775ef011665c4c6739d4399389477a.jpg) 使用機器學習算法進行過度擬合和欠擬合 [Ian Carroll](https://www.flickr.com/photos/iancarroll/5058330466/) 的照片，保留一些權利。 ## 近似于機器學習中的目標函數有監督的機器學習最好被理解為近似將輸入變量（X）映射到輸出變量（Y）的目標函數（f）。 Y = f（X）該表征描述了分類和預測問題的范圍以及可用于解決它們的機器算法。從訓練數據中學習目標函數的一個重要考慮因素是模型對新數據的概括性。泛化很重要，因為我們收集的數據只是一個樣本，它是不完整和嘈雜的。 ## 獲取免費算法思維導圖 ![Machine Learning Algorithms Mind Map](img/2ce1275c2a1cac30a9f4eea6edd42d61.jpg) 方便的機器學習算法思維導圖的樣本。我已經創建了一個由類型組織的60多種算法的方便思維導圖。下載，打印并使用它。 ## 機器學習的泛化在機器學習中，我們描述了從訓練數據到歸納學習的目標函數的學習。歸納是指從特定的例子中學習一般概念，這正是監督機器學習問題旨在解決的問題。這與其他方式的演繹不同，并試圖從一般規則中學習具體的概念。泛化指的是機器學習模型學習的概念在學習時對模型沒有看到的具體例子的適用程度。良好的機器學習模型的目標是從訓練數據到問題域的任何數據很好地概括。這使我們可以在未來對模型從未見過的數據做出預測。當我們談論機器學習模型如何學習和推廣到新數據時，機器學習中使用了一個術語，即過度擬合和欠擬合。過度擬合和欠擬合是導致機器學習算法表現不佳的兩個主要原因。 ## 統計擬合在統計中，擬合指的是您對目標函數的近似程度。這是用于機器學習的好術語，因為有監督的機器學習算法試圖在給定輸入變量的情況下逼近輸出變量的未知底層映射函數。統計數據通常描述擬合優度，其指的是用于估計函數的近似與目標函數的匹配程度的度量。這些方法中的一些在機器學習中是有用的（例如，計算殘差），但是這些技術中的一些假設我們知道我們正在近似的目標函數的形式，這在機器學習中不是這種情況。如果我們知道目標函數的形式，我們將直接使用它來進行預測，而不是試圖從嘈雜的訓練數據樣本中學習近似值。 ## 機器學習中的過度擬合過度擬合是指對訓練數據進行過模擬的模型。當模型學習訓練數據中的細節和噪聲時，會發生過度擬合，從而對模型在新數據上的表現產生負面影響。這意味著訓練數據中的噪聲或隨機波動被模型拾取并作為概念學習。問題是這些概念不適用于新數據，并對模型概括的能力產生負面影響。對于非參數和非線性模型，在學習目標函數時具有更大靈活性的過度擬合更有可能。因此，許多非參數機器學習算法還包括限制和約束模型學習細節的參數或技術。例如，決策樹是非參數機器學習算法，其非常靈活并且受到過度擬合訓練數據的影響。這個問題可以通過在學習樹之后修剪樹來解決，以便刪除它已經拾取的一些細節。 ## 機器學習中的不合適欠擬合指的是既不能對訓練數據建模也不能推廣到新數據的模型。欠適應機器學習模型不是合適的模型，并且將是顯而易見的，因為它將在訓練數據上具有差的表現。通常不討論欠配合，因為在給定良好的表現指標的情況下容易檢測。補救措施是繼續前進并嘗試其他機器學習算法。然而，它確實提供了與過度擬合問題的良好對比。 ## 適合機器學習理想情況下，您希望在欠擬合和過度擬合之間的最佳位置選擇模型。這是目標，但在實踐中很難做到。為了理解這個目標，我們可以在學習訓練數據時隨時查看機器學習算法的表現。我們可以繪制訓練數據的技能和我們從訓練過程中阻止的測試數據集的技能。隨著時間的推移，當算法學習時，訓練數據上模型的誤差會下降，測試數據集上的誤差也會下降。如果我們訓練時間過長，訓練數據集的表現可能會繼續下降，因為模型過度擬合并且在訓練數據集中學習不相關的細節和噪聲。同時，隨著模型的推廣能力降低，測試集的誤差再次開始上升。最佳點是在測試數據集上的錯誤開始增加之前的點，其中模型在訓練數據集和看不見的測試數據集上具有良好的技能。您可以使用自己喜歡的機器學習算法執行此實驗。這在實踐中通常不是有用的技術，因為通過使用測試數據集上的技能選擇訓練的停止點，這意味著測試集不再是“看不見的”或獨立的客觀測量。關于該數據的一些知識（許多有用的知識）已經泄漏到訓練過程中。您可以使用另外兩種技術來幫助在實踐中找到最佳點：重采樣方法和驗證數據集。 ## 如何限制過度擬合過度擬合和欠配合都會導致模型表現不佳。但到目前為止，應用機器學習中最常見的問題是過度擬合。過度擬合是一個問題，因為機器學習算法對訓練數據的評估不同于我們最關心的評估，即算法對看不見的數據的執行情況。在評估機器學習算法以限制過度擬合時，您可以使用兩種重要技術： 1. 使用重采樣技術來估計模型精度。 2. 阻止驗證數據集。最流行的重采樣技術是k折交叉驗證。它允許您在不同的訓練數據子集上訓練和測試模型k次，并建立機器學習模型在看不見的數據上的表現估計。驗證數據集只是訓練數據的一個子集，您可以從機器學習算法中保留，直到項目結束。在訓練數據集上選擇并調整機器學習算法后，您可以評估驗證數據集上的學習模型，以最終客觀地了解模型對未見數據的執行情況。使用交叉驗證是應用機器學習的黃金標準，用于估計未見數據的模型精度。如果您有數據，使用驗證數據集也是一種很好的做法。 ## 進一步閱讀如果您希望了解有關機器學習中的泛化，過度擬合和欠擬合的更多信息，本節列出了一些推薦的資源。 * 維基百科上的[泛化](https://en.wikipedia.org/wiki/Generalization) * [在維基百科上過度擬合](https://en.wikipedia.org/wiki/Overfitting) * 維基百科上的[歸納推理](https://en.wikipedia.org/wiki/Inductive_reasoning) * [維基百科上的歸納問題](https://en.wikipedia.org/wiki/Problem_of_induction) * 維基百科上的[適合度](https://en.wikipedia.org/wiki/Goodness_of_fit) * [過度擬合的直觀解釋是什么？ Quora上的](https://www.quora.com/What-is-an-intuitive-explanation-of-overfitting) ## 摘要在這篇文章中，您發現機器學習是通過歸納法解決問題。您了解到，泛化是對模型學習的概念應用于新數據的程度的描述。最后，您了解了過度擬合和欠擬合的機器學習中泛化的術語： * **過度擬合**：訓練數據表現良好，對其他數據的遺傳性較差。 * **欠擬合**：訓練數據表現不佳，對其他數據的概括性差您對過度擬合，不合適或這篇文章有任何疑問嗎？發表評論并提出您的問題，我會盡力回答。