過度擬合的簡單直覺，或者為什么測試訓練數據是一個壞主意 · Machine Learning Mastery 博客文章翻譯

# 過度擬合的簡單直覺，或者為什么測試訓練數據是一個壞主意 > 原文： [https://machinelearningmastery.com/a-simple-intuition-for-overfitting/](https://machinelearningmastery.com/a-simple-intuition-for-overfitting/) 當您第一次開始機器學習時，您[加載數據集并嘗試模型](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/ "How to Run Your First Classifier in Weka")。您可能會想到，為什么我不能僅使用所有數據構建模型并在同一數據集上對其進行評估？這看似合理。訓練模型的更多數據更好，對吧？在同一數據集上評估模型和報告結果將告訴您模型有多好，對吧？錯誤。在這篇文章中，您將發現這種推理的困難，并發展直覺，為什么在看不見的數據上測試模型很重要。 ## 在同一數據集上進行訓練和測試如果你有一個數據集，比如[虹膜花數據集](http://en.wikipedia.org/wiki/Iris_flower_data_set)，那個數據集的最佳模型是什么？ [![Irises](https://img.kancloud.cn/f5/7e/f57e2a8a7c02ef72ef2b08536d39e9bf_478x500.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/irises.jpg) 鳶尾花照片來自 [dottieg2007](http://www.flickr.com/photos/dottieg2007/5647202653/sizes/m/) ，保留一些權利最好的模型是數據集本身。如果您獲取給定的數據實例并要求其進行分類，則可以在數據集中查找該實例并每次報告正確的結果。當您在同一數據集上訓練和測試模型時，這是您要解決的問題。您要求模型對之前“看到”的數據進行預測。用于創建模型的數據。該問題的最佳模型是上述查找模型。 ## 描述性模型在某些情況下，您確實需要訓練模型并使用相同的數據集對其進行評估。您可能希望簡化數據中預測變量的解釋。例如，您可能需要一組簡單的規則或最能描述您收集的觀察結果的決策樹。在這種情況下，您正在構建描述性模型。這些模型非常有用，可以幫助您在項目或業務中更好地理解屬性與預測值的關系。您可以使用您擁有的專業知識為結果添加含義。描述性模型的重要限制是它僅限于描述訓練它的數據。您不知道預測模型的準確程度。 ## 建模目標函數考慮一個組合分類問題，其目標是將數據實例分類為紅色或綠色。 [![Modeling a Target Function](https://img.kancloud.cn/66/af/66af23720ed388704e28192702549f09_300x200.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/Modeling-a-Target-Function.jpg) 建模目標函數照片由 [seantoyer](http://www.flickr.com/photos/seanhobson/4517383187/sizes/l/) 拍攝，保留一些權利。對于這個問題，假設存在一個完美的模型，或者一個完美的函數，它可以正確地將任何數據實例與域區分為紅色或綠色。在特定問題的背景下，完美的區分功能很可能在領域專家的問題領域具有深遠的意義。我們想要考慮這一點，并嘗試挖掘這一觀點。我們希望提供這樣的結果。我們為這個問題制作預測模型時的目標是最好地近似這種完美的辨別功能。我們使用從域中收集的樣本數據構建完美辨別函數的近似值。它不是所有可能的數據，它是所有可能數據的樣本或子集。如果我們擁有所有數據，則無需進行預測，因為只需查找答案即可。我們用來構建我們的近似模型的數據包含其中與理想判別函數有關的結構。數據準備的目標是最好地將該結構暴露給建模算法。數據還包含與辨別功能無關的內容，例如數據選擇的偏差和擾亂和隱藏結構的隨機噪聲。您選擇用于近似函數的模型必須導航這些障礙。該框架有助于我們理解描述性和預測性模型之間的深層差異。 ## 描述性與預測性模型描述性模型僅涉及對觀察數據中的結構進行建模。在同一數據集上訓練和評估它是有意義的。預測模型正在嘗試一個更加困難的問題，從數據樣本中逼近真正的判別函數。我們希望使用不挑選的算法并對我們樣本中的所有噪聲進行建模。我們確實希望選擇超出觀察數據的算法。有意義的是，我們只能評估模型從數據樣本推廣到訓練期間之前沒有看到的數據的能力。最佳描述模型對觀察到的數據是準確的。最佳預測模型對未觀察到的數據是準確的。 ## 過度擬合評估訓練數據預測模型的缺陷在于，它沒有告訴您模型對新的看不見的數據的概括程度。選擇其在訓練數據集上的準確性而不是在未看到的測試數據集上的準確性的模型很可能在看不見的測試數據集上具有較低的準確性。原因是模型不是一般化的。它已經規范了訓練數據集中的結構。這被稱為[過度擬合](http://en.wikipedia.org/wiki/Overfitting)，它比你想象的更加陰險。例如，一旦精度停止提高，您可能希望停止訓練模型。在這種情況下，訓練集的準確性將繼續提高，但看不見的數據的準確性開始下降。你可能會想到自己：“_所以我會訓練訓練數據集并在我去_時查看測試數據集”。一個好主意，但現在測試數據集不再是看不見的數據，因為它已經涉及并影響了訓練數據集。 ## 解決過度擬合問題您必須[在看不見的數據](http://machinelearningmastery.com/how-to-choose-the-right-test-options-when-evaluating-machine-learning-algorithms/ "How To Choose The Right Test Options When Evaluating Machine Learning Algorithms")上測試您的模型以反擊過度擬合。 [![Tackling Overfitting](https://img.kancloud.cn/45/f4/45f4fefd425640b163e5eccaa76710f5_300x210.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/overfit.jpg) 解決過度擬合照片由 [Adrian Fallace Design＆amp;攝影](http://www.flickr.com/photos/69187071@N02/12688141173/sizes/l/)，保留一些權利。將數據分成66％/ 34％用于測試數據集的訓練是一個良好的開端。使用交叉驗證更好，并且使用多次交叉驗證更好。您希望花時間并在看不見的數據上獲得準確的模型的最佳估計。您可以通過降低模型的復雜性來提高模型的準確性。例如，在決策樹的情況下，您可以在訓練后修剪樹（刪除葉子）。這將減少特定訓練數據集中的專業化數量，并增加對看不見的數據的概括。例如，如果您使用回歸，則可以使用正則化來約束訓練過程中的復雜性（系數的大小）。 ## 摘要在這篇文章中，您學習了將預測模型的發展作為未知理想辨別函數的近似的重要框架。在此框架下，您了解到僅僅根據訓練數據評估模型是不夠的。您了解到，評估預測模型概括能力的最佳和最有意義的方法是在看不見的數據上進行評估。這種直覺為評估預測模型時測試工具中使用訓練/測試分裂測試，交叉驗證和理想的多重交叉驗證提供了基礎。