為什么我的結果不如我想的那么好？你可能過度擬合了 · Machine Learning Mastery 博客文章翻譯

# 為什么我的結果不如我想的那么好？你可能過度擬合了 > 原文： [https://machinelearningmastery.com/arent-results-good-thought-youre-probably-overfitting/](https://machinelearningmastery.com/arent-results-good-thought-youre-probably-overfitting/) 我們都知道運行分析的滿意度，并看到結果以我們希望的方式回歸：80％的準確度; 85％; 90％？只是轉向我們正在編寫的報告的結果部分，并將數字放入其中，這種誘惑很強烈。但是等待：一如既往，這并不是那么簡單。屈服于這種特殊的誘惑可能會破壞其他完全有效的分析的影響。對于大多數機器學習算法，考慮如何生成這些結果非常重要：不僅僅是算法，而是數據集及其使用方式會對獲得的結果產生重大影響。應用于太小數據集的復雜算法可能導致過度擬合，從而導致誤導性良好的結果。 [![Light at the end of the tunnel](https://img.kancloud.cn/52/f2/52f26b33f8748b98fe29d8eee2a3782a_640x426.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/Light-at-the-end-of-the-tunnel.jpg) 在隧道盡頭的光照片由 [darkday](http://www.flickr.com/photos/drainrat/14928494590) ，保留一些權利 ## 什么是過度擬合？當機器學習算法（例如分類器）不僅識別數據集中的信號而且識別噪聲時，發生過度擬合。所有數據集都很吵。實驗中記錄的值可能會受到許多問題的影響： * 機械問題，例如熱量或濕度改變記錄裝置的特性; * 身體問題：有些老鼠比其他老鼠大; * 或者只是被調查系統中的固有噪音。例如，來自DNA的蛋白質的產生本質上是有噪聲的，不是如通常可視化的那樣在穩定的流中發生，而是在一系列步驟中，每個步驟是隨機的，取決于在適當時間存在合適的分子。 * 從人類受試者收集的數據同樣受到諸如一天中的時間，受試者的健康狀況，甚至他們的情感等因素的影響。隨著數據集中參數數量的增加，情況會惡化。例如，具有100個記錄的數據集（每個具有500個觀測值）非常容易過度擬合，而具有5個觀測值的1000個記錄每個將遠不是問題。 > 當您的模型相對于數據點數量的參數太多時，您很容易高估模型的效用。 - Jessica Su in“[過度擬合的直觀解釋是什么？](http://www.quora.com/What-is-an-intuitive-explanation-of-overfitting) “ ## 為什么過度擬合問題？大多數機器學習算法的目的是找到從數據中的信號，重要值到輸出的映射。噪聲干擾了這種映射的建立。過度擬合的實際結果是，似乎在其訓練數據上表現良好的分類器可能對來自同一問題的新數據表現不佳，可能非常糟糕。從數據集到數據集，數據中的信號幾乎相同，但噪聲可能非常不同。如果分類器適合噪聲和信號，它將無法將信號與新數據上的噪聲分開。開發大多數分類器的目的是讓它們以可預測的方式推廣到新數據。 > 過度擬合的模型通常具有較差的預測表現，因為它可能夸大數據中的微小波動 - 過度擬合，[維基百科](http://en.wikipedia.org/wiki/Overfitting)。 ## 克服過度擬合克服過度擬合有兩種主要方法：三組驗證和交叉驗證。 ### 三套驗證道德分析師如何克服過度擬合的問題？最簡單，最難實現的解決方案就是擁有大量的數據。有了足夠的數據，分析師就可以在一組數據（訓練集）上開發和算法，然后在一個全新的，看不見的數據集上測試其表現，這些數據集由相同的方法（測試集）生成。僅使用兩個數據集的問題是，只要您使用測試集，它就會被污染。對集合1進行訓練，對集合2進行測試，然后使用這些測試的結果來修改算法的過程意味著集合2實際上是訓練數據的一部分。為了完全客觀，需要第三個數據集（驗證集）。驗證集應保持光榮隔離，直到所有訓練完成。驗證集上訓練的分類器的結果是應該報告的結果。一種流行的方法是在訓練集上訓練分類器，并且每幾次迭代，在測試集上測試其表現。最初，當數據集中的信號擬合時，訓練集和測試集的誤差將下降。然而，最終，分類器將開始適應噪聲，盡管訓練集上的錯誤率仍然降低，但測試集上的錯誤率將開始增加。此時應停止訓練，并將訓練好的分類器應用于驗證集以估計實際表現。這個過程因此變成： 1. 開發算法; 2. 第1組訓練（訓練集）; 3. 測試第2組（測試裝置）; 4. 使用步驟3的結果修改算法或停止訓練; 5. 迭代步驟1到4直到滿意算法的結果; 6. 在第3組（驗證集）上運行算法; 7. 報告步驟6的結果。可悲的是，很少有項目產生足夠的數據，使分析師能夠沉迷于三數據集方法的奢侈品。必須找到一種替代方案，其中每個結果由分類器生成，該分類器在其訓練中未使用該數據項。 ### 交叉驗證通過交叉驗證，整個可用數據集被分成大小相等或更小的子集。假設我們有100個觀測數據集。我們可以將它分成33個，33個和34個觀察值的三個子集。我們將這三個子集稱為set1，set2和set3。為了開發我們的分類器，我們使用了三分之二的數據;說set1和set2，訓練算法。然后，我們在set3上運行分類器，到目前為止看不見，并記錄這些結果。然后使用另外的三分之二，例如set1和set3重復該過程，并記錄set2上的結果。類似地，在set2和set3上訓練的分類器產生set1的結果。然后組合三個結果集，并成為整個數據集的結果。上述過程稱為三重交叉驗證，因為使用了三個數據集。可以使用任意數量的子集;十倍交叉驗證被廣泛使用。當然，最終的交叉驗證方案是在除了一個案例之外的所有數據上訓練每個分類器，然后在左邊的情況下運行它。這種做法被稱為留一法驗證。 > 交叉驗證對于防止數據建議的測試假設（稱為“III型錯誤”）非常重要，特別是在進一步的樣品有害，昂貴或無法收集的情況下。 — Overfitting, [Wikipedia](http://en.wikipedia.org/wiki/Overfitting). #### 交叉驗證的優點，以避免過度擬合任何形式的交叉驗證的主要優點是每個結果都是使用未經過該結果訓練的分類器生成的。此外，因為每個分類器的訓練集由大多數數據組成，所以分類器雖然可能略有不同，但應該大致相同。在留一法的情況下尤其如此，其中每個分類器在幾乎相同的數據集上訓練。 #### 交叉驗證的缺點使用交叉驗證有兩個主要缺點： 1. 用于生成結果的分類器不是單個分類器，而是一組密切相關的分類器。如前所述，這些分類器應該非常相似，并且這個缺點通常不被認為是主要的。 2. 測試集不能再用于修改分類算法。因為算法是針對大多數數據進行訓練，然后在較小的子集上進行測試，所以這些結果不再被視為“看不見”。無論結果如何，都應該報告。從理論上講，這是一個重大缺陷，但在實踐中很少出現這種情況。總之，如果數據充足，則應使用三組驗證方法。但是，當數據集有限時，交叉驗證會以原則方式最佳地利用數據。 ## 統計方法由于過度擬合是一個普遍存在的問題，因此已經有大量研究使用統計方法來避免這個問題。一些標準教科書對這些方法有很好的報道，包括： * Duda，R。O.，Hart，P。E.，＆amp; Stork，D.G。（2012）。 [模式分類](http://www.amazon.com/dp/0471056693?tag=inspiredalgor-20)：John Wiley＆amp;兒子。 * Bishop，C。M.（2006）。 [模式識別和機器學習](http://www.amazon.com/dp/0387310738?tag=inspiredalgor-20)（第1卷）：施普林格紐約。 ## 避免過度擬合的教程例如，使用R統計語言，使用R統計語言，請參閱“[評估模型表現 - 過度擬合和數據大小對預測影響的實際示例](http://www.r-bloggers.com/evaluating-model-performance-a-practical-example-of-the-effects-of-overfitting-and-data-size-on-prediction/)”。有關使用SPSS的詳細教程，請參閱幻燈片“ [Logistic回歸 - 完整問題](http://www.utexas.edu/courses/schwab/sw388r7/SolvingProblems/LogisticRegression_CompleteProblems.ppt)”（PPT）。有關SAS用戶指南的介紹，請參閱“ [GLMSELECT程序](http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer.htm#statug_glmselect_details25.htm)”。 ## 進一步閱讀有關過度擬合的實際效果的有趣概述可以在麻省理工學院技術評論中找到，題為“[大數據臨近預報的新興陷阱](http://www.technologyreview.com/view/530131/the-emerging-pitfalls-of-nowcasting-with-big-data/)”。來自CalTech的優秀入門講座在YouTube上提供，名為“ [Overfitting](https://www.youtube.com/watch?v=EQWr3GGCdzw) ”： <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/EQWr3GGCdzw?feature=oembed" width="500"></iframe> 來自阿姆斯特丹自由大學（Vrije Universiteit Amsterdam）的一篇更詳細的文章，題為“[你看到的可能不是你所得到的：回歸型模型過度擬合的非技術性介紹](http://www.cs.vu.nl/~eliens/sg/local/theory/overfitting.pdf)”（PDF）。