評估機器學習模型的統計數據 · Machine Learning Mastery 博客文章翻譯

# 評估機器學習模型的統計數據 > 原文： [https://machinelearningmastery.com/statistics-for-evaluating-machine-learning-models/](https://machinelearningmastery.com/statistics-for-evaluating-machine-learning-models/) Tom Mitchell 1997年出版的經典著作“_機器學習_”提供了一章專門用于評估機器學習模型的統計方法。統計數據提供了一組重要的工具，用于機器學習項目的每個步驟。在不使用統計方法的情況下，從業者無法有效地評估機器學習模型的技能。不幸的是，統計數據對大多數開發人員和計算機科學畢業生來說都是陌生的。這使得Mitchell的開創性機器學習文章中的章節成為從業者閱讀的重要內容（如果不是必需的話）。在這篇文章中，您將發現Mitchel推薦的統計方法，用于評估和比較機器學習模型。閱讀這篇文章后，你會知道： * 如何計算分類準確度或誤差的置信區間。 * 計算置信區間的統計基礎。 * 如何一般比較機器學習算法的表現。讓我們開始吧。 ![Statistics for Evaluating Machine Learning Models](img/a6b7b43b3e3239fe61e759cc711dc80d.jpg) 評估機器學習模型的統計數據 [皮埃爾（雷恩）](https://www.flickr.com/photos/equinoxefr/1815074519/)的照片，保留一些權利。 ## 機器學習書 [Tom Mitchell](http://www.cs.cmu.edu/~tom/) 撰寫了可能是應用機器學習的經典教科書，名為“[機器學習](https://amzn.to/2Jja7vF)”并于1997年發布。 [![Amazon Image](img/9957ad99bbe056d124bb46e652d997f6.jpg)](http://www.amazon.com/dp/0071154671?tag=inspiredalgor-20) 在書中，他將整章專門用于評估機器學習模型和算法所需的統計方法。具體來說，第5章標題為“_評估假設_”。 > 第5章介紹了統計和估算理論的基本概念，重點是使用有限的數據樣本評估假設的準確性。這包括計算用于估計假設準確度的置信區間和用于比較學習方法的準確性的方法。 - 第16頁，[機器學習](https://amzn.to/2Jja7vF)，1997。在這篇文章中，我們將仔細研究本章，并回顧當時米切爾推薦的統計方法。自本書出版20年以來，統計方法的基本原理并沒有改變，現在可能同樣有用和相關。值得注意的是，當米切爾提到假設時，他指的是學習模型，即在數據集上運行學習算法的結果。評估和比較假設意味著比較學習模型，這與評估和比較機器學習算法不同，機器學習算法可以針對來自相同問題或不同問題的不同樣本進行訓練。第5章評估假設分為7個部分;他們如下： * 5.1。動機 * 5.2。估計假設的準確性 * 5.3。抽樣理論基礎 * 5.4。推導置信區間的一般方法 * 5.5。兩個假設的誤差差異 * 5.6。比較學習算法 * 5.7。總結和進一步閱讀我們將花時間查看每個部分，并總結統計方法和建議。 ## 動機本章首先闡述了評估機器學習中假設的重要性。 > 憑經驗評估假設的準確性是機器學習的基礎。 - 第128頁，[機器學習](https://amzn.to/2Jja7vF)，1997。本章的動機是三個問題;他們是： * 鑒于在有限的數據樣本中觀察到的假設的準確性，這與其他示例相比估計其準確性的程度如何？ * 鑒于一個假設在一些數據樣本上優于另一個假設，這種假設在一般情況下更可能是多么可能？ * 當數據有限時，使用這些數據來學習假設和估計其準確性的最佳方法是什么？這三個問題密切相關。第一個問題引起了對模型技能估計誤差的擔憂，并激發了對置信區間的需求。第二個問題引起了對基于小樣本的模型技能做出決策的擔憂，并激發了統計假設檢驗。最后，第三個問題考慮了小樣本的經濟使用，并激發了重采樣方法，如k-fold交叉驗證。 > 本章討論了評估學習假設的方法，比較兩個假設的準確性的方法，以及當只有有限數據可用時比較兩種學習算法的準確性的方法。 - 第129頁，[機器學習](https://amzn.to/2Jja7vF)，1997。動機結束時提醒人們難以估計假設的技巧。特別是在模型技能估計中引入偏差和方差： * **估計偏差**。當在訓練數據上評估模型時，通過在保持測試集上評估模型來克服該模型。 * **估計的方差**。在獨立測試集上評估模型時，通過使用更大的測試集來克服。 ## 估計假設的準確性必須估計模型的技能或預測誤差，并且作為估計，它將包含誤差。通過區分模型的真實誤差和估計的或樣本誤差，可以清楚地看出這一點。 > 一個是假設對可用數據樣本的錯誤率。另一個是假設對整個未知分布D的錯誤率。 - 第130頁，[機器學習](https://amzn.to/2Jja7vF)，1997。 * **樣本錯誤**。估計對數據樣本計算的真實誤差。 * **真實錯誤**。模型將從域中錯誤分類隨機選擇的示例的概率。我們想知道真正的錯誤，但我們必須使用估計值，從數據樣本中近似。這就提出了一個給定的誤差估計有多好的問題？一種方法是計算樣本誤差周圍的置信區間，該置信區間足夠大以覆蓋具有非常高可能性的真實誤差，例如95％。假設誤差測量是離散比例，例如分類誤差，則置信區間的計算計算如下： ![Calculation of Confidence Interval for Classification Error](img/7c98c4de627e0d16a5b7b3e56252dc32.jpg) 1997年機器學習中分類誤差置信區間的計算。其中 _error_s_ 是樣本誤差， _n_ 是用于計算樣本誤差的測試集中的實例總數，而1.96是高斯分布中可能性為的臨界值。 95％。 ## 抽樣理論基礎從前一節計算置信區間的公式做了很多假設。本節通過這些假設進行工作，以便為計算提供理解的基礎。 > 本節介紹統計和抽樣理論的基本概念，包括概率分布，期望值，方差，二項式和正態分布，以及雙側和單側區間。 - 第132頁，[機器學習](https://amzn.to/2Jja7vF)，1997。有用的是，提供了一個表格，總結了本節的主要概念，如下所示。 ![Summary of Key Statistical Concepts for Calculating a Confidence Interval](img/0f79c7bc5bd8b27bb742853401d72186.jpg) 計算置信區間的關鍵統計概念摘要取自機器學習，1997。本節為置信區間提供了重要的統計基礎，建議閱讀。為了避免重復所有這一理論，該部分的關鍵如下： * 分類準確度和分類誤差等比例值符合二項分布。 * 二項分布表征二元事件的概率，例如硬幣翻轉或正確/不正確的分類預測。 * 均值是分布中的預期值，方差是樣本與均值之間的平均距離，標準差是由數據樣本的大小歸一化的方差。 * 理想情況下，我們尋求具有最小方差的我們期望參數的無偏估計。 * 置信區間提供了量化群體參數（例如均值）中的不確定性的方法。 * 對于大樣本大小，二項分布可以用更簡單的高斯分布近似，例如， 30次或更多次觀察。 * 間隔可以以稱為雙側的平均值為中心，但也可以是單側的，例如平均值的左側或右側的半徑。 ## 推導置信區間的一般方法給定計算比例值的置信區間的等式和等式背后的統計推理，給出了計算置信區間的一般程序。該程序總結如下。 ![General Procedure for Calculating Confidence Intervals](img/6510f23842db21f8d790a6830a354c6c.jpg) 計算置信區間的一般程序取自機器學習，1997年。還給出了中心極限定理。可以通過以下發現來概括：獨立觀察的和（或平均值的歸一化和）將代表來自高斯分布的樣本。例如，不同獨立數據樣本上的模型的平均技能將是高斯的。這是一個非常寶貴的發現，因為我們對高斯分布非常了解，并且可以評論屬于相同或不同高斯分布的兩個樣本（平均值）的可能性，例如在機器學習算法的技能的情況下。 > 中心極限定理是一個非常有用的事實，因為它暗示每當我們定義一個估計量是一些樣本的均值（例如，誤差（h）是平均誤差）時，控制該估計量的分布可以用正態分布近似。對于足夠大的n。 - 第143頁，[機器學習](https://amzn.to/2Jja7vF)，1997。 ## 兩個假設的誤差差異本節著眼于將計算置信區間的一般程序應用于兩個模型之間分類誤差的估計差異。該方法假設每個模型都是在不同的獨立數據樣本上進行訓練的。因此，計算兩個模型之間誤差的置信區間會增加每個模型的方差。 ![Confidence Interval for the Difference in Error Between Two Models](img/759cf04cb0f8729563b767a5c00c9eee.jpg) 兩種模型之間誤差差異的置信區間取自機器學習，1997。本節還介紹了統計假設檢驗作為計算置信區間的替代方法。 > 在某些情況下，我們感興趣的是某些特定猜想的真實概率，而不是某些參數的置信區間。 - 第145頁，[機器學習](https://amzn.to/2Jja7vF)，1997。有趣的是，該主題的動機是單側置信區間的可能性，該區間包含模型的真實誤差估計，以便確定一個模型比另一個模型更好的概率。我發現這個解釋不太清楚。 ## 比較學習算法本章的最后一部分內容側重于機器學習算法的比較。這與比較模型（假設）不同，因為比較算法涉及訓練它們并且可能在來自域的多個不同數據樣本上評估它們。通過估計兩種方法之間的預期或平均差異來推動兩種算法的比較。提出了一種使用k倍交叉驗證的過程，其中每個算法都在相同的數據分割上進行訓練和評估。計算誤差的最終平均差異，從中可以估計置信區間。更新置信區間的計算以考慮減少的自由度數，因為在同一測試集上評估每個算法。配對學生t檢驗作為統計假設檢驗引入，用于量化兩種方法屬于相同（或不同）分布的可能性。該測試可以與概述的程序一起使用，但僅當每個訓練和測試集包含獨立樣本時，事實與默認的k折交叉驗證不同。 > 特別是，在這種理想化的方法中，我們修改了表5.5的過程，以便在每次循環中通過循環生成一個新的隨機訓練集Si和新的隨機測試集Ti，從這個底層實例分布中抽取而不是從固定樣本中繪制做 - 第148頁，[機器學習](https://amzn.to/2Jja7vF)，1997。本節最后概述了比較機器學習算法時的實際考慮因素。 Mitchell提醒我們，在我們使用重采樣方法的情況下，學生的t檢驗在技術上并不適用。盡管如此，他建議使用k折交叉驗證或隨機抽樣來估計模型誤差估計的方差，因為它們是唯一可用的方法。這不太理想，因為統計測試的期望將被違反，增加了I類錯誤。 > 明智的是要記住，當可用數據有限時，統計模型很少完全符合測試學習算法的實際約束。然而，它們確實提供了近似置信區間，這對于解釋學習方法的實驗比較有很大幫助。 - 第150頁，[機器學習](https://amzn.to/2Jja7vF)，1997。 ## 總結和進一步閱讀本章最后總結了主要觀點，可以完成的練習以確認對方程的理解，以及一系列參考文獻和進一步閱讀。簡而言之，要點是： * 置信區間可用于量化模型誤差的不確定性。 * 置信區間的計算在很大程度上取決于估計數量的分布。 * 模型技能評估中的錯誤原因是估計偏差，評估訓練數據集上的模型將引入樂觀偏差。 * 模型技能評估中的錯誤的另一個原因是估計方差，其可以通過增加保持測試大小來減少。 * 使用k-fold交叉驗證程序進行重新采樣提供了一種比較機器學習算法的有效方法。 * 在使用統計方法時，我們必須做出假設，例如圍繞參數分布的假設。即使有置信區間，我們也不知道什么是真的，只是可能的。有趣的是， [Thomas Dietterich](https://en.wikipedia.org/wiki/Thomas_G._Dietterich) 的兩份技術報告被引用。 Dietterich接著發表了1998年重要的題為“[用于比較監督分類學習算法的近似統計檢驗](http://sci2s.ugr.es/keel/pdf/algorithm/articulo/dietterich1998.pdf)”的論文，該論文描述了在比較機器學習算法與隨機重采樣和k折疊時配對學生t檢驗的不可靠性交叉驗證。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [機器學習](https://amzn.to/2Jja7vF)，1997。 * [Tom Mitchell主頁](http://www.cs.cmu.edu/~tom/) * [維基百科上的Tom M. Mitchell](https://en.wikipedia.org/wiki/Tom_M._Mitchell) * [Thomas Dietterich在維基百科](https://en.wikipedia.org/wiki/Thomas_G._Dietterich) * [用于比較監督分類學習算法的近似統計檢驗](http://web.cs.iastate.edu/~honavar/dietterich98approximate.pdf)，1998。 ## 摘要在這篇文章中，您發現了用于評估和比較機器學習模型的統計方法。具體來說，你學到了： * 如何計算分類準確度或誤差的置信區間。 * 計算置信區間的統計基礎 * 如何一般比較機器學習算法的表現。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。