如何使用置信區間報告分類器表現 · Machine Learning Mastery 博客文章翻譯

# 如何使用置信區間報告分類器表現 > 原文： [https://machinelearningmastery.com/report-classifier-performance-confidence-intervals/](https://machinelearningmastery.com/report-classifier-performance-confidence-intervals/) 為分類問題選擇機器學習算法后，需要向利益相關者報告模型的表現。這很重要，因此您可以設置模型對新數據的期望。常見的錯誤是僅報告模型的分類準確性。在這篇文章中，您將了解如何計算模型表現的置信區間，以提供模型技能的校準和穩健指示。讓我們開始吧。 ![How to Report Classifier Performance with Confidence Intervals](img/2e92d75ca53eaf79d5297bc78a6bfa10.jpg) 如何使用置信區間報告分類器表現 [Andrew](https://www.flickr.com/photos/arg_flickr/15966084776/) 的照片，保留一些權利。 ## 分類準確性分類機器學習算法的技能通常被報告為分類準確性。這是所有預測的正確預測百分比。計算方法如下： ```py classification accuracy = correct predictions / total predictions * 100.0 ``` 分類器可以具有諸如60％或90％的準確度，并且這僅在問題域的上下文中具有意義。 ## 分類錯誤在向利益相關者討論模型時，談論分類錯誤或只是錯誤可能更為相關。這是因為利益相關者認為模型表現良好，他們可能真的想知道模型是否容易出錯。您可以將分類錯誤計算為對預測數量的錯誤預測百分比，表示為0到1之間的值。 ```py classification error = incorrect predictions / total predictions ``` 分類器可能具有0.25或0.02的誤差。該值也可以通過乘以100轉換為百分比。例如，0.02將變為（0.02 * 100.0）或2％分類錯誤。 ## 驗證數據集您使用什么數據集來計算模型技能？從建模過程中提取驗證數據集是一種很好的做法。這意味著隨機選擇可用數據的樣本并從可用數據中刪除，以便在模型選擇或配置期間不使用它。在針對訓練數據準備最終模型之后，可以使用它來對驗證數據集進行預測。這些預測用于計算分類準確度或分類錯誤。 ## 置信區間不是僅呈現單個錯誤分數，而是可以計算置信區間并將其呈現為模型技能的一部分。置信區間由兩部分組成： * **范圍**。這是模型上可以預期的技能的下限和上限。 * **概率**。這是模型技能落在范圍內的概率。通常，分類錯誤的置信區間可以如下計算： ```py error +/- const * sqrt( (error * (1 - error)) / n) ``` 如果error是分類錯誤，const是定義所選概率的常數值，sqrt是平方根函數，n是用于評估模型的觀察（行）數。從技術上講，這被稱為 [Wilson評分區間](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval)。 const的值由統計提供，常用值為： * 1.64（90％） * 1.96（95％） * 2.33（98％） * 2.58（99％）使用這些置信區間會產生一些您需要確保可以滿足的假設。他們是： * 驗證數據集中的觀察結果獨立地從域中提取（例如它們是[獨立且相同分布的](https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables)）。 * 至少使用30個觀察值來評估模型。這是基于抽樣理論的一些統計數據，它將分類器的誤差計算為二項分布，我們有足夠的觀測值來逼近二項分布的正態分布，并且通過中心極限定理我們分類的觀察結果越多，我們越接近真實但未知的模型技能。 ## 置信區間示例在具有50個示例（n = 50）的驗證數據集上考慮具有0.02（錯誤= 0.02）的錯誤的模型。我們可以如下計算95％置信區間（const = 1.96）： ```py error +/- const * sqrt( (error * (1 - error)) / n) 0.02 +/- 1.96 * sqrt( (0.02 * (1 - 0.02)) / 50) 0.02 +/- 1.96 * sqrt(0.0196 / 50) 0.02 +/- 1.96 * 0.0197 0.02 +/- 0.0388 ``` 或者，換句話說：置信區間[0.0,0.0588]有95％的可能性涵蓋模型對未見數據的真實分類誤差。請注意，分類錯誤的置信區間必須剪切為值0.0和1.0。不可能有負誤差（例如小于0.0）或誤差大于1.0。 ## 進一步閱讀 * 第5章，[機器學習](http://www.amazon.com/dp/1259096955?tag=inspiredalgor-20)，1997 * 維基百科上的[二項式比例置信區間](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval) * 維基百科上的[置信區間](https://en.wikipedia.org/wiki/Confidence_interval) ## 摘要在這篇文章中，您了解了如何計算分類器的置信區間。具體來說，你學到了： * 報告結果時如何計算分類準確度和分類錯誤。 * 在計算要報告的模型技能時要使用的數據集。 * 如何計算選定可能性水平的分類誤差的下限和上限。您對分類器置信區間有任何疑問嗎？在下面的評論中提出您的問題。