分類準確性不夠：可以使用更多表現測量 · Machine Learning Mastery 博客文章翻譯

# 分類準確性不夠：可以使用更多表現測量 > 原文： [https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/](https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/) 當您為分類問題構建模型時，您幾乎總是希望將該模型的準確性視為所有預測所做的正確預測的數量。這是分類準確性。在之前的文章中，我們研究了[評估模型](http://machinelearningmastery.com/how-to-choose-the-right-test-options-when-evaluating-machine-learning-algorithms/ "How To Choose The Right Test Options When Evaluating Machine Learning Algorithms")的穩健性，使用交叉驗證和多重交叉驗證來預測未見數據，其中我們使用了分類準確度和平均分類準確度。一旦你擁有一個你認為可以做出強有力預測的模型，你需要確定它是否足以解決你的問題。單獨的分類準確性通常不足以做出此決定。 [![Classification Accuracy](https://img.kancloud.cn/04/9e/049e1b11977ae78b5f66c9d2eaaea1ad_1024x683.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/classification-accuracy.jpg) 分類準確度攝影：Nina Matthews攝影，保留一些權利在這篇文章中，我們將介紹Precision和Recall表現度量，您可以使用它們來評估模型的二元分類問題。 ## 乳腺癌復發 [乳腺癌數據集](http://archive.ics.uci.edu/ml/datasets/Breast+Cancer)是標準的機器學習數據集。它包含9個屬性，描述了286名患有乳腺癌并且在乳腺癌中存活并且在5年內是否復發的女性。這是一個二元分類問題。在286名女性中，201名患者未復發乳腺癌，剩下的85名女性患乳腺癌。我認為對于這個問題，假陰性可能比誤報更糟糕。你同意嗎？更詳細的篩查可以清除誤報，但是假陰性被送回家并丟失以進行后續評估。 ## 分類準確性 [分類精度](http://en.wikipedia.org/wiki/Accuracy_and_precision)是我們的出發點。它是正確預測的數量除以預測的總數，乘以100將其變為百分比。 ### 一切都沒有復發僅預測不會復發乳腺癌的模型將達到（201/286）* 100或70.28％的準確度。我們稱之為“所有不復發”。這是一個高精度，但一個可怕的模型。如果它被單獨用于決策支持以告知醫生（不可能，但一起玩），它會將85名婦女誤認為他們的乳腺癌不會再發生（高假陰性）。 ### 所有復發僅預測乳腺癌復發的模型將達到（85/286）* 100或29.72％的準確度。我們稱之為“所有復發”。這個模型具有可怕的準確性，并且會讓201名女性認為乳腺癌復發，但實際上沒有（高假陽性）。 ### 大車 CART或[分類和回歸樹](http://en.wikipedia.org/wiki/Predictive_analytics#Classification_and_regression_trees)是一種功能強大但簡單的決策樹算法。在這個問題上，CART可以達到69.23％的準確率。這低于我們的“All No Recurrence”模型，但這個模型更有價值嗎？我們可以看出，單獨的分類準確性不足以為此問題選擇模型。 ## 混亂矩陣用于呈現分類器的預測結果的清晰且明確的方式是使用[混淆矩陣](http://en.wikipedia.org/wiki/Table_of_confusion#Table_of_confusion)（也稱為[列聯表](http://en.wikipedia.org/wiki/Contingency_table)）。對于二元分類問題，該表有2行2列。頂部是觀察到的類標簽，而旁邊是預測的類標簽。每個單元格包含落入該單元格的分類器所做的預測數量。 [![Truth Table Confusion Matrix](https://img.kancloud.cn/24/6e/246e89bebece3a2e76fb20d691a1696d_321x54.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/truth_table.png) 真相表混淆矩陣在這種情況下，一個完美的分類器將正確預測201沒有復發和85復發，這將進入左上角的細胞沒有復發/沒有復發（真陰性）和右下角細胞復發/復發（真陽性）。不正確的預測顯然會分解為另外兩個單元格。假陰性是分類器標記為不再發生的重復。我們沒有這些。假陽性不是分類器標記為重復的重復。這是一個有用的表，它提供了數據中的類分布和分類器預測的類分布以及錯誤類型的細分。 ### 所有無復發混淆矩陣混淆矩陣突出顯示大量假陰性（85）。 [![All No Recurrence Confusion Matrix](https://img.kancloud.cn/19/50/1950d007b8d68503f9979c887985d4fa_320x68.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/no_recurrence_confusion_matrix.png) 所有無復發混淆矩陣 ### 所有遞歸混淆矩陣混淆矩陣突出了大量（201）的誤報。 [![All Recurrence Confusion Matrix](https://img.kancloud.cn/73/d8/73d842ecb0f5a3b546151146236f9086_320x70.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/recurrence_confusion_matrix.png) 所有遞歸混淆矩陣 ### CART混淆矩陣這看起來像一個更有價值的分類器，因為它正確地預測了10個重復事件以及188個沒有重復事件。該模型還顯示了適度數量的假陰性（75）和假陽性（13）。 [![CART Confusion Matrix](https://img.kancloud.cn/66/1a/661a045a998c90ce0817cbfcb5d62b65_320x68.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/cart_confusion_matrix.png) CART混淆矩陣 ## 準確性悖論正如我們在這個例子中所看到的，準確性可能會產生誤導。有時可能需要選擇精度較低的模型，因為它對問題具有更強的預測能力。例如，在存在大類不平衡的問題中，模型可以預測所有預測的多數類的值并實現高分類準確性，問題在于該模型在問題域中沒有用。正如我們在乳腺癌中看到的那樣。這被稱為[準確性悖論](http://en.wikipedia.org/wiki/Accuracy_paradox)。對于類似的問題，需要這些額外的措施來評估分類器。 ## 精確 [精度](http://en.wikipedia.org/wiki/Information_retrieval#Precision)是真陽性的數量除以真陽性和假陽性的數量。換句話說，它是正預測的數量除以預測的正類值的總數。它也被稱為[陽性預測值](http://en.wikipedia.org/wiki/Positive_predictive_value)（PPV）。精度可以被認為是分類器精確度的度量。低精度也可以表示大量的誤報。 * All No Reurrence模型的精度為0 /（0 + 0）或不是數字，或0。 * All Recurrence模型的精度為85 /（85 + 201）或0.30。 * CART模型的精度為10 /（10 + 13）或0.43。精度表明CART是一個更好的模型，即使它具有較低的準確度，所有重復發生比全無重復模型更有用。 All Reurrence模型和CART之間的精確度差異可以通過All Recurrence模型預測的大量誤報來解釋。 ## 召回 [召回](http://en.wikipedia.org/wiki/Information_retrieval#Recall)是真陽性的數量除以真陽性的數量和假陰性的數量。換句話說，它是正預測的數量除以測試數據中的正類值的數量。它也稱為靈敏度或真陽性率。召回可以被認為是分類器完整性的度量。低召回率表示許多假陰性。 * All No Recurrence模型的召回是0 /（0 + 85）或0。 * 召回全復發模型為85 /（85 + 0）或1。 * 召回CART為10 /（10 + 75）或0.12。正如您所料，All Reurrence模型具有完美的回憶，因為它預測所有實例的“重復”。 CART的召回率低于All Recurrence模型的召回率。這可以通過CART模型預測的大量（75）假陰性來解釋。 ## F1得分 [F1分數](http://en.wikipedia.org/wiki/F1_score)是2 *（（精確*召回）/（精確+召回））。它也被稱為F分數或F量度。換句話說，F1分數表達了精確度和召回之間的平衡。 * 全無復發模型的F1為2 *（（0 * 0）/ 0 + 0）或0。 * 全復發模型的F1為2 *（（0.3 * 1）/0.3+1）或0.46。 * CART模型的F1為2 *（（0.43 * 0.12）/0.43+0.12）或0.19。如果我們希望基于精確度和召回之間的平衡來選擇模型，F1測量表明所有重復模型都是最佳模型，并且CART模型還沒有足夠的競爭力。 ## 摘要在這篇文章中，您了解了準確性悖論以及類別不平衡的問題，因為單獨的分類準確性無法被信任以選擇表現良好的模型。通過示例，您了解了混淆矩陣，以此來描述未見數據集的預測中的錯誤細分。您了解了總結模型精度（準確性）和召回（完整性）的措施，以及F1分數中兩者之間平衡的描述。