不要使用隨機猜測作為基線分類器 · Machine Learning Mastery 博客文章翻譯

# 不要使用隨機猜測作為基線分類器 > 原文： [https://machinelearningmastery.com/dont-use-random-guessing-as-your-baseline-classifier/](https://machinelearningmastery.com/dont-use-random-guessing-as-your-baseline-classifier/) 我最近通過電子郵件收到了以下問題： > 嗨，杰森，快速提問。一類失衡：90例豎起大拇指向下10例。在這種情況下，我們如何計算隨機猜測的準確性？我們可以使用一些基本概率回答這個問題（我打開了excel并輸入了一些數字）。 ![Don't Use Random Guessing As Your Baseline Classifier](img/785ff78c162b78fabe10fb6476919d35.jpg) 不要使用隨機猜測作為您的基線分類器照片由 [cbgrfx123](https://www.flickr.com/photos/72005145@N00/5600978712) ，保留一些權利。假設0級和1級的分割是90％-10％。我們也說你會用相同的比例隨機猜測。隨機猜測兩分類問題的理論精度是： ```py = P(class is 0) * P(you guess 0) + P(class is 1) * P(you guess 1) ``` 我們可以在我們的示例90％-10％分割中測試這個： ```py = (0.9 * 0.9) + (0.1 * 0.1) = 0.82 = 0.82 * 100 or 82% ``` 要檢查數學，您可以插入50％-50％的數據分割，它符合您的直覺： ```py = (0.5 * 0.5) + (0.5 * 0.5) = 0.5 = 0.5 * 100 or 50% ``` 如果我們查看Google，我們會在Cross Validated上找到類似的問題“[不平衡分類問題的機會級準確度是多少？](http://stats.stackexchange.com/questions/148149/what-is-the-chance-level-accuracy-in-unbalanced-classification-problems) “答案幾乎相同。再次，一個很好的確認。有趣的是，所有這一切都有一個重要的要點。 ## 不要使用隨機猜測作為基線如果您正在尋找用作基線準確度的分類器，請不要使用隨機猜測。有一個名為Zero Rule的分類器（或簡稱為0R或ZeroR）。這是您可以在分類問題上使用的最簡單的規則，它只是預測數據集中的多數類（例如[模式](https://en.wikipedia.org/wiki/Mode_(statistics))）。在上面的例子中，0級和1級的90％-10％，它將為每個預測預測0級，并達到90％的準確率。這比使用隨機猜測的理論最大值好8％。使用零規則方法作為基線。此外，在這種不平衡的分類問題中，您應該使用除精度之外的度量，例如Kappa或ROC曲線下的面積。有關分類問題的替代表現度量的更多信息，請參閱帖子： * [分類準確度不夠：可以使用的更多表現測量](http://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/) 有關處理不平衡分類問題的更多信息，請參閱帖子： * [打擊機器學習數據集中不平衡類的8種策略](http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/) 你對這篇文章有任何疑問嗎？在評論中提問。