機器學習中分類與回歸的區別 · Machine Learning Mastery 博客文章翻譯

# 機器學習中分類與回歸的區別 > 原文： [https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/](https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/) 分類和回歸問題之間存在重要差異。從根本上說，分類是關于預測標簽，而回歸是關于預測數量。我經常看到以下問題： > 如何計算回歸問題的準確性？像這樣的問題是沒有真正理解分類和回歸之間的差異以及試圖衡量的準確度的癥狀。在本教程中，您將發現分類和回歸之間的差異。完成本教程后，您將了解： * 該預測建模是關于學習從輸入到輸出的映射函數的問題，稱為函數逼近。 * 該分類是預測示例的離散類標簽輸出的問題。 * 該回歸是預測例子的連續數量輸出的問題。讓我們開始吧。 ![Difference Between Classification and Regression in Machine Learning](img/1a050a4f6b40fdc6d76210352edd3f7b.jpg) 機器學習中分類和回歸之間的差異 [托馬斯威爾遜](https://www.flickr.com/photos/thomaswilson33/7946276420/)的照片，保留一些權利。 ## 教程概述本教程分為 5 個部分;他們是： 1. 函數逼近 2. 分類 3. 回歸 4. 分類與回歸 5. 在分類和回歸問題之間轉換 ## 函數逼近預測建模是使用歷史數據開發模型以在我們沒有答案的情況下對新數據進行預測的問題。有關預測建模的更多信息，請參閱帖子： * [預測建模的溫和介紹](https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/) 預測建模可以描述為從輸入變量（X）到輸出變量（y）近似映射函數（f）的數學問題。這被稱為函數逼近的問題。建模算法的工作是找到我們可以給出時間和資源的最佳映射函數。有關應用機器學習中近似函數的更多信息，請參閱帖子： * [機器學習算法的工作原理](https://machinelearningmastery.com/how-machine-learning-algorithms-work/) 通常，我們可以將所有函數逼近任務劃分為分類任務和回歸任務。 ## 分類預測建模分類預測建模是將輸入變量（X）到離散輸出變量（y）的映射函數（f）近似的任務。輸出變量通常稱為標簽或類別。映射函數預測給定觀察的類或類別。例如，可以將文本電子郵件分類為屬于兩個類別之一：“垃圾郵件 _”_ 和“_ 不垃圾郵件 _”。 * 分類問題要求將示例分為兩個或更多個類中的一個。 * 分類可以具有實值或離散輸入變量。 * 兩個類的問題通常被稱為兩類或二元分類問題。 * 兩個以上類的問題通常被稱為多類分類問題。 * 為示例分配多個類的問題稱為多標簽分類問題。分類模型通常將連續值預測為屬于每個輸出類的給定示例的概率。概率可以被解釋為屬于每個類的給定示例的可能性或置信度。通過選擇具有最高概率的類標簽，可以將預測概率轉換為類值。例如，特定的文本電子郵件可以被指定為 0.1 的概率為“垃圾郵件”而 0.9 為“非垃圾郵件”。我們可以通過選擇“非垃圾郵件”標簽將這些概率轉換為類別標簽，因為它具有最高的預測可能性。有許多方法可以估計分類預測模型的技能，但最常見的可能是計算分類準確性。分類準確度是所有預測中正確分類的例子的百分比。例如，如果分類預測模型做出 5 個預測，其中 3 個是正確的，其中 2 個是不正確的，那么基于這些預測的模型的分類準確性將是： ``` accuracy = correct predictions / total predictions * 100 accuracy = 3 / 5 * 100 accuracy = 60% ``` 能夠學習分類預測模型的算法稱為分類算法。 ## 回歸預測建模回歸預測建模是將輸入變量（X）的映射函數（f）近似為連續輸出變量（y）的任務。連續輸出變量是實數值，例如整數或浮點值。這些通常是數量，例如數量和大小。例如，可以預測房屋可以出售特定的美元價值，可能在 100,000 美元到 200,000 美元的范圍內。 * 回歸問題需要預測數量。 * 回歸可以具有實值或離散輸入變量。 * 多輸入變量的問題通常稱為多變量回歸問題。 * 輸入變量按時間排序的回歸問題稱為時間序列預測問題。由于回歸預測模型預測數量，因此必須將模型的技能報告為這些預測中的錯誤。有許多方法可以估計回歸預測模型的技能，但最常見的可能是計算均方根誤差，縮寫為縮寫 RMSE。例如，如果回歸預測模型做出 2 個預測，其中 1.5 個預期值為 1.0，另一個預測值為 3.3，預期值為 3.0，那么 RMSE 將為： ``` RMSE = sqrt(average(error^2)) RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2) RMSE = sqrt((0.25 + 0.09) / 2) RMSE = sqrt(0.17) RMSE = 0.412 ``` RMSE 的一個好處是誤差分數的單位與預測值的單位相同。能夠學習回歸預測模型的算法稱為回歸算法。一些算法在其名稱中使用“回歸”一詞，例如線性回歸和邏輯回歸，這可能會使事情變得混亂，因為線性回歸是一種回歸算法，而邏輯回歸是一種分類算法。 ## 分類與回歸分類預測建模問題與回歸預測建模問題不同。 * 分類是預測離散類標簽的任務。 * 回歸是預測連續數量的任務。分類和回歸算法之間存在一些重疊;例如： * 分類算法可以預測連續值，但是連續值是類標簽的概率的形式。 * 回歸算法可以預測離散值，但是以整數量的形式預測離散值。一些算法可用于分類和回歸，只需很少的修改，例如決策樹和人工神經網絡。一些算法不能或不能容易地用于兩種問題類型，例如用于回歸預測建模的線性回歸和用于分類預測建模的邏輯回歸。重要的是，我們評估分類和回歸預測的方式各不相同，不重疊，例如： * 可以使用準確度來評估分類預測，而不能使用回歸預測來評估分類預測。 * 可以使用均方根誤差來評估回歸預測，而分類預測則不能。 ## 在分類和回歸問題之間轉換在某些情況下，可以將回歸問題轉換為分類問題。例如，要預測的數量可以轉換為離散桶。例如，$ 0 到$ 100 的連續范圍內的金額可以轉換為 2 個桶： * 0 級：0 美元到 49 美元 * 1 級：50 美元到 100 美元這通常稱為離散化，結果輸出變量是標簽具有有序關系（稱為序數）的分類。在某些情況下，分類問題可以轉換為回歸問題。例如，標簽可以轉換為連續范圍。一些算法已經通過預測每個類的概率來實現這一點，而每個類又可以縮放到特定范圍： ``` quantity = min + probability * range ``` 或者，可以對類值進行排序并映射到連續范圍： * 1 級$ 0 到$ 49 * 2 級$ 50 至$ 100 如果分類問題中的類標簽不具有自然序數關系，則從分類到回歸的轉換可能導致令人驚訝或差的表現，因為模型可能學習從輸入到連續輸出范圍的錯誤或不存在的映射。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [預測建模的溫和介紹](https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/) * [機器學習算法的工作原理](https://machinelearningmastery.com/how-machine-learning-algorithms-work/) ## 摘要在本教程中，您發現了分類和回歸問題之間的區別。具體來說，你學到了： * 該預測建模是關于學習從輸入到輸出的映射函數的問題，稱為函數逼近。 * 該分類是預測示例的離散類標簽輸出的問題。 * 該回歸是預測例子的連續數量輸出的問題。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。