機器學習的Logistic回歸 · Machine Learning Mastery 博客文章翻譯

# 機器學習的Logistic回歸 > 原文： [https://machinelearningmastery.com/logistic-regression-for-machine-learning/](https://machinelearningmastery.com/logistic-regression-for-machine-learning/) 邏輯回歸是統計領域機器學習所借用的另一種技術。它是二元分類問題的首選方法（具有兩個類值的問題）。在這篇文章中，您將發現用于機器學習的邏輯回歸算法。閱讀這篇文章后你會知道： * 描述邏輯回歸時使用的許多名稱和術語（如log odds和logit）。 * 用于邏輯回歸模型的表示。 * 用于從數據中學習邏輯回歸模型系數的技術。 * 如何使用學習的邏輯回歸模型實際進行預測。 * 如果你想深入挖掘，可以去哪里獲取更多信息。本文是為對應用機器學習感興趣的開發人員編寫的，特別是預測建模。您不需要具有線性代數或統計數據的背景知識。讓我們開始吧。 ![Learning Algorithm for Logistic Regression](img/aede623cb5a39de75438107c9e1b44ef.jpg) Logistic回歸的學習算法攝影： [Michael Vadon](https://www.flickr.com/photos/80038275@N00/20459689318/) ，保留一些權利。 ## 物流功能邏輯回歸以在該方法的核心使用的函數命名，即邏輯函數。 [邏輯函數](https://en.wikipedia.org/wiki/Logistic_function)，也稱為sigmoid函數，由統計學家開發，用于描述生態中人口增長的特性，迅速上升并最大限度地提高環境的承載能力。它是一條S形曲線，可以取任何實數值并將其映射到0到1之間的值，但絕不會完全達到這些限制。 1 /（1 + e ^ - 值）其中e是自然對數的[基數（電子表格中的歐拉數或EXP（）函數），value是您要轉換的實際數值。下面是使用邏輯函數將-5和5之間的數字轉換為0和1范圍的圖。](https://en.wikipedia.org/wiki/E_(mathematical_constant)) ![Logistic Function](img/b27eff2d941d0d8e50b42686be5aaca9.jpg) 物流功能現在我們知道了邏輯函數是什么，讓我們看看它在邏輯回歸中是如何使用的。 ## 用于Logistic回歸的表示法 Logistic回歸使用方程作為表示，非常類似于線性回歸。使用權重或系數值（稱為希臘大寫字母Beta）線性組合輸入值（x）以預測輸出值（y）。與線性回歸的主要區別在于，建模的輸出值是二進制值（0或1）而不是數值。以下是邏輯回歸方程的示例： y = e ^（b0 + b1 * x）/（1 + e ^（b0 + b1 * x））其中y是預測輸出，b0是偏差或截距項，b1是單個輸入值（x）的系數。輸入數據中的每一列都有一個相關的b系數（一個恒定的實際值），必須從訓練數據中學習。您將存儲在存儲器或文件中的模型的實際表示是等式中的系數（β值或b）。 ## 獲取免費算法思維導圖 ![Machine Learning Algorithms Mind Map](img/2ce1275c2a1cac30a9f4eea6edd42d61.jpg) 方便的機器學習算法思維導圖的樣本。我已經創建了一個由類型組織的60多種算法的方便思維導圖。下載，打印并使用它。 ## Logistic回歸預測概率（技術插曲）邏輯回歸模擬默認類（例如第一類）的概率。例如，如果我們從他們的身高模擬人的性別為男性或女性，那么第一類可能是男性，邏輯回歸模型可以寫成男性給予一個人身高的概率，或者更正式： P（性別=男|高）換句話說，我們正在模擬輸入（X）屬于默認類（Y = 1）的概率，我們可以正式地將其寫為： P（X）= P（Y = 1 | X）我們預測概率？我認為邏輯回歸是一種分類算法？注意，必須將概率預測變換為二進制值（0或1）以便實際進行概率預測。稍后我們談論做出預測時會有更多相關內容。邏輯回歸是一種線性方法，但使用邏輯函數轉換預測。這樣做的影響是我們不能再將預測理解為輸入的線性組合，因為我們可以使用線性回歸，例如，從上面繼續，模型可以表示為： p（X）= e ^（b0 + b1 * X）/（1 + e ^（b0 + b1 * X））我不想過多地深入研究數學，但是我們可以如下轉換上面的等式（記住我們可以通過向另一方添加自然對數（ln）來從一側移除e）： ln（p（X）/ 1-p（X））= b0 + b1 * X. 這很有用，因為我們可以看到右邊的輸出計算再次是線性的（就像線性回歸一樣），左邊的輸入是默認類概率的對數。左邊的這個比率被稱為默認等級的幾率（它是我們使用賠率的歷史，例如，賠率用于賽馬而不是概率）。賠率計算為事件概率除以事件概率的比率，例如： 0.8 /（1-0.8），賠率為4.所以我們可以寫： ln（賠率）= b0 + b1 * X. 因為賠率是對數轉換的，所以我們稱這個左側為對數賠率或概率。可以使用其他類型的函數用于變換（其超出范圍_，但是因此通常將關于線性回歸方程與概率相關的變換稱為鏈接函數，例如概率鏈接函數。我們可以將指數向右移動并將其寫為：賠率= e ^（b0 + b1 * X）所有這些都有助于我們理解模型確實仍然是輸入的線性組合，但這種線性組合與默認類的對數幾率相關。 ## 學習Logistic回歸模型必須根據訓練數據估算邏輯回歸算法的系數（Beta值b）。這是使用最大似然估計來完成的。 [最大似然估計](https://en.wikipedia.org/wiki/Maximum_likelihood)是各種機器學習算法使用的常用學習算法，盡管它確實對數據的分布做出了假設（當我們談論準備數據時更多關于此）。最佳系數將導致模型預測默認類非常接近1的值（例如男性）和非常接近0的值（例如女性）用于另一類。邏輯回歸的最大似然性的直覺是搜索過程尋求系數（Beta值）的值，其將模型預測的概率中的誤差最小化到數據中的概率（例如，如果數據是主要的則概率為1）類）。我們不打算進行最大可能性的計算。可以說最小化算法用于優化訓練數據系數的最佳值。這通常在實踐中使用有效的數值優化算法（如 [Quasi-newton方法](https://en.wikipedia.org/wiki/Quasi-Newton_method)）來實現。當您學習邏輯時，您可以使用更簡單的梯度下降算法從頭開始實現它。 ![Logistic Regression for Machine Learning](img/ce9bcd4ed68161d56dc06957b1db910d.jpg) 機器學習的邏輯回歸攝影： [woodleywonderworks](https://www.flickr.com/photos/wwworks/1430522839) ，保留一些權利。 ## 利用Logistic回歸進行預測使用邏輯回歸模型進行預測就像將數字插入邏輯回歸方程并計算結果一樣簡單。讓我們通過一個具體的例子來具體化。假設我們有一個模型可以根據他們的身高（完全是虛構的）來預測一個人是男性還是女性。鑒于身高150厘米的是男性或女性。我們已經學習了系數b0 = -100和b1 = 0.6。使用上面的等式，我們可以計算出正式為150厘米或更高的男性P（男性身高= 150）的概率。我們將使用EXP（）作為e，因為如果您在電子表格中鍵入此示例，則可以使用此功能： y = e ^（b0 + b1 * X）/（1 + e ^（b0 + b1 * X）） y = exp（-100 + 0.6 * 150）/（1 + EXP（-100 + 0.6 * X）） y = 0.0000453978687 或者該人是男性的概率幾乎為零。在實踐中，我們可以直接使用概率。因為這是分類，我們想要一個清晰的答案，我們可以將概率捕捉到二進制類值，例如：如果p（男性）<0，則為0 0.5 如果p（男性）> = 0.5，則為1 現在我們已經知道如何使用邏輯回歸進行預測，讓我們看看如何準備我們的數據以從技術中獲得最大收益。 ## 為Logistic回歸準備數據邏輯回歸關于數據中的分布和關系的假設與線性回歸中的假設大致相同。許多研究已經用于定義這些假設，并使用精確的概率和統計語言。我的建議是使用這些作為指導或經驗法則，并嘗試不同的數據準備方案。最終，在預測建模機器學習項目中，您將專注于進行準確的預測，而不是解釋結果。因此，只要模型健壯且表現良好，您就可以打破一些假設。 * **二進制輸出變量**：這可能是顯而易見的，因為我們已經提到它，但邏輯回歸是針對二進制（兩類）分類問題。它將預測屬于默認類的實例的概率，可以將其捕捉到0或1分類中。 * **去除噪音**：Logistic回歸假設輸出變量（y）沒有錯誤，請考慮從訓練數據中刪除異常值和可能錯誤分類的實例。 * **高斯分布**：邏輯回歸是一種線性算法（對輸出進行非線性變換）。它確實假設輸入變量與輸出之間存在線性關系。輸入變量的數據變換可以更好地暴露這種線性關系，從而可以獲得更準確的模型。例如，您可以使用log，root，Box-Cox和其他單變量轉換來更好地公開此關系。 * **刪除相關輸入**：與線性回歸一樣，如果您有多個高度相關的輸入，模型可能會過度擬合。考慮計算所有輸入之間的成對相關性并去除高度相關的輸入。 * **未能收斂**：學習系數的預期似然估計過程有可能無法收斂。如果數據中存在許多高度相關的輸入或數據非常稀疏（例如輸入數據中存在大量零），則會發生這種情況。 ## 進一步閱讀邏輯回歸有很多可用的材料。它是生命科學和經濟學等五門學科的最愛。 ### Logistic回歸資源查看下面的一些書籍，了解有關邏輯回歸算法的更多詳細信息。 * [廣義線性模型，第二版](http://www.amazon.com/dp/0412317605?tag=inspiredalgor-20) * [Logistic回歸：引物](http://www.amazon.com/dp/0761920102?tag=inspiredalgor-20) * [應用Logistic回歸](http://www.amazon.com/dp/0470582472?tag=inspiredalgor-20) * [Logistic回歸：自學文本](http://repository.cmu.edu/cgi/viewcontent.cgi?article=1217&context=robotics) [PDF]。 ### 機器學習中的Logistic回歸對于機器學習焦點（例如僅在進行準確預測時），請查看下面一些流行機器學習文本中邏輯回歸的覆蓋范圍： * [人工智能：現代方法（第3版）](http://www.amazon.com/dp/0136042597?tag=inspiredalgor-20)，第725-727頁 * [黑客機器學習](http://www.amazon.com/dp/1449303714?tag=inspiredalgor-20)，第178-182頁 * [統計學習簡介：在R](http://www.amazon.com/dp/1461471370?tag=inspiredalgor-20) 中的應用，第130-137頁 * [統計學習要素：數據挖掘，推理和預測](http://www.amazon.com/dp/0387848576?tag=inspiredalgor-20)，第119-128頁 * [Applied Predictive Modeling](http://www.amazon.com/dp/1461468485?tag=inspiredalgor-20) ，第282-287頁如果我選擇一個，我會指向[統計學習簡介](http://www.amazon.com/dp/1461471370?tag=inspiredalgor-20)。這是一本很好的書。 ## 摘要在這篇文章中，您發現了用于機器學習和預測建模的邏輯回歸算法。你涵蓋了很多方面并且學到了： * 邏輯函數是什么以及如何在邏輯回歸中使用它。 * 邏輯回歸中的關鍵表示是系數，就像線性回歸一樣。 * 使用稱為最大似然估計的過程估計邏輯回歸中的系數。 * 使用邏輯回歸進行預測非常簡單，您可以在Excel中進行預測。 * 邏輯回歸的數據準備很像線性回歸。您對后退回歸或此帖有任何疑問嗎？發表評論并問，我會盡力回答。