機器學習的線性回歸 · Machine Learning Mastery 博客文章翻譯

# 機器學習的線性回歸 > 原文： [https://machinelearningmastery.com/linear-regression-for-machine-learning/](https://machinelearningmastery.com/linear-regression-for-machine-learning/) 線性回歸可能是統計學和機器學習中最知名且易于理解的算法之一。在這篇文章中，您將發現線性回歸算法，它如何工作以及如何在機器學習項目中最好地使用它。在這篇文章中，您將學習： * 為什么線性回歸屬于統計學和機器學習。 * 知道線性回歸的眾多名稱。 * 用于創建線性回歸模型的表示和學習算法。 * 如何使用線性回歸進行建模時最好地準備數據。您不需要知道任何統計數據或線性代數來理解線性回歸。這是對該技術的溫和高級介紹，為您提供足夠的背景，以便能夠有效地使用它來解決您自己的問題。讓我們開始吧。 ![Linear Regression for Machine Learning](img/eb5e9c48b845758d310012c31ed92a57.jpg) 機器學習的線性回歸照片由 [Nicolas Raymond](https://www.flickr.com/photos/82955120@N05/7645683004/) 拍攝，保留一些權利。 ## 統計學不是線性回歸嗎？在我們深入了解線性回歸的細節之前，您可能會問自己為什么要查看此算法。這不是一項統計技術嗎？機器學習，更具體地說是預測建模領域，主要關注的是最小化模型的誤差或使可能性最準確的預測，但代價是可解釋性。在應用機器學習中，我們將借用，重用和竊取來自許多不同領域的算法，包括統計數據并將其用于這些目的。因此，在統計學領域開發了線性回歸，并且作為理解輸入和輸出數值變量之間關系的模型進行了研究，但是已經被機器學習所借鑒。它既是統計算法又是機器學習算法。接下來，讓我們回顧一下用于指代線性回歸模型的一些常用名稱。 ## 獲取免費算法思維導圖 ![Machine Learning Algorithms Mind Map](img/2ce1275c2a1cac30a9f4eea6edd42d61.jpg) 方便的機器學習算法思維導圖的樣本。我已經創建了一個由類型組織的60多種算法的方便思維導圖。下載，打印并使用它。 ## 許多線性回歸的名稱當你開始研究線性回歸時，事情會變得非常混亂。原因是因為線性回歸已存在很長時間（超過200年）。它已經從每個可能的角度進行了研究，并且通常每個角度都有一個新的和不同的名稱。線性回歸是**線性模型**，例如，假設輸入變量（x）和單個輸出變量（y）之間存在線性關系的模型。更具體地，y可以從輸入變量（x）的線性組合計算。當存在單個輸入變量（x）時，該方法稱為**簡單線性回歸**。當存在**多個輸入變量**時，來自統計學的文獻通常將該方法稱為多元線性回歸。可以使用不同的技術從數據中準備或訓練線性回歸方程，其中最常見的是**普通最小二乘**。因此，通常將以這種方式制備的模型稱為普通最小二乘線性回歸或僅最小二乘回歸。現在我們知道了一些用于描述線性回歸的名稱，讓我們仔細看看所使用的表示。 ## 線性回歸模型表示 [線性回歸](https://en.wikipedia.org/wiki/Linear_regression)是一個有吸引力的模型，因為表示非常簡單。該表示是一個線性方程，它組合了一組特定的輸入值（x），該解決方案是該組輸入值（y）的預測輸出。因此，輸入值（x）和輸出值都是數字。線性方程為每個輸入值或列分配一個比例因子，稱為系數，由大寫希臘字母Beta（B）表示。還增加了一個附加系數，使線具有額外的自由度（例如，在二維圖上上下移動），并且通常稱為截距或偏置系數。例如，在一個簡單的回歸問題（單個x和單個y）中，模型的形式為： y = B0 + B1 * x 在具有多個輸入（x）的較高維度中，該線被稱為平面或超平面。因此，該表示是等式的形式和用于系數的特定值（例如，在以上示例中為B0和B1）。談論像線性回歸這樣的回歸模型的復雜性是很常見的。這是指模型中使用的系數數量。當系數變為零時，它有效地消除了輸入變量對模型的影響，因此也消除了模型的預測（0 * x = 0）。如果你看一下改變學習算法的正則化方法，通過對系數的絕對大小施加壓力，將某些系數調到零來降低回歸模型的復雜性，這就變得相關了。現在我們已經理解了用于線性回歸模型的表示，讓我們回顧一下我們可以從數據中學習這種表示的一些方法。 ![What is Linear Regression?](img/ede1561b2c8b5228d0d5c4f7ccc45168.jpg) 什么是線性回歸？ [Estitxu Carton](https://www.flickr.com/photos/bichuas/3961559679/) 的照片，保留一些權利。 ## 線性回歸學習模型學習線性回歸模型意味著使用我們可用的數據估計表示中使用的系數的值。在本節中，我們將簡要介紹準備線性回歸模型的四種技術。這不足以從頭開始實現它們，但足以讓人了解所涉及的計算和權衡。還有更多技術，因為模型研究得很好。注意普通的最小二乘法，因為它是一般使用的最常用的方法。還要注意Gradient Descent，因為它是機器學習課程中最常用的技術。 ### 1.簡單線性回歸通過簡單的線性回歸，當我們有一個輸入時，我們可以使用統計來估計系數。這要求您根據數據計算統計特性，例如均值，標準差，相關性和協方差。所有數據必須可用于遍歷和計算統計數據。這在excel中很有趣，但在實踐中并沒有真正有用。 ### 2.普通的最小二乘法當我們有多個輸入時，我們可以使用普通最小二乘來估計系數的值。 [普通最小二乘](https://en.wikipedia.org/wiki/Ordinary_least_squares)程序試圖最小化殘差平方和。這意味著給定數據的回歸線，我們計算從每個數據點到回歸線的距離，將其平方，并將所有平方誤差加在一起。這是普通最小二乘法尋求最小化的數量。該方法將數據視為矩陣，并使用線性代數運算來估計系數的最佳值。這意味著所有數據都必須可用，并且您必須有足夠的內存來適應數據并執行矩陣運算。除非作為線性代數中的練習，否則自己實施普通最小二乘法是不常見的。您更有可能在線性代數庫中調用過程。此過程計算速度非常快。 ### 3.梯度下降當有一個或多個輸入時，您可以通過迭代最小化訓練數據模型的誤差來使用優化系數值的過程。此操作稱為[梯度下降](https://en.wikipedia.org/wiki/Gradient_descent)，其工作原理是從每個系數的隨機值開始。計算每對輸入和輸出值的平方誤差之和。學習率用作比例因子，并且系數在朝向最小化誤差的方向上更新。重復該過程直到達到最小和平方誤差或者不可能進一步改進。使用此方法時，必須選擇學習率（alpha）參數，該參數確定要在過程的每次迭代中采用的改進步驟的大小。通常使用線性回歸模型來教授梯度下降，因為它相對簡單易懂。實際上，當您在行數或可能不適合內存的列數中擁有非常大的數據集時，它非常有用。 ### 4.正規化線性模型的訓練有擴展，稱為正則化方法。這些都試圖最小化模型在訓練數據上的平方誤差之和（使用普通最小二乘），但也降低模型的復雜性（如模型中所有系數之和的數量或絕對大小）。線性回歸正則化程序的兩個常見例子是： * [套索回歸](https://en.wikipedia.org/wiki/Lasso_(statistics))：修改普通最小二乘法以最小化系數的絕對和（稱為L1正則化）。 * [嶺回歸](https://en.wikipedia.org/wiki/Tikhonov_regularization)：修改普通最小二乘法以最小化系數的平方絕對和（稱為L2正則化）。當輸入值存在共線性且普通最小二乘法會過度擬合訓練數據時，這些方法可以有效使用。既然您已經了解了一些在線性回歸模型中學習系數的技術，那么讓我們看一下如何使用模型對新數據進行預測。 ## 用線性回歸進行預測如果表示是一個線性方程，那么進行預測就像解決一組特定輸入的方程一樣簡單。讓我們以一個例子來具體化。想象一下，我們從高度（x）預測重量（y）。我們對這個問題的線性回歸模型表示如下： y = B0 + B1 * x1 要么重量= B0 + B1 *高度其中B0是偏差系數，B1是高度列的系數。我們使用學習技術來找到一組好的系數值。一旦找到，我們可以插入不同的高度值來預測重量。例如，讓我們使用B0 = 0.1和B1 = 0.5。讓我們將它們插入并計算出身高182厘米的人的體重（千克）。重量= 0.1 + 0.5 * 182 重量= 91.1 您可以看到上面的等式可以繪制為二維線。無論我們有多高，B0都是我們的起點。我們可以在100到250厘米的高度上運行并將它們插入等式并獲得重量值，從而創建我們的生產線。 ![Sample Height vs Weight Linear Regression](img/6c34d39327369150d1a1e8c38e1b8efe.jpg) 樣本高度和權重線性回歸既然我們已經知道如何在學習線性回歸模型的情況下進行預測，那么讓我們看看準備數據的一些經驗法則，以充分利用這種類型的模型。 ## 準備線性回歸數據對線性回歸進行了長時間的研究，并且有很多關于如何構建數據以充分利用模型的文獻。因此，在談論可能令人生畏的這些要求和期望時，有很多復雜性。在實踐中，當使用普通最小二乘回歸時，您可以更多地使用這些規則，這是最常見的線性回歸實現。使用這些啟發式方法嘗試不同的數據準備工作，看看哪種方法最適合您的問題。 * **線性假設**。線性回歸假設輸入和輸出之間的關系是線性的。它不支持任何其他內容。這可能是顯而易見的，但是當你有很多屬性時，記住它是件好事。您可能需要轉換數據以使關系成為線性關系（例如，指數關系的對數轉換）。 * **去除噪音**。線性回歸假設您的輸入和輸出變量沒有噪聲。請考慮使用數據清理操作，以便更好地公開和闡明數據中的信號。這對輸出變量最重要，如果可能，您希望刪除輸出變量（y）中的異常值。 * **刪除共線性**。當您具有高度相關的輸入變量時，線性回歸將過度擬合您的數據。考慮計算輸入數據的成對相關性并刪除最相關的數據。 * **高斯分布**。如果輸入和輸出變量具有高斯分布，則線性回歸將進行更可靠的預測。您可以使用變換（例如log或BoxCox）在變量上獲得一些好處，使其分布更加高斯。 * **重新縮放輸入**：如果使用標準化或標準化重新縮放輸入變量，線性回歸通常會做出更可靠的預測。有關模型所做假設的優秀列表，請參閱 [Wikipedia關于線性回歸](https://en.wikipedia.org/wiki/Linear_regression#Assumptions)的文章。 [普通最小二乘維基百科文章](https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions)也有很多假設。 ## 進一步閱讀還有更多關于線性回歸的內容。在您進行更多閱讀之前開始使用它，但是當您想要深入了解時，下面是您可以使用的一些參考。 ### 提及線性回歸的機器學習書籍這些是您可能擁有或可訪問的一些機器學習書籍，它們描述了機器學習環境中的線性回歸。 * [機器學習的第一門課程](http://www.amazon.com/dp/1439824142?tag=inspiredalgor-20)，第1章。 * [統計學習簡介：應用于R](http://www.amazon.com/dp/1461471370?tag=inspiredalgor-20) ，第3章。 * [Applied Predictive Modeling](http://www.amazon.com/dp/1461468485?tag=inspiredalgor-20) ，第6章。 * [機器學習在行動](http://www.amazon.com/dp/1617290181?tag=inspiredalgor-20)，第8章。 * [統計學習要素：數據挖掘，推理和預測，第二版](http://www.amazon.com/dp/0387848576?tag=inspiredalgor-20)，第3章。 ### 線性回歸的帖子以下是我遇到的一些有趣的關于線性回歸的文章和博客文章。 * [普通最小二乘回歸：視覺解釋](http://setosa.io/ev/ordinary-least-squares-regression/) * [普通最小二乘線性回歸：缺陷，問題和陷阱](http://www.clockbackward.com/2009/06/18/ordinary-least-squares-linear-regression-flaws-problems-and-pitfalls/) * [線性回歸分析介紹](http://people.duke.edu/~rnau/regintro.htm) * [研究人員應該總是測試的多重回歸的四個假設](http://pareonline.net/getvn.asp?n=2&v=8) 對線性回歸有更多好的參考，并且傾向于機器學習和預測建模？發表評論并告訴我。 ## 摘要在這篇文章中，您發現了用于機器學習的線性回歸算法。你涵蓋了很多方面，包括： * 描述線性回歸模型時使用的通用名稱。 * 模型使用的表示。 * 學習算法用于估計模型中的系數。 * 準備用于線性回歸的數據時要考慮的經驗法則。嘗試線性回歸并熟悉它。您對線性回歸或此帖有任何疑問嗎？發表評論并問，我會盡力回答。