用于機器學習的裝袋和隨機森林集合算法 · Machine Learning Mastery 博客文章翻譯

# 用于機器學習的裝袋和隨機森林集合算法 > 原文： [https://machinelearningmastery.com/bagging-and-random-forest-ensemble-algorithms-for-machine-learning/](https://machinelearningmastery.com/bagging-and-random-forest-ensemble-algorithms-for-machine-learning/) 隨機森林是最流行和最強大的機器學習算法之一。它是一種稱為Bootstrap Aggregation或bagging的集成機器學習算法。在這篇文章中，您將發現Bagging集合算法和用于預測建模的隨機森林算法。閱讀本文后，您將了解： * 用于從樣本估計統計量的自助方法。 * Bootstrap Aggregation算法，用于從單個訓練數據集創建多個不同的模型。 * 隨機森林算法對Bagging做了一些小調整，產生了一個非常強大的分類器。這篇文章是為開發人員編寫的，并沒有統計或數學方面的背景。該文章重點介紹了算法的工作原理以及如何將其用于預測建模問題。如果您有任何疑問，請發表評論，我會盡力回答。讓我們開始吧。 ![Bagging and Random Forest Ensemble Algorithms for Machine Learning](img/fe96503a5f5ea1aafb65de137f9e6a7f.jpg) 用于機器學習的套袋和隨機森林集合算法照片由 [Nicholas A. Tonelli](https://www.flickr.com/photos/nicholas_t/9660920448/) 拍攝，保留一些權利。 ## Bootstrap方法在我們開始Bagging之前，讓我們快速瀏覽一下名為bootstrap的重要基礎技術。引導程序是一種用于從數據樣本中估計數量的強大統計方法。如果數量是描述性統計量（例如均值或標準差），則最容易理解。假設我們有100個值（x）的樣本，我們想要估計樣本的平均值。我們可以直接從樣本計算平均值： mean（x）= 1/100 * sum（x）我們知道我們的樣本很小，而且我們的平均值有錯誤。我們可以使用引導程序改進我們的均值估計： 1. 使用替換創建我們的數據集的許多（例如1000個）隨機子樣本（意味著我們可以多次選擇相同的值）。 2. 計算每個子樣本的平均值。 3. 計算所有收集平均值的平均值，并將其用作數據的估計平均值。例如，假設我們使用了3個重新采樣并得到了平均值2.3,4.5和3.3。取這些數據的平均值，我們可以將估計的數據平均值設為3.367。該過程可用于估計其他量，例如標準偏差，甚至是機器學習算法中使用的量，例如學習系數。 ## 獲取免費算法思維導圖 ![Machine Learning Algorithms Mind Map](img/2ce1275c2a1cac30a9f4eea6edd42d61.jpg) 方便的機器學習算法思維導圖的樣本。我已經創建了一個由類型組織的60多種算法的方便思維導圖。下載，打印并使用它。 ## 引導聚合（套袋） Bootstrap Aggregation（簡稱Bagging）是一種簡單而強大的集成方法。集合方法是將來自多個機器學習算法的預測組合在一起以比任何單個模型進行更準確的預測的技術。 Bootstrap Aggregation是一種通用過程，可用于減少具有高方差的算法的方差。具有高方差的算法是決策樹，如分類和回歸樹（CART）。決策樹對它們所訓練的特定數據敏感。如果訓練數據被改變（例如，樹在訓練數據的子集上訓練），則所得到的決策樹可以是完全不同的，并且反過來預測可以是完全不同的。 Bagging是Bootstrap程序應用于高方差機器學習算法，通常是決策樹。假設我們有一個1000個實例（x）的樣本數據集，我們正在使用CART算法。套袋CART算法將如下工作。 1. 使用替換創建我們的數據集的許多（例如100個）隨機子樣本。 2. 在每個樣本上訓練CART模型。 3. 給定新數據集，計算每個模型的平均預測。例如，如果我們有5個袋裝決策樹對輸入樣本進行以下類預測：藍色，藍色，紅色，藍色和紅色，我們將采用最頻繁的類并預測藍色。在使用決策樹進行裝袋時，我們不太關心過度擬合訓練數據的單個樹木。出于這個原因并且為了效率，各個決策樹生長得很深（例如，樹的每個葉節點處的訓練樣本很少）并且樹沒有被修剪。這些樹將具有高方差和低偏差。當使用裝袋組合預測時，這些是子模型的重要特征。裝袋決策樹的唯一參數是樣本數量，因此包括樹木的數量。這可以通過在運行之后增加運行中的樹的數量來選擇，直到精度開始停止顯示改進（例如，在交叉驗證測試裝置上）。非常多的模型可能需要很長時間來準備，但不會過度擬合訓練數據。就像決策樹本身一樣，Bagging可用于分類和回歸問題。 ## 隨機森林隨機森林是對袋裝決策樹的改進。像CART這樣的決策樹的問題在于它們是貪婪的。他們使用最小化錯誤的貪婪算法選擇要拆分的變量。因此，即使使用Bagging，決策樹也可以具有許多結構相似性，并且反過來在它們的預測中具有高度相關性。如果來自子模型的預測是不相關的或者最好是弱相關的，則將來自多個模型的預測組合在一起可以更好地工作。隨機森林改變算法以獲得子樹的學習方式，以便來自所有子樹的結果預測具有較少的相關性。這是一個簡單的調整。在CART中，當選擇分割點時，允許學習算法查看所有變量和所有變量值，以便選擇最佳分割點。隨機森林算法改變了該過程，使得學習算法僅限于要搜索的特征的隨機樣本。必須將每個分割點（m）處可搜索的要素數指定為算法的參數。您可以嘗試不同的值并使用交叉驗證進行調整。 * 對于分類，一個好的默認值是：m = sqrt（p） * 對于回歸，一個好的默認值是：m = p / 3 其中m是可以在分裂點搜索的隨機選擇的特征的數量，p是輸入變量的數量。例如，如果數據集有25個輸入變量用于分類問題，那么： * m = sqrt（25） * m = 5 ## 估計的表現對于從訓練數據中取得的每個bootstrap樣本，將留下未包含的樣本。這些樣品稱為Out-Of-Bag樣品或OOB。當平均時，每個模型在其左側樣本上的表現可以提供袋裝模型的估計準確度。這種估計的表現通常稱為OOB表現估計。這些表現指標是可靠的測試誤差估計，并與交叉驗證估計相關聯。 ## 變量重要性在構造Bagged決策樹時，我們可以計算每個分裂點處變量的誤差函數下降的程度。在回歸問題中，這可能是總和平方誤差的下降，在分類中，這可能是基尼分數。可以在所有決策樹和輸出中對這些誤差下降進行平均，以估計每個輸入變量的重要性。選擇變量時下降越大，重要性越大。這些輸出可以幫助識別可能與問題最相關或最不相關的輸入變量子集，并建議您可以在從數據集中刪除某些特征的情況下執行的特征選擇實驗。 ## 進一步閱讀套袋是一種簡單的技術，在大多數介紹性機器學習文本中都有介紹。下面列出了一些示例。 * [統計學習簡介：在R](http://www.amazon.com/dp/1461471370?tag=inspiredalgor-20) 中的應用，第8章。 * [Applied Predictive Modeling](http://www.amazon.com/dp/1461468485?tag=inspiredalgor-20) ，第8章和第14章。 * [統計學習要素：數據挖掘，推理和預測](http://www.amazon.com/dp/0387848576?tag=inspiredalgor-20)，第15章 ## 摘要在這篇文章中，您發現了Bagging集合機器學習算法和稱為隨機森林的流行變體。你了解到： * 如何從數據樣本中估算統計量。 * 如何使用裝袋??來組合來自多個高方差模型的預測。 * 如何在裝袋時調整決策樹的構造以使其預測脫相關，這種技術稱為隨機森林。您對此帖子或Bagging或Random Forest Ensemble算法有任何疑問嗎？發表評論并提出問題，我會盡力回答。