淺談機器學習的中心極限定理 · Machine Learning Mastery 博客文章翻譯

# 淺談機器學習的中心極限定理 > 原文： [https://machinelearningmastery.com/a-gentle-introduction-to-the-central-limit-theorem-for-machine-learning/](https://machinelearningmastery.com/a-gentle-introduction-to-the-central-limit-theorem-for-machine-learning/) 中心極限定理是經常被引用但卻被誤解的統計和機器學習的支柱。它經常與大數定律混淆。雖然這個定理對于初學者來說似乎有些深奧，但它對于我們如何以及為什么能夠推斷機器學習模型的技能有重要意義，例如一個模型在統計上是否優于另一個模型以及模型技能的置信區間。在本教程中，您將發現中心極限定理以及統計和概率這一重要支柱對應用機器學習的影響。完成本教程后，您將了解： * 中心極限定理將樣本均值分布的形狀描述為高斯分布，這是統計數據所知的分布。 * 如何在Python中開發一個模擬骰子卷的例子來演示中心極限定理。 * 如何利用中心極限定理和高斯分布知識對應用機器學習中的模型表現進行推理。讓我們開始吧。 ![A Gentle Introduction to the Central Limit Theorem for Machine Learning](img/356375031346e30ad339f5d6732e3b11.jpg) 機器學習中心極限定理的溫和介紹 [Alan Levine](https://www.flickr.com/photos/cogdog/36235522565/) 的照片，保留一些權利。 ## 教程概述本教程分為3個部分;他們是： 1. 中心極限定理 2. 用骰子工作的例子 3. 對機器學習的影響 ## 中心極限定理中心極限定理，簡稱CLT，是統計和概率領域的重要發現和支柱。起初看起來有點深奧，所以請堅持下去。事實證明，這一發現對于在應用機器學習中做出推論至關重要。該定理指出，隨著樣本的大小增加，多個樣本的均值分布將接近高斯分布。讓我們打破這個。我們可以想象進行試驗并獲得結果或觀察。我們可以再次重復試驗并獲得一個新的獨立觀察。收集在一起，多個觀察代表觀察樣本。樣本是來自更廣泛人群的一組觀察結果，這些觀察結果可以通過試驗進行。 * **觀察**：來自一次實驗的試驗結果。 * **樣本**：從單獨的獨立試驗中收集的一組結果。 * **人口**：從試驗中可以看到的所有可能觀察的空間。如果我們計算樣本的平均值，它將是人口分布均值的估計值。但是，像任何估計一樣，這將是錯誤的并且將包含一些錯誤。如果我們繪制多個獨立樣本并計算其均值，則這些均值的分布將形成高斯分布。重要的是，每次導致觀察的試驗都是獨立的，并以相同的方式進行。這是為了確保樣本來自相同的基礎人口分布。更正式地說，這種期望被稱為[獨立且相同分布的](https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables)或iid。首先，中心極限定理是令人印象深刻的，尤其是無論我們從中抽取樣本的人口分布的形狀如何都會出現這種情況。它表明，估計總體均值的誤差分布符合統計領域非常了解的分布。其次，隨著從群體中抽取的樣本的大小增加，這種高斯分布的估計將更準確。這意味著如果我們使用我們對高斯分布的一般知識來開始推斷從群體中抽取樣本的方法，那么隨著我們增加樣本量，這些推論將變得更有用。中心限制中心極限定理的一個有趣含義是，一個非常聰明的科學家曾經提到過，你可以用它來生成高斯隨機數。您可以生成一致的隨機整數，將它們的組合在一起，并且總和的結果將是高斯的。請記住，均值只是樣本的歸一化總和。與其他方法（如Box-Muller方法）相比，它是一種生成隨機高斯變量的較慢方法，但該定理的清晰（和巧妙）應用。 ### 大數定律中心極限定理經常與初學者的大數定律相混淆。大數定律是另一種與統計學不同的定理。它更簡單，因為它表明隨著樣本的大小增加，樣本平均值的估計值將更準確。中心極限定理沒有說明單個樣本均值的任何內容;相反，它更廣泛，并說明了樣本均值的形狀或分布。大數定律是直觀的。這就是為什么我們認為收集更多數據將導致來自該領域的更具代表性的觀測樣本。該定理支持這種直覺。中心極限定理不直觀。相反，我們可以利用這一發現來對樣本手段提出主張。 ## 用骰子工作的例子我們可以通過一個涉及模具軋制的實例來使中心極限定理具體化。請記住，骰子是一個立方體，每邊的數字不同，從1到6。每個號碼都有一個六分之一的可能性。考慮到相同的可能性，從骰子卷開始的數字的分布是均勻的。我們可以使用 _randint（）_ NumPy函數來生成1到6之間的特定數量的隨機骰子卷（例如50）。 ```py # generate a sample of die rolls rolls = randint(1, 7, 50) ``` 下面列出了完整的示例。 ```py # generate random dice rolls from numpy.random import seed from numpy.random import randint from numpy import mean # seed the random number generator seed(1) # generate a sample of die rolls rolls = randint(1, 7, 50) print(rolls) print(mean(rolls)) ``` 運行該示例生成并打印50個模具卷的樣本和樣本的平均值。我們知道分布的平均值是3.5，計算為（1 + 2 + 3 + 4 + 5 + 6）/ 6或21/6。我們可以看到樣本的平均值略有錯誤，這是預期的，因為它是對總體平均值的估計。 ```py [6 4 5 1 2 4 6 1 1 2 5 6 5 2 3 5 6 3 5 4 5 3 5 6 3 5 2 2 1 6 2 2 6 2 2 1 5 2 1 1 6 4 3 2 1 4 6 2 2 4] 3.44 ``` 這是將模擬模具滾動50次的結果。然后我們可以多次重復此過程，例如1,000。這將給我們1000個樣本手段的結果。根據中心極限定理，這些樣本均值的分布將是高斯分布。下面的示例執行此實驗并繪制樣本均值的結果分布。 ```py # demonstration of the central limit theorem from numpy.random import seed from numpy.random import randint from numpy import mean from matplotlib import pyplot # seed the random number generator seed(1) # calculate the mean of 50 dice rolls 1000 times means = [mean(randint(1, 7, 50)) for _ in range(1000)] # plot the distribution of sample means pyplot.hist(means) pyplot.show() ``` 運行該示例將創建樣本均值的直方圖。我們可以從分布的形狀看出分布是高斯分布。值得注意的是，樣本中的誤差量意味著我們可以在50個骰子卷的1,000次試驗中看到。此外，中心極限定理還指出，隨著每個樣本的大小（在這種情況下為50）增加，則樣本裝置將接近高斯分布越好。 ![Histogram Plot of Sample Means from Dice Rolls](img/d5ad24f1e96c1708e379c6e3220e8d50.jpg) 來自骰子卷的樣本均值的直方圖 ## 對機器學習的影響中心極限定理在應用機器學習中具有重要意義。該定理確實為線性回歸等線性算法提供了解決方案，但并未通過數值優化方法求解人工神經網絡等奇異方法。相反，我們必須使用實驗來觀察和記錄算法的行為，并使用統計方法來解釋它們的結果。我們來看兩個重要的例子。 ### 意義測試為了推斷模型的技能與另一個模型的技能相比，我們必須使用諸如統計顯著性測試之類的工具。這些工具估計模型技能分數的兩個樣本來自相同或不同的模型技能分數的未知基礎分布的可能性。如果看起來樣本是從相同的群體中抽取的，那么假設模型技能之間沒有差異，并且任何實際差異都歸因于統計噪聲。像這樣做推理聲明的能力是由于中心極限定理和我們對高斯分布的了解以及兩個樣本均值成為樣本均值的相同高斯分布的一部分的可能性。 ### 置信區間一旦我們訓練了最終模型，我們可能希望推斷該模型在實踐中的技巧程度。這種不確定性的表示稱為置信區間。我們可以開發多個獨立（或接近獨立）的模型精度評估，以產生一組候選技能估計。這些技能估計的平均值將是對問題的模型技能的真實潛在估計的估計（有錯誤）。由于知道樣本均值將是中心極限定理的高斯分布的一部分，我們可以使用高斯分布的知識來估計基于樣本大小的樣本均值的可能性，并計算圍繞該樣本大小的所需置信區間。模特的技巧。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 在應用機器學習中建議兩個額外區域，其中中心極限定理可能是相關的。 * 實現一個函數，用于生成隨機高斯數，利用中心極限定理和從均勻分布中得出的數字。 * 更新骰子卷的演示以演示樣本大小與樣本均值的高斯分布的保真度之間的關系。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### API * [numpy.random.seed（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.seed.html) * [numpy.random.randint（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randint.html) * [numpy.mean（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.mean.html) ### 用品 * [維基百科上的中心極限定理](https://en.wikipedia.org/wiki/Central_limit_theorem) * [維基百科上的中心極限定理圖](https://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem) * [維基百科上的大數定律](https://en.wikipedia.org/wiki/Law_of_large_numbers) ## 摘要在本教程中，您發現了中心極限定理以及統計和概率這一重要支柱對應用機器學習的影響。具體來說，你學到了： * 中心極限定理將樣本均值分布的形狀描述為高斯分布，這是統計數據所知的分布。 * 如何在Python中開發一個模擬骰子卷的例子來演示中心極限定理。 * 如何利用中心極限定理和高斯分布知識對應用機器學習中的模型表現進行推理。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。