淺談機器學習中的大數定律 · Machine Learning Mastery 博客文章翻譯

# 淺談機器學習中的大數定律 > 原文： [https://machinelearningmastery.com/a-gentle-introduction-to-the-law-of-large-numbers-in-machine-learning/](https://machinelearningmastery.com/a-gentle-introduction-to-the-law-of-large-numbers-in-machine-learning/) 我們有一種直覺，即更多觀察更好。如果我們收集更多數據，我們的數據樣本將更能代表問題域，這與此背后的直覺相同。統計和概率中有一個定理支持這種直覺，這是這兩個領域的支柱，并且在應用機器學習中具有重要意義。這個定理的名稱是大數定律。在本教程中，您將發現大數定律及其在應用機器學習中的重要性。完成本教程后，您將了解： * 大數定律支持這樣的直覺：當樣本的大小增加時，樣本變得更具代表性。 * 如何在Python中開發一個小例子來證明樣本量增加導致的誤差減少。 * 大數定律對于理解訓練數據集，測試數據集的選擇以及機器學習中的模型技能評估至關重要。讓我們開始吧。 ![A Gentle Introduction to the Law of Large Numbers in Machine Learning](img/72ba61d5a39695dbfb159a77584335a1.jpg) 機器學習中大數定律的簡要介紹 [Raheel Shahid](https://www.flickr.com/photos/raheelshahid/8360392007/) 的照片，保留一些權利。 ## 教程概述本教程分為3個部分;他們是： 1. 大數定律 2. 工作示例 3. 機器學習的意義 ## 大數定律大數的[定律是概率和統計學的一個定理，它表明多次重復實驗的平均結果將更接近真實或預期的潛在結果。](https://en.wikipedia.org/wiki/Law_of_large_numbers) > 大數法則解釋了為什么賭場從長遠來看總能賺錢。 - 第79頁，[赤裸統計：剝奪數據的恐懼](http://amzn.to/2F5tVnX)，2014。我們可以將實驗的試驗看作一個觀察。實驗的獨立和獨立重復將進行多次試驗并導致多次觀察。實驗的所有樣本觀察都來自理想化的觀察群體。 * **觀察**：來自一次實驗的試驗結果。 * **樣本**：從單獨的獨立試驗中收集的一組結果。 * **人口**：從試驗中可以看到的所有可能觀察的空間。使用統計中的這些術語，我們可以說隨著樣本量的增加，樣本的平均值將更接近人口中的平均值或預期值。隨著樣本大小變為無窮大，樣本均值將收斂于總體均值。 > ......概率上的最高成就，大數定律。該定理表明大樣本的均值接近于分布的均值。 - 第76頁，[所有統計：統計推斷的簡明課程](http://amzn.to/2FNFQns)，2004。這是統計學和概率以及應用機器學習的重要理論發現。 ### 獨立和相同分布重要的是要明確樣本中的觀察必須是獨立的。這意味著試驗以相同的方式進行，并且不依賴于任何其他試驗的結果。這通常是合理的，并且很容易在計算機中實現，盡管在其他地方可能很難（例如，如何實現骰子的相同隨機卷？）。在統計學中，這種期望被稱為“_獨立且相同分布_”或IID，iid或i.i.d.簡而言之。這是為了確保樣本確實來自相同的基礎人口分布。 ### 回歸均值大數定律有助于我們理解為什么我們不能孤立地相信實驗中的單一觀察。我們預計可能會出現單個結果或小樣本的平均結果。這接近于集中趨勢，人口分布的平均值。可能不是;事實上，這可能是非常奇怪或不太可能。法律提醒我們重復實驗，以便在我們開始對結果的含義進行推斷之前，開發出大量且具有代表性的觀察樣本。隨著我們增加樣本量，樣本的發現或平均值將回到總體平均值，回到真正的潛在預期值。這被稱為[回歸到平均](https://en.wikipedia.org/wiki/Regression_toward_the_mean)或有時回歸到平均值。這就是為什么我們必須對小樣本量的推論持懷疑態度，稱為小 _n_ 。 ### 真正的大數定律與平均回歸相關的是真正大數的[定律的概念。](https://en.wikipedia.org/wiki/Law_of_truly_large_numbers) 這個想法是，當我們開始調查或處理極大的觀察樣本時，我們增加了看到奇怪事物的可能性。通過擁有如此多的潛在人口分布樣本，樣本將包含一些天文數字罕見的事件。同樣，我們必須警惕不要從單個案例中做出推論。在運行查詢和調查大數據時，這一點尤為重要。 ## 工作示例我們可以通過一個小例子證明大數定律。首先，我們可以設計一個理想化的底層分布。我們將使用平均值為50且標準差為5的高斯分布。因此，該群體的預期值或平均值為50。下面是一些生成這種理想分布圖的代碼。 ```py # idealized population distribution from numpy import arange from matplotlib import pyplot from scipy.stats import norm # x-axis for the plot xaxis = arange(30, 70, 1) # y-axis for the plot yaxis = norm.pdf(xaxis, 50, 5) # plot ideal population pyplot.plot(xaxis, yaxis) pyplot.show() ``` 運行代碼會創建一個具有熟悉鐘形的設計人口的圖。 ![Idealized Underlying Population Distribution](img/d08e6f39ea49bdfdf294b80c85366ffd.jpg) 理想化的潛在人口分布現在，我們可以假裝忘記我們對人口的所有了解，并從人口中隨機抽取樣本。我們可以創建不同大小的樣本并計算平均值。鑒于我們的直覺和大數定律，我們期望隨著樣本的大小增加，樣本均值將更好地接近總體均值。下面的示例計算不同大小的樣本，然后打印樣本均值。 ```py # demonstrate the law of large numbers from numpy.random import seed from numpy.random import randn from numpy import mean from numpy import array from matplotlib import pyplot # seed the random number generator seed(1) # sample sizes sizes = [10, 100, 500, 1000, 10000] # generate samples of different sizes and calculate their means means = [mean(5 * randn(size) + 50) for size in sizes] print(means) # plot sample mean error vs sample size pyplot.scatter(sizes, array(means)-50) pyplot.show() ``` 首先運行示例打印每個樣本的均值。隨著樣本量的增加，我們可以看到樣本均值接近50.0的松散趨勢。另請注意，此樣本樣本也必須遵守大數定律。例如，您可以通過小樣本的平均值獲得非常準確的總體均值估計值。 ```py [49.5142955459695, 50.371593294898695, 50.2919653390298, 50.1521157689338, 50.03955033528776] ``` 該示例還創建了一個圖表，該圖表將樣本的大小與總體均值中的樣本均值的誤差進行比較。通常，我們可以看到更大的樣本量具有更少的誤差，并且我們預計這種趨勢平均會繼續。我們還可以看到一些樣本意味著過高估計和一些低估。不要陷入假設低估會落在一邊或另一邊的陷阱。 ![Scatter plot of sample size vs error](img/3ab04a073f8ffd353ae66dfb3e8070a0.jpg) 樣本大小與錯誤的散點圖 ## 機器學習的意義大數定律在應用機器學習中具有重要意義。我們花一點時間來強調其中一些含義。 ### 訓練數據用于訓練模型的數據必須代表來自領域的觀察結果。這實際上意味著它必須包含足夠的信息來推廣人口的真實未知和潛在分布。這很容易用模型的單個輸入變量進行概念化，但是當您有多個輸入變量時也同樣重要。輸入變量之間將存在未知的關系或依賴關系，輸入數據將表示多變量分布，從中可以繪制觀察結果以構成訓練樣本。在數據收集，數據清理和數據準備期間，請記住這一點。您可以選擇通過對觀察值設置硬限制來排除基礎人口的部分（例如，對于異常值），您希望數據太稀疏而無法有效建模。 ### 測試數據還必須將對訓練數據集的思考給予測試數據集。盲目使用80/20噴射訓練/測試數據或盲目使用10倍交叉驗證通常會忽略這一點，即使在數據集中，可用數據的1/10大小可能不是合適的代表來自問題領域的觀察結果。 ### 模型技能評估在對看不見的數據展示模型的估計技能時，請考慮大數定律。它提供了一種防御，不僅可以根據單一訓練/測試評估的技能分數報告或繼續使用模型。它強調需要開發一個給定模型的多個獨立（或接近獨立）評估的樣本，以便樣本的平均報告技能是對人口平均值的準確估計。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 頭腦風暴兩個機器學習領域，適用大數法則。 * 找到五篇研究論文，你對大數定律的結果持懷疑態度。 * 開發您自己的理想分布和樣本，并繪制樣本大小和樣本平均誤差之間的關系。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [赤裸統計：從數據中剝離恐懼](http://amzn.to/2F5tVnX)，2014。 * [所有統計：統計推斷的簡明課程](http://amzn.to/2FNFQns)，2004。 ### API * [scipy.stats.norm（）API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html) * [numpy.random.seed（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.seed.html) * [numpy.random.randn（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randn.html) * [numpy.mean（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.mean.html) ### 用品 * [維基百科上的大數定律](https://en.wikipedia.org/wiki/Law_of_large_numbers) * [維基百科上的獨立且相同分布的隨機變量](https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables) * [維基百科上真正大數的定律](https://en.wikipedia.org/wiki/Law_of_truly_large_numbers) * [回歸均值](https://en.wikipedia.org/wiki/Regression_toward_the_mean) ## 摘要在本教程中，您發現了大數定律以及它在應用機器學習中的重要性。具體來說，你學到了： * 大數定律支持這樣的直覺：當樣本的大小增加時，樣本變得更具代表性。 * 如何在Python中開發一個小例子來證明樣本量增加導致的誤差減少。 * 大數定律對于理解訓練數據集，測試數據集的選擇以及機器學習中的模型技能評估至關重要。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。