統計抽樣和重新抽樣的簡要介紹 · Machine Learning Mastery 博客文章翻譯

# 統計抽樣和重新抽樣的簡要介紹 > 原文： [https://machinelearningmastery.com/statistical-sampling-and-resampling/](https://machinelearningmastery.com/statistical-sampling-and-resampling/) 數據是應用機器學習的貨幣。因此，有效地收集和使用它是很重要的。數據采樣是指用于從域中選擇觀測值的統計方法，其目的是估計總體參數。而數據重采樣指的是經濟地使用收集的數據集來改進總體參數的估計并且有助于量化估計的不確定性的方法。數據采樣和數據重采樣都是預測建模問題所需的方法。在本教程中，您將發現用于收集和充分利用數據的統計抽樣和統計重采樣方法。完成本教程后，您將了解： * 抽樣是一個積極的過程，用于收集觀察結果，旨在估算人口變量。 * 重采樣是一種經濟地使用數據樣本來提高準確性并量化群體參數的不確定性的方法。 * 實際上，重采樣方法使用嵌套的重采樣方法。讓我們開始吧。 ![A Gentle Introduction to Statistical Sampling and Resampling](img/2947bc249dab5f0cf32f497588309bf1.jpg) 統計抽樣和重新采樣的照片由 [Ed Dunens](https://www.flickr.com/photos/blachswan/33929764716/) 拍攝，保留一些權利。 ## 教程概述本教程分為兩部分;他們是： 1. 統計抽樣 2. 統計重新抽樣 ## 統計抽樣每行數據代表對世界某事物的觀察。處理數據時，我們通常無法訪問所有可能的觀察結果。這可能有很多原因;例如： * 進行更多觀察可能很困難或者成本很高。 * 將所有觀察結果收集在一起可能具有挑戰性。 * 預計將來會有更多的觀察結果。在域中進行的觀察表示可以在域中進行的所有可能觀察的一些更廣泛的理想化和未知群體的樣本。這是一個有用的概念化，因為我們可以看到觀察與理想化人口之間的分離和關系。我們還可以看到，即使我們打算在所有可用數據上使用大數據基礎設施，數據仍然代表了理想化人口的觀測樣本。然而，我們可能希望估計人口的屬性。我們通過使用觀察樣本來做到這一點。 > 抽樣包括選擇一部分人口進行觀察，以便人們可以對整個人口進行估算。 - 第1頁，[采樣](http://amzn.to/2HNgJAQ)，第三版，2012年。 ### 如何取樣統計抽樣是從人口中選擇實例子集的過程，目的是估計人口的屬性。抽樣是一個積極的過程。目標是估算人口屬性并控制抽樣的發生方式。該控制不能影響產生每個觀察的過程，例如進行實驗。因此，作為場的采樣整齊地位于純不受控制的觀察和受控實驗之間。 > 抽樣通常與實驗設計密切相關的領域區別開來，因為在實驗中，人們故意擾亂一部分人口，以便了解該行動的影響。 [...]采樣通常也與觀察性研究區別開來，在這些研究中，人們很少或根本無法控制對人群的觀察結果。 - 第1-2頁，[采樣](http://amzn.to/2HNgJAQ)，第三版，2012。與使用更全面或完整的數據集相比，采樣有許多好處，包括降低成本和提高速度。為了執行采樣，需要您仔細定義人口以及選擇（并可能拒絕）觀察結果作為數據樣本一部分的方法。這可能很好地通過您希望使用樣本估計的總體參數來定義。在收集數據樣本之前要考慮的一些方面包括： * **樣本目標**。您希望使用樣本估算的人口屬性。 * **人口**。理論上可以進行觀察的范圍或領域。 * **選擇標準**。用于接受或拒絕樣本中觀察結果的方法。 * **樣本量**。構成樣本的觀察數量。 > 一些明顯的問題是如何最好地獲取樣本并進行觀察，并且一旦樣本數據掌握，如何最好地使用它們來估計整個人口的特征。獲得觀察結果涉及樣本大小，如何選擇樣本，使用何種觀察方法以及記錄哪些測量值等問題。 — Page 1, [Sampling](http://amzn.to/2HNgJAQ), Third Edition, 2012. 統計抽樣是一個很大的研究領域，但在應用機器學習中，您可能會使用三種類型的抽樣：簡單隨機抽樣，系統抽樣和分層抽樣。 * **簡單隨機抽樣**：從域中以均勻概率抽取樣本。 * **系統采樣**：使用預先指定的模式（例如每隔一段時間）繪制樣本。 * **分層抽樣**：在預先指定的類別（即分層）內抽取樣本。雖然這些是您可能遇到的更常見的采樣類型，但還有其他技術。 ### 采樣錯誤抽樣要求我們從一小組觀察中對人口進行統計推斷。我們可以將樣本中的屬性推廣到總體。這種估計和推廣過程比使用所有可能的觀察要快得多，但會包含錯誤。在許多情況下，我們可以量化估算的不確定性并添加誤差條，例如置信區間。有很多方法可以將錯誤引入數據樣本。兩種主要類型的錯誤包括選擇偏差和抽樣誤差。 * **選擇偏差**。當繪制觀察的方法以某種方式使樣本偏斜時引起。 * **采樣錯誤**。由于繪圖觀察的隨機性質導致以某種方式偏斜樣本。可能存在其他類型的錯誤，例如觀察或測量的方式中的系統誤差。在這些情況下以及更多情況下，樣本的統計特性可能與理想化人口中的預期不同，這反過來可能影響正在估計的人口的特性。簡單的方法，例如檢查原始觀察，摘要統計和可視化，可以幫助揭示簡單的錯誤，例如測量損壞和一類觀察的過度或不足。然而，在抽樣和在抽樣時得出有關人口的結論時，必須小心謹慎。 ## 統計重新抽樣一旦我們有了數據樣本，它就可以用來估計總體參數。問題是我們只對人口參數進行了單一估計，對估計的可變性或不確定性知之甚少。解決此問題的一種方法是從我們的數據樣本中多次估算人口參數。這稱為重采樣。統計重采樣方法是描述如何經濟地使用可用數據來估計總體參數的過程。結果可以是更準確的參數估計（例如取估計的平均值）和估計的不確定性的量化（例如添加置信區間）。重采樣方法非常易于使用，幾乎不需要數學知識。與專業統計方法相比，它們是易于理解和實施的方法，這些方法可能需要深入的技術技能才能選擇和解釋。 > 重采樣方法易于學習且易于應用。除了介紹性的高中代數之外，它們不需要數學，并且適用于范圍極廣的學科領域。 - 第xiii頁，[重采樣方法：數據分析實用指南](http://amzn.to/2G6gMKP)，2005年。這些方法的缺點是它們在計算上可能非常昂貴，需要數十，數百甚至數千個重采樣，以便開發人口參數的穩健估計。 > 關鍵的想法是重新采樣形成原始數據 - 直接或通過擬合模型 - 來創建復制數據集，從中可以評估感興趣的分位數的可變性，而無需冗長且容易出錯的分析計算。因為這種方法涉及使用許多復制數據集重復原始數據分析過程，所以這些有時被稱為計算機密集型方法。 - 第3頁， [Bootstrap方法及其應用](http://amzn.to/2FVsmVY)，1997。來自原始數據樣本的每個新子樣本用于估計總體參數。然后可以使用統計工具考慮估計的人口參數樣本，以量化預期值和方差，提供估計不確定性的度量。統計抽樣方法可用于從原始樣本中選擇子樣本。關鍵的區別是過程必須重復多次。這樣的問題在于樣本之間將存在一些關系，作為將在多個子樣本之間共享的觀察。這意味著子樣本和估計的總體參數不是嚴格相同且獨立分布的。這對于對下游估計的種群參數的樣本進行的統計測試具有影響，即可能需要成對的統計測試。您可能遇到的兩種常用的重采樣方法是k-fold交叉驗證和引導程序。 * **Bootstrap** 。從替換的數據集中抽取樣本（允許相同的樣本在樣本中出現多次），其中未被抽入數據樣本的那些實例可用于測試集。 * **k倍交叉驗證**。數據集被劃分為k個組，其中每個組被賦予被用作保持測試集的機會，其余組作為訓練集。 k折交叉驗證方法特別適用于評估預測模型，該預測模型在數據的一個子集上重復訓練并在第二個保持的數據子集上進行評估。 > 通常，用于估計模型表現的重采樣技術類似地操作：樣本子集用于擬合模型，剩余樣本用于估計模型的功效。重復此過程多次，并匯總和匯總結果。技術上的差異通常圍繞選擇子樣本的方法。 - 第69頁， [Applied Predictive Modeling](http://amzn.to/2Fmrbib) ，2013。引導方法可以用于相同的目的，但是用于估計總體參數的更通用和更簡單的方法。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 列舉兩個機器學習項目中需要統計抽樣的例子。 * 列出在機器學習項目中需要統計重新采樣時的兩個示例。 * 查找使用重新采樣方法的論文，該方法又使用嵌套統計抽樣方法（提示：k-fold交叉驗證和分層抽樣）。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [采樣](http://amzn.to/2HNgJAQ)，第三版，2012年。 * [采樣技術](http://amzn.to/2FMh8XF)，第3版，1977年。 * [重采樣方法：數據分析實用指南](http://amzn.to/2G6gMKP)，2005。 * [引導程序簡介](http://amzn.to/2praHye)，1994。 * [Bootstrap方法及其應用](http://amzn.to/2FVsmVY)，1997。 * [Applied Predictive Modeling](http://amzn.to/2Fmrbib) ，2013。 ### 用品 * [維基百科上的樣本（統計數據）](https://en.wikipedia.org/wiki/Sample_(statistics)) * [維基百科上的簡單隨機樣本](https://en.wikipedia.org/wiki/Simple_random_sample) * [維基百科上的系統抽樣](https://en.wikipedia.org/wiki/Systematic_sampling) * [維基百科上的分層抽樣](https://en.wikipedia.org/wiki/Stratified_sampling) * [維基百科上的重新取樣（統計）](https://en.wikipedia.org/wiki/Resampling_(statistics)) * [維基百科上的引導（統計）](https://en.wikipedia.org/wiki/Bootstrapping_(statistics)) * [維基百科](https://en.wikipedia.org/wiki/Cross-validation_(statistics))的交叉驗證（統計） ## 摘要在本教程中，您發現了用于收集和充分利用數據的統計抽樣和統計重采樣方法。具體來說，你學到了： * 抽樣是收集觀察意圖估計人口變量的積極過程。 * 重采樣是一種經濟地使用數據樣本來提高準確性并量化群體參數的不確定性的方法。 * 實際上，重采樣方法使用嵌套的重采樣方法。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。