機器學習統計（7天迷你課程） · Machine Learning Mastery 博客文章翻譯

# 機器學習統計（7天迷你課程） > 原文： [https://machinelearningmastery.com/statistics-for-machine-learning-mini-course/](https://machinelearningmastery.com/statistics-for-machine-learning-mini-course/) ### 機器學習速成課程統計。 #### _獲取7天機器學習中使用的統計數據。_ 統計學是一門數學領域，普遍認為這是更深入理解機器學習的先決條件。雖然統計數據是一個具有許多深奧理論和發現的大型領域，但機器學習從業者需要從該領域獲取的螺母和螺栓工具和符號。憑借統計數據的堅實基礎，可以專注于好的或相關的部分。在本速成課程中，您將了解如何在七天內開始并自信地閱讀和實現使用Python進行機器學習的統計方法。這是一個重要且重要的帖子。您可能想要將其加入書簽。讓我們開始吧。 ![Statistics for Machine Learning (7-Day Mini-Course)](img/61c2f760ae3a13b773943cbb352dcc64.jpg) 機器學習統計（7天迷你課程）攝影： [Graham Cook](https://www.flickr.com/photos/grazza123/14076525468/) ，保留一些權利。 ## 誰是這個崩潰課程？在我們開始之前，讓我們確保您在正確的位置。本課程適用于可能了解某些應用機器學習的開發人員。也許你知道如何使用流行的工具來完成預測性建模問題的端到端，或者至少是大多數主要步驟。本課程的課程會假設您的一些事情，例如： * 你知道你的基本Python編程方式。 * 你可能知道一些基本的NumPy用于數組操作。 * 您希望學習統計數據，以加深您對機器學習的理解和應用。你不需要知道： * 你不需要成為一個數學家！ * 您不需要成為機器學習專家！這個速成課程將帶您從了解機器學習的開發人員到可以瀏覽統計方法基礎知識的開發人員。注意：此速成課程假設您有一個至少安裝了NumPy的Python3 SciPy環境。如果您需要有關環境的幫助，可以按照此處的分步教程進行操作： * [如何使用Anaconda設置用于機器學習和深度學習的Python環境](https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/) ## 速成課程概述這個速成課程分為七個課程。您可以每天完成一節課（推薦）或在一天內完成所有課程（硬核）。這取決于你有空的時間和你的熱情程度。下面列出了七個課程，這些課程將幫助您開始并提高Python中機器學習的統計數據： * **第01課**：統計和機器學習 * **第02課**：統計學概論 * **第03課**：高斯分布和描述性統計 * **第04課**：變量之間的相關性 * **第05課**：統計假設檢驗 * **第06課**：估算統計 * **第07課**：非參數統計每節課可能需要60秒或30分鐘。花點時間，按照自己的進度完成課程。在下面的評論中提出問題甚至發布結果。課程期望你去學習如何做事。我會給你提示，但每節課的部分內容是強迫你學習去哪里尋求幫助以及統計方法和NumPy API以及Python中最好的工具（提示：我直接在這個博客上得到了所有的答案;使用搜索框）。在評論中發布您的結果;我會為你加油！掛在那里;不要放棄。注意：這只是一個速成課程。有關更多詳細信息和充實的教程，請參閱我的書，題為“[機器學習統計方法](https://machinelearningmastery.com/statistics_for_machine_learning/)”。 ## 第01課：統計和機器學習在本課程中，您將了解機器學習從業者應該加深對統計學的理解的五個原因。 ### 1.數據準備統計在為您的機器學習模型準備訓練和測試數據時需要統計方法。這包括以下技術： * 異常值檢測。 * 缺少價值歸責。 * 數據采樣。 * 數據擴展。 * 變量編碼。以及更多。需要對數據分布，描述性統計和數據可視化有基本的了解，以幫助您確定執行這些任務時要選擇的方法。 ### 2.模型評估統計在評估機器學習模型對訓練期間未見的數據的技能時，需要統計方法。 This includes techniques for: * 數據采樣。 * 數據重采樣。 * 實驗設計。機器學習從業者通常很好地理解諸如k折交叉驗證之類的重采樣技術，但是為什么需要這種方法的理由卻不是。 ### 3.模型選擇中的統計在選擇用于預測建模問題的最終模型或模型配置時，需要統計方法。這些包括以下技術： * 檢查結果之間的顯著差異。 * 量化結果之間差異的大小。這可能包括使用統計假設檢驗。 ### 4.模型演示中的統計在向利益相關者介紹最終模型的技能時，需要統計方法。 This includes techniques for: * 總結模型的預期技能平均值。 * 在實踐中量化模型技能的預期變化。這可能包括估計統計數據，如置信區間。 ### 5.預測統計在使用新數據的最終模型進行預測時，需要統計方法。 This includes techniques for: * 量化預測的預期可變性。這可能包括估計統計數據，如預測間隔。 ### 你的任務在本課程中，您必須列出您個人想要學習統計信息的三個原因。在下面的評論中發表您的答案。我很樂意看到你想出了什么。在下一課中，您將發現統計數據的簡明定義。 ## 第02課：統計學概論在本課程中，您將發現統計信息的簡明定義。統計數據是大多數應用機器學習書籍和課程的必備先決條件。但究竟什么是統計數據？統計學是數學的一個子領域。它指的是一組處理數據和使用數據來回答問題的方法。這是因為該領域包含一系列用于處理數據的方法，對于初學者而言，這些方法看起來很大且無定形。很難看到屬于統計的方法和屬于其他研究領域的方法之間的界限。當談到我們在實踐中使用的統計工具時，將統計領域劃分為兩大類方法可能會有所幫助：用于匯總數據的描述性統計數據和用于從數據樣本中得出結論的推論統計數據。 * **描述性統計**：描述性統計是指將原始觀察匯總為我們可以理解和分享的信息的方法。 * **推論統計**：推論統計是一種奇特的名稱，有助于從一小組獲得的觀察結果（稱為樣本）中量化域或種群的屬性。 ### Your Task 在本課程中，您必須列出可用于每個描述性和推理統計信息的三種方法。在下面的評論中發表您的答案。我很樂意看到你發現了什么。在下一課中，您將發現高斯分布以及如何計算摘要統計。 ## 第03課：高斯分布和描述性統計在本課程中，您將發現數據的高斯分布以及如何計算簡單的描述性統計數據。數據樣本是來自更廣泛群體的快照，可以從域中獲取或由流程生成。有趣的是，許多觀察結果符合稱為正態分布的常見模式或分布，或者更正式地說，符合高斯分布。這是您可能熟悉的鐘形分布。關于高斯分布的知識很多，因此，存在可以與高斯數據一起使用的統計和統計方法的整個子場。任何高斯分布，以及從高斯分布中提取的任何數據樣本，都可以用兩個參數進行匯總： * **平均值**。分布中的中心趨勢或最可能的價值（鐘的頂部）。 * **方差**。觀察值與分布中的平均值（差值）之間的平均差異。均值的單位與分布的單位相同，盡管方差的單位是平方的，因此難以解釋。方差參數的一個流行替代方案是**標準差**，它只是方差的平方根，返回的單位與分布的單位相同。可以直接在NumPy中的數據樣本上計算均值，方差和標準差。下面的示例生成從高斯分布繪制的100個隨機數的樣本，其已知均值為50，標準差為5，并計算匯總統計量。 ```py # calculate summary stats from numpy.random import seed from numpy.random import randn from numpy import mean from numpy import var from numpy import std # seed the random number generator seed(1) # generate univariate observations data = 5 * randn(10000) + 50 # calculate statistics print('Mean: %.3f' % mean(data)) print('Variance: %.3f' % var(data)) print('Standard Deviation: %.3f' % std(data)) ``` 運行該示例并將估計的平均值和標準偏差與預期值進行比較。 ### Your Task 在本課程中，您必須在Python中從頭開始計算一個描述性統計信息，例如計算樣本均值。 Post your answer in the comments below. I would love to see what you discover. 在下一課中，您將了解如何量化兩個變量之間的關系。 ## 課04：變量之間的相關性在本課程中，您將了解如何計算相關系數以量化兩個變量之間的關系。數據集中的變量可能由于許多原因而相關。它可用于數據分析和建模，以更好地理解變量之間的關系。兩個變量之間的統計關系稱為它們的相關性。相關性可能是正的，意味著兩個變量在相同的方向上移動，或者是負的，這意味著當一個變量的值增加時，其他變量的值會減少。 * **正相關**：兩個變量在同一方向上變化。 * **中性相關**：變量變化沒有關系。 * **負相關**：變量方向相反。如果兩個或多個變量緊密相關，某些算法的表現可能會惡化，稱為多重共線性。一個例子是線性回歸，其中應刪除一個違規的相關變量，以提高模型的技能。我們可以使用稱為Pearson相關系數的統計方法量化兩個變量樣本之間的關系，該方法以該方法的開發者Karl Pearson命名。 _pearsonr（）_ NumPy函數可用于計算兩個變量樣本的Pearson相關系數。下面列出了完整的示例，顯示了一個變量依賴于第二個變量的計算。 ```py # calculate correlation coefficient from numpy.random import seed from numpy.random import randn from scipy.stats import pearsonr # seed random number generator seed(1) # prepare data data1 = 20 * randn(1000) + 100 data2 = data1 + (10 * randn(1000) + 50) # calculate Pearson's correlation corr, p = pearsonr(data1, data2) # display the correlation print('Pearsons correlation: %.3f' % corr) ``` 運行示例并查看計算的相關系數。 ### Your Task 在本課程中，您必須加載標準機器學習數據集并計算每對數值變量之間的相關性。 Post your answer in the comments below. I would love to see what you discover. 在下一課中，您將發現統計假設檢驗。 ## 第05課：統計假設檢驗在本課程中，您將發現統計假設檢驗以及如何比較兩個樣本。必須解釋數據以增加含義。我們可以通過假設特定結構來解釋數據，并使用統計方法來確認或拒絕假設。該假設稱為假設，用于此目的的統計檢驗稱為統計假設檢驗。統計檢驗的假設稱為零假設，或假設為零（簡稱H0）。它通常被稱為默認假設，或者假設沒有任何變化。違反測試假設通常被稱為第一個假設，假設為1，或簡稱為H1。 * **假設0（H0）**：測試的假設成立并且未被拒絕。 * **假設1（H1）**：測試的假設不成立并且在某種程度上被拒絕。我們可以使用p值來解釋統計假設檢驗的結果。在零假設為真的情況下，p值是觀察數據的概率。概率很大意味著可能存在H0或默認假設。一個較小的值，例如低于5％（o.05）表明它不太可能并且我們可以拒絕H0而支持H1，或者某些東西可能不同（例如顯著結果）。廣泛使用的統計假設檢驗是Student's t檢驗，用于比較兩個獨立樣本的平均值。默認假設是樣本之間沒有差異，而拒絕此假設表明存在一些顯著差異。測試假設兩個樣本均來自高斯分布并具有相同的方差。 Student's t-test可以通過 _ttest_ind（）_ SciPy函數在Python中實現。下面是計算和解釋已知不同的兩個數據樣本的學生t檢驗的示例。 ```py # student's t-test from numpy.random import seed from numpy.random import randn from scipy.stats import ttest_ind # seed the random number generator seed(1) # generate two independent samples data1 = 5 * randn(100) + 50 data2 = 5 * randn(100) + 51 # compare samples stat, p = ttest_ind(data1, data2) print('Statistics=%.3f, p=%.3f' % (stat, p)) # interpret alpha = 0.05 if p > alpha: print('Same distributions (fail to reject H0)') else: print('Different distributions (reject H0)') ``` 運行代碼并查看計算的統計值和p值的解釋。 ### Your Task 在本課程中，您必須列出三個其他統計假設檢驗，可用于檢查樣本之間的差異。 Post your answer in the comments below. I would love to see what you discover. 在下一課中，您將發現估計統計數據作為統計假設檢驗的替代方法。 ## 第06課：估算統計在本課程中，您將發現可用作統計假設檢驗替代方法的估算統計數據。統計假設檢驗可用于指示兩個樣本之間的差異是否是由于隨機機會，但不能評論差異的大小。被稱為“_新統計_”的一組方法正在增加使用而不是p值或者除了p值之外，以便量化效應的大小和估計值的不確定性的量。這組統計方法稱為估計統計。估算統計是描述三種主要方法類別的術語。三種主要類方法包括： * **效果大小**。用于量化治療或干預的效果大小的方法。 * **區間估計**。量化值的不確定性的方法。 * **Meta分析**。在多個類似研究中量化結果的方法。在這三種中，應用機器學習中最有用的方法可能是區間估計。間隔有三種主要類型。他們是： * **容差區間**：具有特定置信水平的分布的一定比例的界限或覆蓋范圍。 * **置信區間**：總體參數估計的界限。 * **預測區間**：單次觀察的界限。計算分類算法的置信區間的簡單方法是計算二項式比例置信區間，其可以提供圍繞模型的估計精度或誤差的區間。這可以使用 _confint（）_ Statsmodels函數在Python中實現。該函數將成功（或失敗）計數，試驗總數和顯著性水平作為參數，并返回置信區間的下限和上限。下面的例子在一個假設的案例中證明了這個函數，其中模型從具有100個實例的數據集中做出了88個正確的預測，并且我們對95％置信區間感興趣（作為0.05的顯著性提供給函數）。 ```py # calculate the confidence interval from statsmodels.stats.proportion import proportion_confint # calculate the interval lower, upper = proportion_confint(88, 100, 0.05) print('lower=%.3f, upper=%.3f' % (lower, upper)) ``` 運行示例并查看估計準確度的置信區間。 ### Your Task 在本課程中，您必須列出兩種方法，用于計算應用機器學習中的效果大小以及它們何時有用。作為提示，考慮一個用于變量之間的關系，一個用于樣本之間的差異。 Post your answer in the comments below. I would love to see what you discover. 在下一課中，您將發現非參數統計方法。 ## 第07課：非參數統計在本課程中，您將發現當數據不是來自高斯分布時可能使用的統計方法。統計和統計方法領域的很大一部分專用于已知分布的數據。分布未知或不易識別的數據稱為非參數。在使用非參數數據的情況下，可以使用專門的非參數統計方法來丟棄有關分布的所有信息。因此，這些方法通常被稱為無分秘籍法。在可以應用非參數統計方法之前，必須將數據轉換為等級格式。因此，期望排名格式的數據的統計方法有時被稱為排名統計，例如排名相關和排名統計假設檢驗。排名數據正如其名稱所示。程序如下： * 按升序對樣本中的所有數據進行排序。 * 為數據樣本中的每個唯一值分配1到N的整數等級。用于檢查兩個獨立樣本之間差異的廣泛使用的非參數統計假設檢驗是Mann-Whitney U檢驗，以Henry Mann和Donald Whitney命名。它是學生t檢驗的非參數等價物，但不假設數據是從高斯分布中提取的。該測試可以通過 _mannwhitneyu（）_ SciPy函數在Python中實現。下面的例子演示了從已知不同的均勻分布中抽取的兩個數據樣本的測試。 ```py # example of the mann-whitney u test from numpy.random import seed from numpy.random import rand from scipy.stats import mannwhitneyu # seed the random number generator seed(1) # generate two independent samples data1 = 50 + (rand(100) * 10) data2 = 51 + (rand(100) * 10) # compare samples stat, p = mannwhitneyu(data1, data2) print('Statistics=%.3f, p=%.3f' % (stat, p)) # interpret alpha = 0.05 if p > alpha: print('Same distribution (fail to reject H0)') else: print('Different distribution (reject H0)') ``` 運行該示例并查看計算的統計數據和p值的解釋。 ### Your Task 在本課程中，您必須列出另外三種非參數統計方法。 Post your answer in the comments below. I would love to see what you discover. 這是迷你課程的最后一課。 ## 結束！（看你有多遠）你做到了。做得好！花點時間回顧一下你到底有多遠。你發現： * 統計學在應用機器學習中的重要性。 * 統計的簡明定義和方法劃分為兩種主要類型。 * 高斯分布以及如何使用統計信息來描述具有此分布的數據。 * 如何量化兩個變量的樣本之間的關系。 * 如何使用統計假設檢驗檢查兩個樣本之間的差異。 * 統計假設檢驗的替代方法稱為估計統計。 * 不從高斯分布中提取數據時可以使用的非參數方法。這只是您的機器學習統計數據的開始。繼續練習和發展你的技能。下一步，查看我的書[機器學習統計方法](https://machinelearningmastery.com/statistics_for_machine_learning/)。 ## 摘要你是怎么做迷你課程的？你喜歡這個速成班嗎？你有任何問題嗎？有沒有任何問題？讓我知道。在下面發表評論。