統計數據分布的簡要介紹 · Machine Learning Mastery 博客文章翻譯

# 統計數據分布的簡要介紹 > 原文： [https://machinelearningmastery.com/statistical-data-distributions/](https://machinelearningmastery.com/statistical-data-distributions/) 數據樣本將形成分布，到目前為止，最著名的分布是高斯分布，通常稱為正態分布。該分布提供參數化的數學函數，該函數可用于計算來自樣本空間的任何單獨觀察的概率。該分布描述了觀測的分組或密度，稱為概率密度函數。我們還可以計算觀察值等于或小于給定值的可能性。觀察之間的這些關系的概述稱為累積密度函數。在本教程中，您將發現高斯和相關分布函數以及如何計算每個函數的概率和累積密度函數。完成本教程后，您將了解： * 簡要介紹標準分布，以總結觀察的關系。 * 如何計算和繪制高斯分布的概率和密度函數。 * 學生t和卡方分布與高斯分布有關。讓我們開始吧。 ![A Gentle Introduction to Statistical Data Distributions](img/fe0ace7fadb022a0ebf08a5a1b575cd5.jpg) 統計數據分布的簡要介紹 [Ed Dunens](https://www.flickr.com/photos/blachswan/35766071323/) 的照片，保留一些權利。 ## 教程概述本教程分為4個部分;他們是： 1. 分布 2. 高斯分布 3. 學生的t分布 4. Chi-Squared Distribution ## 分布從實際角度來看，我們可以將分布視為描述樣本空間中觀察之間關系的函數。例如，我們可能對人類的年齡感興趣，其中個體年齡代表域中的觀察，并且樣本空間的范圍為0到125歲。分布是描述不同高度的觀測關系的數學函數。 > 分布只是變量上的數據或分數的集合。通常，這些分數按照從最小到最大的順序排列，然后它們可以以圖形方式呈現。 - 第6頁，[普通英語統計](http://amzn.to/2FTs5TB)，第三版，2010年。許多數據符合眾所周知且易于理解的數學函數，例如高斯分布。函數可以通過修改函數的參數來擬合數據，例如在高斯的情況下的均值和標準偏差。一旦知道了分布函數，它就可以用作描述和計算相關量的簡寫，例如觀察的可能性，以及繪制域中觀察之間的關系。 ## 密度函數分布通常根據其密度或密度函數來描述。密度函數是描述數據的比例或觀察比例的可能性如何在分布范圍內變化的函數。兩種類型的密度函數是概率密度函數和累積密度函數。 * **概率密度函數**：計算觀察給定值的概率。 * **累積密度函數**：計算觀察的概率等于或小于一個值。概率密度函數或PDF可用于計算分布中給定觀察的可能性。它還可用于總結分布樣本空間中觀察的可能性。 PDF的圖顯示了熟悉的分布形狀，例如高斯分布的鐘形曲線。分布通常根據其概率密度函數及其相關參數來定義。累積密度函數（CDF）是考慮觀察值的可能性的不同方式。 CDF不是像PDF那樣計算給定觀察的可能性，而是計算觀察的累積可能性以及樣本空間中的所有先前觀察結果。它允許您快速了解和評論給定值之前和之后的分布數量。 CDF通常繪制為從0到1的曲線，用于分布。 PDF和CDF都是連續的功能。用于離散分布的PDF的等效物稱為概率質量函數或PMF。接下來，讓我們看看高斯分布以及與使用統計方法時將遇到的高斯相關的其他兩個分布。我們將根據它們的參數，概率和累積密度函數依次查看每個函數。 ## 高斯分布以Carl Friedrich Gauss命名的高斯分布是統計學領域的重點。令人驚訝的是，許多研究領域的數據可以使用高斯分布來描述，以至于分布通常被稱為“_正常_”分布，因為它是如此常見。可以使用兩個參數描述高斯分布： * **表示**：用希臘小寫字母mu表示，是分布的預期值。 * **方差**：用希臘小寫字母sigma表示為第二次冪（因為變量的單位是平方），描述了從均值觀察的傳播。通常使用稱為標準偏差的方差的歸一化計算 * **標準差**：用希臘小寫字母sigma表示，描述了從均值中觀察的歸一化擴散。我們可以通過[規范SciPy模塊](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html)處理高斯分布。 norm.pdf（）函數可用于創建具有給定樣本空間，均值和標準差的高斯概率密度函數。下面的示例創建一個高斯PDF，其樣本空間為-5到5，平均值為0，標準差為1.具有這些平均值和標準差值的高斯分布稱為標準高斯。 ```py # plot the gaussian pdf from numpy import arange from matplotlib import pyplot from scipy.stats import norm # define the distribution parameters sample_space = arange(-5, 5, 0.001) mean = 0.0 stdev = 1.0 # calculate the pdf pdf = norm.pdf(sample_space, mean, stdev) # plot pyplot.plot(sample_space, pdf) pyplot.show() ``` 運行該示例將創建一個線圖，顯示x軸上的樣本空間以及y軸的每個值的似然性。線圖顯示了高斯分布的熟悉的鐘形。鐘的頂部顯示分布中最可能的值，稱為期望值或平均值，在本例中為零，正如我們在創建分布時指定的那樣。 ![Line Plot of the Gaussian Probability Density Function](img/34c7361c4a1249db4b29bbe1e68b62ee.jpg) 高斯概率密度函數的線圖 norm.cdf（）函數可用于創建高斯累積密度函數。下面的示例為同一樣本空間創建高斯CDF。 ```py # plot the gaussian cdf from numpy import arange from matplotlib import pyplot from scipy.stats import norm # define the distribution parameters sample_space = arange(-5, 5, 0.001) # calculate the cdf cdf = norm.cdf(sample_space) # plot pyplot.plot(sample_space, cdf) pyplot.show() ``` 運行該示例將創建一個繪圖，顯示S形，x軸上的樣本空間和y軸的累積概率。我們可以看到，值2接近100％的觀測值，只有非常薄的分布尾部超出該點。我們還可以看到，零點的平均值顯示了該點之前和之后50％的觀測值。 ![Line Plot of the Gaussian Cumulative Density Function](img/2434b5899af7d15fd9d7768b6a7c3da9.jpg) 高斯累積密度函數的線圖 ## 學生的t分布學生的t分布，或簡稱為t-distribution，由William Sealy Gosset以化名“學生”命名。這是在嘗試使用不同大小的樣本估計正態分布的均值時出現的分布。因此，當描述必須考慮樣本的大小時，在描述從高斯分布中提取的數據的估計人口統計相關的不確定性或誤差時，這是一個有用的捷徑。雖然您可能不直接使用學生的t分布，但您可以根據其他統計方法（例如統計顯著性檢驗）中所需的分布估算值。可以使用單個參數描述分布： * **自由度數**：用小寫希臘字母nu（v）表示，表示數量自由度。使用t分布的關鍵是知道所需的自由度數。自由度的數量描述了用于描述人口數量的信息的數量。例如，平均值具有 _n_ 自由度，因為樣本中的所有 _n_ 觀察結果用于計算總體平均值的估計值。在計算中使用另一個統計量的統計量必須從自由度中減去1，例如在樣本方差的計算中使用均值。學生t分布中的觀察結果是根據正態分布中的觀察結果計算的，以便描述正態分布中種群平均值的區間。觀察結果計算如下： ```py data = (x - mean(x)) / S / sqrt(n) ``` _x_ 是來自高斯分布的觀察值，_平均值_是 _x_ 的平均值，S是標準差， _n_ 是觀察總數。得到的觀察結果形成了（ _n - 1_ ）自由度的t觀察。實際上，如果在計算統計量時需要t分布的值，那么自由度的數量可能是 _n - 1_ ，其中 _n_ 是從高斯分布中抽取樣本的大小。 > 您針對給定問題使用的具體分布取決于樣本的大小。 - 第93頁，[普通英語統計](http://amzn.to/2FTs5TB)，第三版，2010年。 SciPy提供了在 [stats.t模塊](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html)中處理t分布的工具。 _t.pdf（）_函數可用于創建具有指定自由度的Student t分布。下面的示例使用-5到5和（10,000 - 1）自由度的樣本空間創建t分布。 ```py # plot the t-distribution pdf from numpy import arange from matplotlib import pyplot from scipy.stats import t # define the distribution parameters sample_space = arange(-5, 5, 0.001) dof = len(sample_space) - 1 # calculate the pdf pdf = t.pdf(sample_space, dof) # plot pyplot.plot(sample_space, pdf) pyplot.show() ``` 運行該示例將創建并繪制t分布PDF。我們可以看到熟悉的鈴聲形狀與正常情況一樣。關鍵的區別在于分布中較胖的尾部，突出了與高斯分布相比尾部觀察的可能性增加。 ![Line Plot of the Student's t-Distribution Probability Density Function](img/f07db0b32c121f13196ed56de504302b.jpg) 學生t分布概率密度函數的線圖 _t.cdf（）_函數可用于創建t分布的累積密度函數。以下示例在與上述相同的范圍內創建CDF。 ```py # plot the t-distribution cdf from numpy import arange from matplotlib import pyplot from scipy.stats import t # define the distribution parameters sample_space = arange(-5, 5, 0.001) dof = len(sample_space) - 1 # calculate the cdf cdf = t.cdf(sample_space, dof) # plot pyplot.plot(sample_space, cdf) pyplot.show() ``` 運行這個例子，我們看到了熟悉的S形曲線，正如我們所看到的高斯分布，盡管從較零的概率轉變為較胖的尾部的一個概率。 ![Line Plot of the Student's t-distribution Cumulative Density Function](img/4c98cae13b3fe153a163ff9e18bb119d.jpg) 學生t分布累積密度函數的線圖 ## Chi-Squared Distribution 卡方分布表示為小寫希臘字母chi（X）上升到第二冪（X ^ 2）。與學生的t分布一樣，卡方分布也用于統計方法，用于從高斯分布中提取的數據來量化不確定性。例如，卡方分布用于卡方統計檢驗中的獨立性。事實上，卡方分布用于推導學生的t分布。卡方分布有一個參數： * _自由度_，表示為k。將卡方分布中的觀察值計算為從高斯分布繪制的 _k_ 平方觀測值的總和。 ```py chi = sum x[i]^2 for i=1 to k. ``` _chi_ 是具有卡方分布的觀察值， _x_ 是從高斯分布中得出的觀察值， _k_ 是 _x的數量_觀察也是卡方分布的自由度數。同樣，與學生的t分布一樣，數據不符合卡方分布;相反，在計算高斯數據樣本的統計方法時，從該分布中得出觀察結果。 SciPy提供 [stats.chi2模塊](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)，用于計算卡方分布的統計數據。 chi2.pdf（）函數可用于計算0到50之間具有20個自由度的樣本空間的卡方分布。回想一下，平方和值必須為正，因此需要正樣本空間。 ```py # plot the chi-squared pdf from numpy import arange from matplotlib import pyplot from scipy.stats import chi2 # define the distribution parameters sample_space = arange(0, 50, 0.01) dof = 20 # calculate the pdf pdf = chi2.pdf(sample_space, dof) # plot pyplot.plot(sample_space, pdf) pyplot.show() ``` 運行該示例計算卡方PDF并將其顯示為線圖。通過20個自由度，我們可以看到分布的期望值剛好小于樣本空間的值20。如果我們認為高斯分布中的大多數密度介于-1和1之間，那么這是直觀的，然后來自標準高斯的平方隨機觀測值的總和將總和恰好低于自由度數，在這種情況下為20。盡管分布具有鐘形形狀，但分布不對稱。 ![Line Plot of the Chi-Squared Probability Density Function](img/2b99f6c2ce11e54e6ccc91befaddc6b4.jpg) Chi-Sared概率密度函數的線圖 chi2.cdf（）函數可用于計算同一樣本空間的累積密度函數。 ```py # plot the chi-squared cdf from numpy import arange from matplotlib import pyplot from scipy.stats import chi2 # define the distribution parameters sample_space = arange(0, 50, 0.01) dof = 20 # calculate the cdf cdf = chi2.cdf(sample_space, dof) # plot pyplot.plot(sample_space, cdf) pyplot.show() ``` 運行該示例會創建卡方分布的累積密度函數圖。該分布有助于看到20左右的卡方值的可能性，分布右側的肥尾可能會在情節結束后很長時間內持續。 ![Line Plot of the Chi-squared distribution Cumulative Density Function](img/2bf43319992e979ebd7dffefecfbe81e.jpg) 卡方分布累積密度函數的線圖 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 使用新的樣本空間重新創建一個分布的PDF和CDF圖。 * 計算并繪制Cauchy和Laplace分布的PDF和CDF。 * 從頭開始查找并實現PDF和CDF的方程式。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [普通英語統計](http://amzn.to/2FTs5TB)，第三版，2010年。 ### API * [統計數據（scipy.stats）](https://docs.scipy.org/doc/scipy/reference/tutorial/stats.html) * [scipy.stats.norm API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html) * [scipy.stats.t API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html) * [scipy.stats.chi2 API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html) ### 用品 * [維基百科上的概率密度函數](https://en.wikipedia.org/wiki/Probability_density_function) * [維基百科上的累積分布函數](https://en.wikipedia.org/wiki/Cumulative_distribution_function) * [維基百科上的概率質量函數](https://en.wikipedia.org/wiki/Probability_mass_function) * [維基百科上的正態分布](https://en.wikipedia.org/wiki/Normal_distribution) * [學生在維基百科上的t分布](https://en.wikipedia.org/wiki/Student%27s_t-distribution) * [維基百科上的卡方分布](https://en.wikipedia.org/wiki/Chi-squared_distribution) ## 摘要在本教程中，您發現了高斯和相關分布函數以及如何計算每個函數的概率和累積密度函數。具體來說，你學到了： * 簡要介紹標準分布，以總結觀察的關系。 * 如何計算和繪制高斯分布的概率和密度函數。學生t和卡方分布與高斯分布有關。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。