非參數統計的溫和介紹 · Machine Learning Mastery 博客文章翻譯

# 非參數統計的溫和介紹 > 原文： [https://machinelearningmastery.com/a-gentle-introduction-to-nonparametric-statistics/](https://machinelearningmastery.com/a-gentle-introduction-to-nonparametric-statistics/) 統計和統計方法領域的很大一部分專用于已知分布的數據。我們已經知道或可以輕松識別分布的數據樣本稱為參數數據。通常，參數用于指代在常見用法中從高斯分布中提取的數據。分布未知或不易識別的數據稱為非參數。在使用非參數數據的情況下，可以使用專門的非參數統計方法來丟棄有關分布的所有信息。因此，這些方法通常被稱為無分秘籍法。在本教程中，您將發現非參數統計信息及其在應用機器學習中的作用。完成本教程后，您將了解： * 參數和非參數數據之間的區別。 * 如何對數據進行排名以丟棄有關數據分布的所有信息。 * 可用于排名數據的統計方法示例。讓我們開始吧。 ![A Gentle Introduction to Nonparametric Statistics](img/899415b2c15556ca5dfe3978c81270c8.jpg) 非參數統計的溫和介紹 [Daniel Hartwig](https://www.flickr.com/photos/dwhartwig/34862884831/) 的照片，保留一些權利。 ## 教程概述本教程分為4個部分;他們是： 1. 參數數據 2. 非參數數據 3. 排名數據 4. 使用排名數據 ## 參數數據參數數據是從已知數據分布中提取的數據樣本。這意味著我們已經知道了分布，或者我們已經確定了分布，并且我們知道分布的參數。通常，參數是從高斯分布中提取的實值數據的簡寫。這是一個有用的簡寫，但嚴格來說這并不完全準確。如果我們有參數數據，我們可以使用參數方法。繼續使用高斯參數意義的簡寫。如果我們有參數數據，我們可以利用為假設高斯分布的數據開發的整套統計方法，例如： * 摘要統計。 * 變量之間的相關性。 * 比較均值的顯著性檢驗。一般來說，我們更喜歡使用參數化數據，甚至可以使用數據參數化的數據準備方法，例如數據轉換，這樣我們就可以利用這些易于理解的統計方法。 ## 非參數數據不符合已知或易于理解的分布的數據稱為非參數數據。由于多種原因，數據可能是非參數的，例如： * 數據不是實數值，而是序數，間隔或其他形式。 * 數據是實值的，但不符合很好理解的形狀。 * 數據幾乎是參數化的，但包含異常值，多個峰值，移位或其他一些特征。我們可以使用一套方法用于非參數數據，稱為非參數統計方法。實際上，大多數參數方法都具有等效的非參數版本。一般而言，非參數方法的結果不如其參數方法的結果強大，即因為它們必須被推廣以適用于所有類型的數據。我們仍然可以使用它們進行推理并對結果和結果做出聲明，但它們與參數方法的類似聲明不具有相同的權重。有關分發的信息將被丟棄。在序數或區間數據的情況下，非參數統計是唯一可以使用的統計類型。對于實值數據，當您嘗試對不符合熟悉的高斯分布的數據進行聲明時，應用機器學習中需要非參數統計方法。 ## 排名數據在可以應用非參數統計方法之前，必須將數據轉換為等級格式。因此，期望排名格式的數據的統計方法有時被稱為排名統計，例如排名相關和排名統計假設檢驗。排名數據正如其名稱所示。程序如下： * 按升序對樣本中的所有數據進行排序。 * 為數據樣本中的每個唯一值分配1到N的整數等級。例如，假設我們有以下數據樣本，以列形式顯示： ```py 0.020 0.184 0.431 0.550 0.620 ``` 我們可以按如下方式排序： ```py 0.020 0.184 0.431 0.550 0.620 ``` 然后為每個值分配一個等級，從1開始： ```py 1 = 0.021055 2 = 0.404622 3 = 0.488733 4 = 0.618510 5 = 0.832803 ``` 然后，我們可以將此過程應用于另一個數據樣本，并開始使用非參數統計方法。對于特殊情況，例如處理關系，使用反向排名和使用小數排名得分，此過程有不同的變化，但一般屬性成立。 SciPy庫提供 _rankdata（）_函數來對數值數據進行排名，這支持排名的許多變化。下面的示例演示了如何對數值數據集進行排名。 ```py from numpy.random import rand from numpy.random import seed from scipy.stats import rankdata # seed random number generator seed(1) # generate dataset data = rand(1000) # review first 10 samples print(data[:10]) # rank data ranked = rankdata(data) # review first 10 ranked samples print(ranked[:10]) ``` 首先運行該示例從統一分布生成1,000個隨機數的樣本，然后對數據樣本進行排名并打印結果。 ```py [4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01 3.96767474e-01 5.38816734e-01] [408\. 721\. 1\. 300\. 151\. 93\. 186\. 342\. 385\. 535.] ``` ## 使用排名數據您可以使用統計工具來檢查樣本數據是否適合給定的分布。例如，如果我們將非參數數據作為看起來不是高斯的數據，那么您可以使用統計方法來量化高斯數據樣本的方式，并在數據未通過這些測試時使用非參數方法。正常性測試的統計方法的三個例子，如所謂： * Shapiro-Wilk測試。 * Kolmogorov-Smirnov測試。 * 安德森 - 達林測試決定使用非參數統計信息后，必須對數據進行排名。實際上，您用于推理的大多數工具都會自動執行樣本數據的排名。然而，重要的是要了解在執行測試之前如何轉換樣本數據。在應用機器學習中，您可以使用非參數統計方法解決有關數據的兩種主要問題。 ### 變量之間的關系量化變量之間依賴性的方法稱為相關方法。您可以使用的兩種非參數統計相關方法是： * 斯皮爾曼的等級相關系數。 * 肯德爾等級相關系數。 ### 比較樣本均值量化兩個群體之間的平均值是否顯著不同的方法稱為統計顯著性檢驗。您可以使用的三個非參數統計顯著性檢驗包括： * 弗里德曼測試。 * Mann-Whitney U測試。 * Wilcoxon簽名等級測試。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 列出三個您認為可能需要在應用機器學習項目中使用非參數統計方法的示例。 * 開發自己的示例來演示 _rankdata（）_函數的功能。 * 編寫自己的函數來對提供的單變量數據集進行排名。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * [所有非參數統計](http://amzn.to/2oGv2A6) * [實用非參數統計](http://amzn.to/2CXUe9y) * [應用非參數統計](http://amzn.to/2t9iMN6) ### API * [numpy.random.seed（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.seed.html) * [numpy.random.rand（）API](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.rand.html) * [scipy.stats.rankdata（）API](http://scipy.github.io/devdocs/generated/scipy.stats.rankdata.html) ### 用品 * 維基百科上的[參數統計](https://en.wikipedia.org/wiki/Parametric_statistics) * [維基百科上的非參數統計](https://en.wikipedia.org/wiki/Nonparametric_statistics) * [維基百科排名](https://en.wikipedia.org/wiki/Ranking) * [維基百科上的排名相關](https://en.wikipedia.org/wiki/Rank_correlation) * [維基百科的正常性測試](https://en.wikipedia.org/wiki/Normality_test) ## 摘要在本教程中，您發現了非參數統計信息及其在應用機器學習中的作用。具體來說，你學到了： * 參數和非參數數據之間的區別。 * 如何對數據進行排名以丟棄有關數據分布的所有信息。 * 可用于排名數據的統計方法示例。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。