15 Python中的統計假設檢驗（備忘單） · Machine Learning Mastery 博客文章翻譯

# 15 Python中的統計假設檢驗（備忘單） > 原文： [https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/](https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/) #### 在應用機器學習中需要的15個統計假設檢驗的快速參考指南，以及Python中的示例代碼。盡管您可以使用數百種統計假設檢驗，但您可能只需要在機器學習項目中使用一小部分。在這篇文章中，您將發現一個備忘單，用于機器學習項目的最流行的統計假設檢驗，其中包含使用Python API的示例。每個統計測試都以一致的方式呈現，包括： * 測試的名稱。 * 測試的內容是什么。 * 測試的關鍵假設。 * 如何解釋測試結果。 * 用于使用測試的Python API。注意，當涉及諸如預期的數據分布或樣本大小之類的假設時，給定測試的結果可能會優雅地降級，而不是在違反假設時立即變得不可用。通常，數據樣本需要代表域并且足夠大以將它們的分布暴露給分析。在某些情況下，可以校正數據以滿足假設，例如通過去除異常值來將近似正態分布校正為正常，或者在樣本具有不同方差時使用統計檢驗中的自由度校正來命名為二例子。最后，對于給定的關注點可能存在多個測試，例如，常態。我們無法通過統計數據獲得清晰的問題答案;相反，我們得到概率答案。因此，我們可以通過不同方式考慮問題來得出同一問題的不同答案。因此，對于我們可能對數據提出的一些問題，需要進行多種不同的測試。讓我們開始吧。 * **更新Nov / 2018** ：更好地概述了所涵蓋的測試。 ![Statistical Hypothesis Tests in Python Cheat Sheet](img/e75b65d84f0c276d384372821a4a100f.jpg) Python備忘單中的統計假設檢驗 [davemichuda](https://www.flickr.com/photos/36137232@N00/4800239195/) 的照片，保留一些權利。 ## 教程概述本教程分為四個部分;他們是： 1. **正態性測試** 1. Shapiro-Wilk測試 2. D'Agostino的K ^ 2測試 3. 安德森 - 達林測試 2. **相關性測試** 1. 皮爾遜的相關系數 2. 斯皮爾曼的秩相關 3. 肯德爾的秩相關 4. Chi-Squared測試 3. **參數統計假設檢驗** 1. 學生的t檢驗 2. 配對學生的t檢驗 3. 方差檢驗分析（ANOVA） 4. 重復測量方差分析測試 4. **非參數統計假設檢驗** 1. Mann-Whitney U測試 2. 威爾科克森簽名等級測試 3. Kruskal-Wallis H測試 4. 弗里德曼測試 ## 1.正態性測試本節列出了可用于檢查數據是否具有高斯分布的統計測試。 ### Shapiro-Wilk測試測試數據樣本是否具有高斯分布。假設 * 每個樣本中的觀察是獨立的并且相同地分布（iid）。解釋 * H0：樣本具有高斯分布。 * H1：樣本沒有高斯分布。 Python代碼 ```py from scipy.stats import shapiro data1 = .... stat, p = shapiro(data) ``` 更多信息 * [scipy.stats.shapiro](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html) * 維基百科上的 [Shapiro-Wilk測試](https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test) ### D'Agostino的K ^ 2測試 Tests whether a data sample has a Gaussian distribution. Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 Interpretation * H0：樣本具有高斯分布。 * H1：樣本沒有高斯分布。 Python Code ```py from scipy.stats import normaltest data1 = .... stat, p = normaltest(data) ``` More Information * [scipy.stats.normaltest](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html) * [D'Agostino在維基百科上的$ K $平方測試](https://en.wikipedia.org/wiki/D%27Agostino%27s_K-squared_test) ### 安德森 - 達林測試 Tests whether a data sample has a Gaussian distribution. Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 Interpretation * H0：樣本具有高斯分布。 * H1：樣本沒有高斯分布。 Python Code ```py from scipy.stats import anderson data1 = .... result = anderson(data) ``` More Information * [scipy.stats.anderson](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.anderson.html) * [維基百科上的Anderson-Darling測試](https://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test) ## 2.相關性測試本節列出了可用于檢查兩個樣本是否相關的統計檢驗。 ### 皮爾遜的相關系數測試兩個樣本是否具有線性關系。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 每個樣本中的觀察結果通常是分布的。 * 每個樣本中的觀察結果具有相同的方差。 Interpretation * H0：兩個樣本是獨立的。 * H1：樣本之間存在依賴關系。 Python Code ```py from scipy.stats import pearsonr data1, data2 = ... corr, p = pearsonr(data1, data2) ``` More Information * [scipy.stats.pearsonr](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html) * [Pearson在維基百科上的相關系數](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient) ### 斯皮爾曼的秩相關測試兩個樣本是否具有單調關系。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 Interpretation * H0：兩個樣本是獨立的。 * H1：樣本之間存在依賴關系。 Python Code ```py from scipy.stats import spearmanr data1, data2 = ... corr, p = spearmanr(data1, data2) ``` More Information * [scipy.stats.spearmanr](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html) * [Spearman在維基百科上的等級相關系數](https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient) ### 肯德爾的秩相關 Tests whether two samples have a monotonic relationship. Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 Interpretation * H0：兩個樣本是獨立的。 * H1：樣本之間存在依賴關系。 Python Code ```py from scipy.stats import kendalltau data1, data2 = ... corr, p = kendalltau(data1, data2) ``` More Information * [scipy.stats.kendalltau](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html) * [維基百科上的肯德爾等級相關系數](https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient) ### Chi-Squared測試測試兩個分類變量是相關的還是獨立的。 Assumptions * 用于計算列聯表的觀察是獨立的。 * 列聯表的每個單元格中有25個或更多個例子。 Interpretation * H0：兩個樣本是獨立的。 * H1：樣本之間存在依賴關系。 Python Code ```py from scipy.stats import chi2_contingency table = ... stat, p, dof, expected = chi2_contingency(table) ``` More Information * [scipy.stats.chi2_contingency](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html) * [維基百科上的Chi-Squared測試](https://en.wikipedia.org/wiki/Chi-squared_test) ## 3.參數統計假設檢驗本節列出了可用于比較數據樣本的統計測試。 ### 學生的t檢驗測試兩個獨立樣本的均值是否顯著不同。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 每個樣本中的觀察結果通常是分布的。 * 每個樣本中的觀察結果具有相同的方差。 Interpretation * H0：樣本的平均值相等。 * H1：樣本的均值不相等。 Python Code ```py from scipy.stats import ttest_ind data1, data2 = ... stat, p = ttest_ind(data1, data2) ``` More Information * [scipy.stats.ttest_ind](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html) * [維基百科上的學生t檢驗](https://en.wikipedia.org/wiki/Student%27s_t-test) ### 配對學生的t檢驗測試兩個配對樣本的均值是否顯著不同。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 每個樣本中的觀察結果通常是分布的。 * 每個樣本中的觀察結果具有相同的方差。 * 每個樣本的觀察結果是成對的。 Interpretation * H0：樣本的平均值相等。 * H1：樣本的均值不相等。 Python Code ```py from scipy.stats import ttest_rel data1, data2 = ... stat, p = ttest_rel(data1, data2) ``` More Information * [scipy.stats.ttest_rel](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html) * [維基百科上的學生t檢驗](https://en.wikipedia.org/wiki/Student%27s_t-test) ### 方差檢驗分析（ANOVA）測試兩個或多個獨立樣本的均值是否顯著不同。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 每個樣本中的觀察結果通常是分布的。 * 每個樣本中的觀察結果具有相同的方差。 Interpretation * H0：樣本的平均值相等。 * H1：樣品的一種或多種方法是不相等的。 Python Code ```py from scipy.stats import f_oneway data1, data2, ... = ... stat, p = f_oneway(data1, data2, ...) ``` More Information * [scipy.stats.f_oneway](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html) * [維基百科](https://en.wikipedia.org/wiki/Analysis_of_variance)的方差分析 ### 重復測量方差分析測試測試兩個或更多配對樣本的均值是否顯著不同。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 每個樣本中的觀察結果通常是分布的。 * 每個樣本中的觀察結果具有相同的方差。 * 每個樣本的觀察結果是成對的。 Interpretation * H0：樣本的平均值相等。 * H1：樣品的一種或多種方法是不相等的。 Python Code 目前在Python中不支持。 More Information * [維基百科](https://en.wikipedia.org/wiki/Analysis_of_variance)的方差分析 ## 4.非參數統計假設檢驗 ### Mann-Whitney U測試測試兩個獨立樣本的分布是否相等。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 Interpretation * H0：兩個樣本的分布相等。 * H1：兩個樣本的分布不相等。 Python Code ```py from scipy.stats import mannwhitneyu data1, data2 = ... stat, p = mannwhitneyu(data1, data2) ``` More Information * [scipy.stats.mannwhitneyu](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html) * [維基百科上的Mann-Whitney U測試](https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test) ### 威爾科克森簽名等級測試測試兩個配對樣本的分布是否相等。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 * 每個樣本的觀察結果是成對的。 Interpretation * H0：兩個樣本的分布相等。 * H1：兩個樣本的分布不相等。 Python Code ```py from scipy.stats import wilcoxon data1, data2 = ... stat, p = wilcoxon(data1, data2) ``` More Information * [scipy.stats.wilcoxon](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html) * [Wilcoxon對維基百科的簽名等級測試](https://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test) ### Kruskal-Wallis H測試測試兩個或多個獨立樣本的分布是否相等。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 Interpretation * H0：所有樣本的分布相等。 * H1：一個或多個樣本的分布不相等。 Python Code ```py from scipy.stats import kruskal data1, data2, ... = ... stat, p = kruskal(data1, data2, ...) ``` More Information * [scipy.stats.kruskal](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kruskal.html) * [Kruskal-Wallis對維基百科的單因素方差分析](https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance) ### 弗里德曼測試測試兩個或更多配對樣本的分布是否相等。 Assumptions * 每個樣本中的觀察是獨立的并且相同地分布（iid）。 * 可以對每個樣本中的觀察進行排序。 * 每個樣本的觀察結果是成對的。 Interpretation * H0：所有樣本的分布相等。 * H1：一個或多個樣本的分布不相等。 Python Code ```py from scipy.stats import friedmanchisquare data1, data2, ... = ... stat, p = friedmanchisquare(data1, data2, ...) ``` More Information * [scipy.stats.friedmanchisquare](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kruskal.html) * [弗里德曼在維基百科上的測試](https://en.wikipedia.org/wiki/Friedman_test) ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [Python中正常性測試的溫和介紹](https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/) * [如何使用相關來理解變量之間的關系](https://machinelearningmastery.com/how-to-use-correlation-to-understand-the-relationship-between-variables/) * [如何在Python中使用參數統計顯著性檢驗](https://machinelearningmastery.com/parametric-statistical-significance-tests-in-python/) * [統計假設檢驗的溫和介紹](https://machinelearningmastery.com/statistical-hypothesis-tests/) ## 摘要在本教程中，您發現了可能需要在機器學習項目中使用的關鍵統計假設檢驗。具體來說，你學到了： * 在不同情況下使用的測試類型，例如正態性檢查，變量之間的關系以及樣本之間的差異。 * 每個測試的關鍵假設以及如何解釋測試結果。 * 如何使用Python API實現測試。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。我是否錯過了其中一項列出的測試的重要統計測試或關鍵假設？請在下面的評論中告訴我。