淺談機器學習的Chi-Squared測試 · Machine Learning Mastery 博客文章翻譯

# 淺談機器學習的Chi-Squared測試 > 原文： [https://machinelearningmastery.com/chi-squared-test-for-machine-learning/](https://machinelearningmastery.com/chi-squared-test-for-machine-learning/) 應用機器學習中的常見問題是確定輸入特征是否與要預測的結果相關。這是特征選擇的問題。在輸入變量也是分類的分類問題的情況下，我們可以使用統計測試來確定輸出變量是依賴還是獨立于輸入變量。如果是獨立的，則輸入變量是可能與問題無關并從數據集中刪除的要素的候選者。 Pearson的卡方統計假設是分類變量之間獨立性檢驗的一個例子。在本教程中，您將發現用于量化分類變量對的獨立性的卡方統計假設檢驗。完成本教程后，您將了解： * 可以使用列聯表來匯總成對的分類變量。 * 卡方檢驗可以將觀察到的列聯表與預期表進行比較，并確定分類變量是否獨立。 * 如何計算和解釋Python中分類變量的卡方檢驗。讓我們開始吧。 * **更新Jun / 2018** ：從測試中解釋關鍵值的小錯誤修復（感謝Andrew）。 ![A Gentle Introduction to the Chi-Squared Test for Machine Learning](img/e986eb1bedf061678da5260395bae17f.jpg) 機器學習Chi-Squared測試的溫和介紹 [NC濕地](https://www.flickr.com/photos/ncwetlands/38431877722/)的照片，保留一些權利 ## 教程概述本教程分為3個部分;他們是： 1. 列聯表 2. 皮爾遜的Chi-Squared測試 3. 示例Chi-Squared測試 ## 列聯表分類變量是可以采用一組標簽之一的變量。一個例子可能是性，可以概括為男性或女性。變量是' _sex_ '，變量的標簽或因子是' _male_ '和' _female_ '在這種情況下。我們可能希望查看分類變量的摘要，因為它與另一個分類變量有關。例如，性和興趣，其中興趣可能有標簽'_科學_'，'_數學_'或'_藝術_'。我們可以從收集到的關于這兩個分類變量的人收集觀察結果;例如： ```py Sex, Interest Male, Art Female, Math Male, Science Male, Math ... ``` 我們可以在一個表中匯總所收集的觀察結果，其中一個變量對應于列，另一個變量對應于行。表中的每個單元格對應于與行和列類別對應的觀察的計數或頻率。歷史上，這種形式的兩個分類變量的表匯總稱為[列聯表](https://en.wikipedia.org/wiki/Contingency_table)。例如，具有人為計數的_性別=行_和_興趣=列_表可能如下所示： ```py Science, Math, Art Male 20, 30, 15 Female 20, 15, 30 ``` 該表由Karl Pearson稱為列聯表，因為其目的是幫助確定一個變量是否依賴于另一個變量。例如，對數學或科學的興趣是否取決于性別，還是它們是獨立的？僅從表格中確定這是具有挑戰性的;相反，我們可以使用稱為Pearson的Chi-Squared測試的統計方法。 ## 皮爾遜的Chi-Squared測試 Pearson的Chi-Squared測試，或簡稱Chi-Squared測試，以Karl Pearson命名，盡管測試有變化。 Chi-Squared測試是一種統計假設檢驗，假設（零假設）分類變量的觀察頻率與分類變量的預期頻率匹配。該測試計算具有卡方分布的統計量，以希臘大寫字母Chi（X）命名為“ki”，如風箏中所示。鑒于上面的性/興趣例子，一個類別（例如男性和女性）的觀察數量可能相同或不同。盡管如此，我們可以計算每個興趣小組中觀察的預期頻率，并查看按性別劃分的利益是否會產生相似或不同的頻率。 Chi-Squared測試用于列聯表，首先計算組的預期頻率，然后確定組的劃分（稱為觀察頻率）是否與預期頻率匹配。測試的結果是具有卡方分布的測試統計量，并且可以被解釋為拒絕或不能拒絕觀察到的和預期的頻率相同的假設或零假設。 > 當觀測頻率遠離預期頻率時，總和中的相應項很大;當兩者接近時，這個詞很小。較大的X ^ 2值表明觀察到的和預期的頻率相差很遠。 X ^ 2的小值意味著相反：觀察到的接近預期。所以X ^ 2確實測量了觀測頻率和預期頻率之間的距離。 - 第525頁，[統計](http://amzn.to/2u44zll)，第四版，2007年。如果觀察到的和預期的頻率相似，變量的水平不相互作用，則變量被認為是獨立的。 > 卡方檢驗的獨立性通過比較您收集的分類編碼數據（稱為觀察到的頻率）與您預期在表中每個單元格中獲得的頻率（稱為預期頻率）進行比較。。 - 第162頁，[普通英語統計](http://amzn.to/2IFyS4P)，第三版，2010年。我們可以在卡方分布的背景下解釋檢驗統計量，并具有必要的自由度數，如下所示： * **如果統計＆gt; =臨界值**：顯著結果，拒絕原假設（H0），依賴。 * **如果統計＆lt;臨界值**：不顯著的結果，不能拒絕零假設（H0），獨立。卡方分布的自由度是根據列聯表的大小計算的： ```py degrees of freedom: (rows - 1) * (cols - 1) ``` 根據p值和選擇的顯著性水平（alpha），測試可以解釋如下： * **如果p值＆lt; = alpha** ：顯著結果，則拒絕原假設（H0），依賴。 * **如果p值> alpha** ：不顯著的結果，不能拒絕零假設（H0），獨立。為了使測試有效，在列聯表的每個單元格中至少需要五次觀察。接下來，讓我們看看我們如何計算卡方檢驗。 ## 示例Chi-Squared測試可以使用 [chi2_contingency（）SciPy函數](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)在Python中計算Pearson的卡方檢驗。該函數將數組作為輸入，表示兩個分類變量的列聯表。它返回計算的統計值和解釋的p值以及計算的自由度和預期頻率表。 ```py stat, p, dof, expected = chi2_contingency(table) ``` 我們可以通過從卡方分布中檢索概率和自由度數的臨界值來解釋統計量。例如，可以使用95％的概率，這表明在測試假設變量是獨立的情況下很可能發現測試結果。如果統計量小于或等于臨界值，我們可能無法拒絕此假設，否則可能會被拒絕。 ```py # interpret test-statistic prob = 0.95 critical = chi2.ppf(prob, dof) if abs(stat) >= critical: print('Dependent (reject H0)') else: print('Independent (fail to reject H0)') ``` 我們還可以通過將p值與選定的顯著性水平進行比較來解釋p值，該顯著性水平為5％，通過反轉臨界值解釋中使用的95％概率來計算。 ```py # interpret p-value alpha = 1.0 - prob if p <= alpha: print('Dependent (reject H0)') else: print('Independent (fail to reject H0)') ``` 我們可以將所有這些結合在一起，并使用設計的列聯表來演示卡方顯著性檢驗。下面定義了一個列聯表，每個人口（行）的觀察數量不同，但每個群體（列）的比例相似。鑒于相似的比例，我們期望測試發現組是相似的并且變量是獨立的（不能拒絕零假設，或H0）。 ```py table = [ [10, 20, 30], [6, 9, 17]] ``` 下面列出了完整的示例。 ```py # chi-squared test with similar proportions from scipy.stats import chi2_contingency from scipy.stats import chi2 # contingency table table = [ [10, 20, 30], [6, 9, 17]] print(table) stat, p, dof, expected = chi2_contingency(table) print('dof=%d' % dof) print(expected) # interpret test-statistic prob = 0.95 critical = chi2.ppf(prob, dof) print('probability=%.3f, critical=%.3f, stat=%.3f' % (prob, critical, stat)) if abs(stat) >= critical: print('Dependent (reject H0)') else: print('Independent (fail to reject H0)') # interpret p-value alpha = 1.0 - prob print('significance=%.3f, p=%.3f' % (alpha, p)) if p <= alpha: print('Dependent (reject H0)') else: print('Independent (fail to reject H0)') ``` 首先運行示例打印列聯表。計算測試并將自由度（ _dof_ ）報告為2，這是有道理的： ```py degrees of freedom: (rows - 1) * (cols - 1) degrees of freedom: (2 - 1) * (3 - 1) degrees of freedom: 1 * 2 degrees of freedom: 2 ``` 接下來，打印計算出的預期頻率表，我們可以看到，通過數字的眼球檢查，確實觀察到的列聯表似乎確實匹配。計算并解釋臨界值，發現變量確實是獨立的（未能拒絕H0）。對p值的解釋得出了同樣的結論。 ```py [[10, 20, 30], [6, 9, 17]] dof=2 [[10.43478261 18.91304348 30.65217391] [ 5.56521739 10.08695652 16.34782609]] probability=0.950, critical=5.991, stat=0.272 Independent (fail to reject H0) significance=0.050, p=0.873 Independent (fail to reject H0) ``` ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 更新卡方檢驗以使用您自己的列聯表。 * 編寫一個函數來報告兩個分類變量的觀察結果的獨立性 * 加載包含分類變量的標準機器學習數據集，并報告每個變量的獨立性。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 圖書 * 第14章，獨立卡方檢驗，[簡明英語統計](http://amzn.to/2IFyS4P)，第3版，2010年。 * 第28章，卡方檢驗，[統計](http://amzn.to/2u44zll)，第四版，2007年。 ### API * [scipy.stats.chisquare（）API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html) * [scipy.stats.chi2_contingency（）API](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html) * [sklearn.feature_selection.chi2（）API](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html) ## 用品 * [維基百科上的卡方測試](https://en.wikipedia.org/wiki/Chi-squared_test) * [Pearson對維基百科的卡方測試](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test) * [維基百科上的列聯表](https://en.wikipedia.org/wiki/Contingency_table) * [chi測試如何用于機器學習中的特征選擇？關于Quora](https://www.quora.com/How-is-chi-test-used-for-feature-selection-in-machine-learning) ## 摘要在本教程中，您發現了用于量化分類變量對的獨立性的卡方統計假設檢驗。具體來說，你學到了： * 可以使用列聯表來匯總成對的分類變量。 * 卡方檢驗可以將觀察到的列聯表與預期表進行比較，并確定分類變量是否獨立。 * 如何計算和解釋Python中分類變量的卡方檢驗。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。