統計假設檢驗的溫和介紹 · Machine Learning Mastery 博客文章翻譯

# 統計假設檢驗的溫和介紹 > 原文： [https://machinelearningmastery.com/statistical-hypothesis-tests/](https://machinelearningmastery.com/statistical-hypothesis-tests/) 必須解釋數據以增加含義。我們可以通過假設特定結構來解釋數據，并使用統計方法來確認或拒絕假設。該假設稱為假設，用于此目的的統計檢驗稱為統計假設檢驗。每當我們想要對數據分布做出聲明，或者一組結果是否與應用機器學習中的另一組結果不同時，我們必須依賴統計假設檢驗。在本教程中，您將發現統計假設檢驗以及如何解釋和仔細陳述統計檢驗的結果。完成本教程后，您將了解： * 統計假設檢驗對于量化關于數據樣本的問題的答案很重要。 * 統計假設檢驗的解釋需要正確理解p值和臨界值。 * 無論顯著性水平如何，假設檢驗的發現仍可能包含錯誤。讓我們開始吧。 * **更新于2018年5月**：添加了關于“拒絕”與“拒絕拒絕”的說明，改進了此問題的語言。 * **更新Jun / 2018** ：修正了I型和II型錯誤解釋中的拼寫錯誤。 ![A Gentle Introduction to Statistical Hypothesis Tests](img/f731e7f1aab9e664e4d2e317882b7810.jpg) 統計假設檢驗的溫和介紹 [Kevin Verbeem](https://www.flickr.com/photos/kevinverbeem/33597498581/) 的照片，保留一些權利。 ## 教程概述本教程分為3個部分;他們是： 1. 統計假設檢驗 2. 統計測試解釋 3. 統計檢驗中的錯誤 ## 統計假設檢驗僅數據并不有趣。這是對我們真正感興趣的數據的解釋。在統計學中，當我們希望開始詢問有關數據的問題并解釋結果時，我們使用統計方法來提供答案的置信度或可能性。一般來說，這類方法稱為[統計假設檢驗](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing)，或顯著性檢驗。術語“_假設_”可能會讓你思考科學，我們在那里研究一個假設。這是正確的軌道。在統計學中，假設檢驗在給定假設下計算一些數量。測試結果允許我們解釋假設是否成立或假設是否被違反。我們將在機器學習中大量使用的兩個具體例子是： * 假設數據具有正態分布的測試。 * 假設兩個樣本來自相同的基礎人口分布的測試。統計檢驗的假設稱為零假設，或假設0（簡稱H0）。它通常被稱為默認假設，或者假設沒有任何變化。違反測試假設通常被稱為第一個假設，假設1或簡稱H1。 H1實際上是“_其他一些假設_”的簡稱，因為我們所知道的是證據表明H0可以被拒絕。 * **假設0（H0）**：測試的假設成立并且未能在某種重要性水平上被拒絕。 * **假設1（H1）**：測試的假設不成立并且在某種程度上被拒絕。在我們拒絕或不能拒絕原假設之前，我們必須解釋測試的結果。 ## 統計測試解釋統計假設檢驗的結果必須解釋為我們開始提出索賠。對于初學者和有經驗的從業者來說，這一點可能會引起很多混亂。統計假設檢驗可能會產生兩種常見形式，必須以不同方式進行解釋。它們是p值和臨界值。 ### 解釋p值我們通過解釋p值來描述一個具有統計顯著性的發現。例如，我們可以對數據樣本執行正態性檢驗，并發現數據樣本不太可能偏離高斯分布，不能拒絕原假設。統計假設檢驗可以返回稱為p的值或 [p值](https://en.wikipedia.org/wiki/P-value)。這是我們可以用來解釋或量化測試結果的數量，并且拒絕或不能拒絕原假設。這是通過將p值與預先選擇的稱為顯著性水平的閾值進行比較來完成的。 [顯著性水平](https://en.wikipedia.org/wiki/Statistical_significance)通常由希臘小寫字母alpha引用。用于alpha的常用值是5％或0.05。較小的α值表明對零假設的更穩健的解釋，例如1％或0.1％。將p值與預先選擇的α值進行比較。當p值小于α時，結果具有統計學意義。這表示檢測到更改：可以拒絕默認假設。 * **如果p值> alpha** ：無法拒絕原假設（即不具有重要結果）。 * **如果p值＆lt; =α**：拒絕原假設（即顯著結果）。例如，如果我們正在測試數據樣本是否正常并且我們計算了p值為.07，我們可以說： > 測試發現數據樣本是正常的，未能以5％的顯著性水平拒絕零假設。可以通過從1中減去顯著性水平來反映顯著性水平，以給出觀察到的樣本數據的假設的置信水平。 ```py confidence level = 1 - significance level ``` 因此，也可以進行如下陳述： > 測試發現數據正常，未能在95％置信水平拒絕零假設。 ### “拒絕”與“拒絕拒絕” p值是概率性的。這意味著當我們解釋統計測試的結果時，我們不知道什么是真或假，只有可能。拒絕零假設意味著有足夠的統計證據表明零假設看起來不太可能。否則，這意味著沒有足夠的統計證據來拒絕零假設。我們可以根據拒絕和接受零假設的二分法來考慮統計檢驗。危險在于，如果我們說“_接受_”零假設，那么該語言就表明零假設是正確的。相反，更安全地說我們“_未能拒絕_”零假設，因為沒有足夠的統計證據來拒絕它。當第一次閱讀“_拒絕_”vs“_未能拒絕_”時，初學者會感到困惑。您可以將其視為“_拒絕_”與“_接受_”在您的腦海中，只要您提醒自己結果是概率性的，即使是“_接受_“零假設仍然存在錯誤的概率很小。 ### 常見的p值誤解本節重點介紹統計檢驗結果中p值的一些[常見錯誤解釋。](https://en.wikipedia.org/wiki/Misunderstandings_of_p-values) #### 真或假空假設對p值的解釋并不意味著零假設是真或假。它確實意味著我們選擇在基于經驗證據和所選統計檢驗的特定統計顯著性水平上拒絕或不能拒絕零假設。您僅限于提出概率聲明，而不是關于結果的清晰二元或真/假聲明。 #### p值為概率一個常見的誤解是p值是給定數據的零假設為真或假的概率。在概率上，這將寫成如下： ```py Pr(hypothesis | data) ``` 這是不正確的。相反，p值可以被認為是給定統計測試中嵌入的預先指定的假設的數據的概率。再次，使用概率表示法，這將寫為： ```py Pr(data | hypothesis) ``` 它允許我們推斷數據是否符合假設。不是相反。 p值是衡量零假設為真時數據樣本觀察的可能性的度量。 #### 后期調整這并不意味著您可以重新對域進行采樣或調整數據樣本并重新運行統計測試，直到獲得所需結果。這并不意味著您可以在運行測試后選擇p值。這被稱為p-hacking或爬山，意味著你呈現的結果將是脆弱的而不具代表性的。在科學方面，這至多是不道德的，最糟糕的是欺詐。 ### 解釋關鍵值某些測試不返回p值。相反，他們可能會返回[臨界值列表](https://en.wikipedia.org/wiki/Critical_value)及其相關顯著性水平，以及測試統計數據。這些通常是非參數或無分布的統計假設檢驗。返回p值或關鍵值列表的選擇實際上是一種實現選擇。結果以類似的方式解釋。不是將單個p值與預先指定的顯著性水平進行比較，而是將檢驗統計量與選定顯著性水平的臨界值進行比較。 * **如果檢驗統計量＆lt;臨界值**：無法拒絕原假設。 * **如果檢驗統計量> =臨界值**：拒絕原假設。同樣，結果的含義是類似的，因為所選擇的顯著性水平是關于拒絕的概率決定或者在給定數據的情況下不能拒絕測試的基本假設。結果以與p值相同的方式呈現，作為顯著性水平或置信水平。例如，如果計算正態性檢驗并將檢驗統計量與5％顯著性水平的臨界值進行比較，則結果可表示為： > The test found that the data sample was normal, failing to reject the null hypothesis at a 5% significance level. 要么： > The test found that the data was normal, failing to reject the null hypothesis at a 95% confidence level. ## 統計檢驗中的錯誤統計假設檢驗的解釋是概率性的。這意味著測試的證據可能表明結果并且是錯誤的。例如，如果α為5％，則表明（最多）20次中的1次，由于數據樣本中的統計噪聲，零假設將被錯誤地拒絕或未能被拒絕。給定一個小的p值（拒絕零假設）或者意味著零假設是假的（我們做對了）或者它是真的并且已經觀察到一些罕見且不太可能的事件（我們犯了一個錯誤）。如果發生這種類型的錯誤，則稱為**誤報**。我們錯誤地認為拒絕零假設。或者，給定一個大的p值（未能拒絕零假設），它可能意味著零假設為真（我們做對了）或者零假設是假的并且發生了一些不太可能的事件（我們犯了一個錯誤）。如果發生這種類型的錯誤，則稱為**假陰性**。我們錯誤地認為零假設或統計檢驗的假設。這兩種錯誤中的每一種都有一個特定的名稱。 * **類型I錯誤**：錯誤拒絕真零假設或假陽性。 * **類型II錯誤**：拒絕假零假設或假陰性的錯誤失敗。所有統計假設檢驗都有可能產生這些類型的錯誤。虛假的發現或錯誤的妄想是可能的;他們很可能。理想情況下，我們希望選擇一個顯著性水平，以最大限度地減少這些錯誤之一的可能性。例如。非常小的顯著性水平。雖然0.05和0.01等顯著性水平在許多科學領域都很常見，但更為科學的[，如物理學](http://www.physics.org/article-questions.asp?id=103)，更具攻擊性。通常使用3 * 10 ^ -7或0.0000003的顯著性水平，通常稱為5-sigma。這意味著該發現是由于偶然發生實驗的350萬次獨立重復中的概率為1。要使用這樣的閾值，可能需要大量的數據樣本。然而，這些類型的錯誤總是存在的，在呈現和解釋統計測試的結果時必須牢記這些錯誤。這也是為什么獨立驗證結果很重要的原因。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 查找不使用p值顯示結果的研究論文示例。 * 找一個研究論文的例子，該論文提出具有統計顯著性的結果，但是對p值進行了一種常見的誤解。 * 找一個研究論文的例子，該論文提出具有統計顯著性的結果，并正確地解釋和呈現p值和發現。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 用品 * [維基百科上的統計假設檢驗](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing) * [維基百科的統計意義](https://en.wikipedia.org/wiki/Statistical_significance) * 維基百科上的 [p值](https://en.wikipedia.org/wiki/P-value) * [維基百科的重要價值](https://en.wikipedia.org/wiki/Critical_value) * [維基百科上的I型和II型錯誤](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors) * [維基百科上的數據挖掘](https://en.wikipedia.org/wiki/Data_dredging) * [對維基百科上的p值的誤解](https://en.wikipedia.org/wiki/Misunderstandings_of_p-values) * [5 sigma是什么意思？](http://www.physics.org/article-questions.asp?id=103) ## 摘要在本教程中，您發現了統計假設檢驗以及如何解釋和仔細陳述統計檢驗的結果。具體來說，你學到了： * 統計假設檢驗對于量化關于數據樣本的問題的答案很重要。 * 統計假設檢驗的解釋需要正確理解p值。 * 無論顯著性水平如何，假設檢驗的發現仍可能包含錯誤。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。