Python中統計功效和功耗分析的簡要介紹 · Machine Learning Mastery 博客文章翻譯

# Python中統計功效和功耗分析的簡要介紹 > 原文： [https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/](https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/) 如果存在檢測到的真實效果，則假設檢驗的統計功效是檢測效果的概率。可以計算并報告完成實驗的功效，以評論從研究結果中得出的結論中可能存在的置信度。它還可以用作估計觀察數量或樣本量的工具，以便檢測實驗中的效果。在本教程中，您將發現假設檢驗的統計功效的重要性，現在可以計算功效分析和功率曲線，作為實驗設計的一部分。完成本教程后，您將了解： * 統計功效是在發現效果時發現效果的假設檢驗的概率。 * 在給定期望的顯著性水平，效應大小和統計功效的情況下，功率分析可用于估計實驗所需的最小樣本大小。 * 如何計算和繪制Python中Student t檢驗的功效分析，以便有效地設計實驗。讓我們開始吧。 ![A Gentle Introduction to Statistical Power and Power Analysis in Python](img/dca7e472cd0be43357c2f357e5734038.jpg) Python中統計功效和功率分析的簡要介紹 [KamilPorembiński](https://www.flickr.com/photos/paszczak000/8018640930/)的照片，保留一些權利。 ## 教程概述本教程分為四個部分;他們是： 1. 統計假設檢驗 2. 什么是統計權力？ 3. 功率分析 4. 學生的測試功率分析 ## 統計假設檢驗統計假設檢驗對結果做出假設，稱為零假設。例如，Pearson相關性檢驗的零假設是兩個變量之間沒有關系。學生t檢驗的零假設是兩個群體的均值之間沒有差異。測試通常使用p值來解釋，p值是觀察結果的概率，假設零假設為真，而不是相反，正如誤解的情況一樣。 * **p值（p）**：獲得與數據中觀察到的結果相等或更高的結果的概率。在解釋顯著性檢驗的p值時，必須指定顯著性水平，通常稱為希臘小寫字母alpha（a）。顯著性水平的共同值是5％寫為0.05。 p值對所選顯著性水平的背景感興趣。如果p值小于顯著性水平，則顯著性檢驗的結果被稱為“_統計學上顯著_”。這意味著拒絕零假設（沒有結果）。 * **p <= alpha** ：拒絕H0，分布不同。 * **p＆gt; alpha** ：無法拒絕H0，相同的分布。哪里： * **顯著性水平（α）**：用于在解釋p值時指定統計學上顯著的發現的邊界。我們可以看到p值只是一個概率，實際上結果可能不同。測試可能是錯誤的。給定p值，我們可以在解釋中出錯。有兩種類型的錯誤;他們是： * **I型錯誤**。當實際上沒有顯著影響（假陽性）時拒絕原假設。 p值樂觀地小。 * **II型錯誤**。當存在顯著影響時（假陰性），不拒絕原假設。 p值悲觀地大。在這種情況下，我們可以將顯著性水平視為拒絕零假設的概率，如果它是真的。這是發生I型錯誤或誤報的可能性。 ## 什么是統計權力？統計功效或假設檢驗的功效是檢驗正確拒絕零假設的概率。也就是說，真陽性結果的概率。只有當零假設被拒絕時才有用。 > 統計功效是指測試正確拒絕假零假設的概率。僅當null為假時，統計功率才具有相關性。 - 第60頁，[影響大小的基本指南：統計能力，Meta分析和研究結果的解釋](https://amzn.to/2JDcwSe)，2010。給定實驗的統計功效越高，產生II型（假陰性）誤差的概率越低。也就是說，當有效果時檢測效果的概率越高。實際上，功率恰好是II型誤差概率的倒數。 ```py Power = 1 - Type II Error Pr(True Positive) = 1 - Pr(False Negative) ``` 更直觀地，當備選假設為真時，統計能力可以被認為是接受備選假設的概率。在解釋統計功效時，我們尋求具有高統計功效的經驗設置。 * **低統計功率**：犯下II型錯誤的風險很大，例如：假陰性。 * **高統計功率**：犯下II型錯誤的風險很小。統計功率太低的實驗結果將導致關于結果含義的無效結論。因此，必須尋求最低水平的統計功效。設計具有80％或更高的統計功效的實驗是常見的，例如， 0.80。這意味著遇到II型區域的概率為20％。這與顯著性水平的標準值遇到類型I錯誤的5％可能性不同。 ## 功率分析統計力是拼圖中的一個，有四個相關部分;他們是： * **效果大小**。人口中存在的結果的量化量。效應大小是使用特定的統計量度計算的，例如Pearson的變量之間關系的相關系數或Cohen的d之間的差異。 * **樣本量**。樣本中的觀察數量。 * **意義**。統計檢驗中使用的顯著性水平，例如α。通常設為5％或0.05。 * **統計權**。如果是真的，接受替代假設的概率。所有四個變量都是相關的。例如，較大的樣本大小可以使效果更容易檢測，并且通過降低顯著性水平可以在測試中增加統計功效。功率分析涉及在給定三個其他參數的值的情況下估計這四個參數中的一個。這是我們希望使用統計假設檢驗解釋的實驗設計和分析中的強大工具。例如，可以在給定效應大小，樣本大小和顯著性水平的情況下估計統計功效。或者，可以給出不同的期望顯著性水平來估計樣本大小。 > 功效分析可以回答諸如“我的研究有多大的統計效力？”和“我需要多大的樣本量？”等問題。 - 第56頁，[影響大小的基本指南：統計功效，Meta分析和研究結果的解釋](https://amzn.to/2JDcwSe)，2010。也許功率分析最常見的用途是估計實驗所需的最小樣本量。 > 功率分析通常在進行研究之前進行。預期或先驗功率分析可用于估計四個功率參數中的任何一個，但最常用于估計所需的樣本大小。 - 第57頁，[影響大小的基本指南：統計能力，Meta分析和研究結果的解釋](https://amzn.to/2JDcwSe)，2010。作為從業者，我們可以從一些參數的合理默認值開始，例如0.05的顯著性水平和0.80的功率水平。然后我們可以估計所需的最小效應大小，特定于正在進行的實驗。然后可以使用功率分析來估計所需的最小樣本量。此外，可以執行多個功率分析以提供一個參數相對于另一個參數的曲線，例如在給定樣本大小變化的情況下實驗中效果大小的變化。可以根據三個參數創建更精細的圖表。這是實驗設計的有用工具。 ## 學生的測試功率分析我們可以通過一個有效的例子，將統計功效和功率分析的思想具體化。在本節中，我們將研究Student t檢驗，這是一個統計假設檢驗，用于比較兩個高斯變量樣本的均值。該測試的假設或無假設是樣本群具有相同的平均值，例如樣本之間沒有差異，或者樣本來自相同的基礎人群。該測試將計算p值，該p值可以解釋為樣本是否相同（未能拒絕原假設），或者樣本之間存在統計上顯著的差異（拒絕原假設）。解釋p值的共同顯著性水平是5％或0.05。 * **顯著性水平（α）**：5％或0.05。比較兩組的效果的大小可以用效應大小測量來量化。比較兩組平均值差異的常用方法是科恩測量。它計算一個標準分數，用于描述平均值不同的標準差數量的差異。 Cohen的d的大效應大小為0.80或更高，這是使用該度量時通常接受的。 * **效果大小**：科恩的d至少為0.80。我們可以使用默認值并假設最小統計功效為80％或0.8。 * **統計功效**：80％或0.80。對于具有這些默認值的給定實驗，我們可能對估計合適的樣本大小感興趣。也就是說，每個樣本需要多少觀察才能至少檢測到0.80的效果，如果是真的則有80％的幾率檢測到效果（類型II誤差的20％）和5％的檢測機會如果沒有這種效果會產生影響（類型I錯誤）。我們可以使用功率分析來解決這個問題。 statsmodels庫提供 [TTestIndPower](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.html) 類，用于計算具有獨立樣本的Student t檢驗的功效分析。值得注意的是 [TTestPower](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestPower.html) 類可以對配對的Student t檢驗執行相同的分析。函數 [solve_power（）](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.solve_power.html)可用于計算功率分析中的四個參數之一。在我們的例子中，我們有興趣計算樣本量。我們可以通過提供我們知道的三條信息（ _alpha_ ，_效果_和 _power_ ）并設置我們想要計算的參數大小來使用該功能（ _nobs1_ ）對“_無_”的答案。這告訴函數要計算什么。關于樣本大小的注釋：該函數有一個稱為比率的參數，即一個樣本中的樣本數與另一個樣本中的樣本數之比。如果預期兩個樣本具有相同的觀察數量，則該比率為1.0。例如，如果預計第二個樣本的觀察量是觀察量的一半，那么該比率將為0.5。必須創建TTestIndPower實例，然后我們可以使用我們的參數調用 _solve_power（）_來估計實驗的樣本大小。 ```py # perform power analysis analysis = TTestIndPower() result = analysis.solve_power(effect, power=power, nobs1=None, ratio=1.0, alpha=alpha) ``` 下面列出了完整的示例。 ```py # estimate sample size via power analysis from statsmodels.stats.power import TTestIndPower # parameters for power analysis effect = 0.8 alpha = 0.05 power = 0.8 # perform power analysis analysis = TTestIndPower() result = analysis.solve_power(effect, power=power, nobs1=None, ratio=1.0, alpha=alpha) print('Sample Size: %.3f' % result) ``` 運行該示例計算并打印實驗的估計樣本數為25.這將是查看所需大小效果所需的建議最小樣本數。 ```py Sample Size: 25.525 ``` 我們可以更進一步，計算功率曲線。功效曲線是線圖，顯示變量的變化（如效應大小和樣本大小）如何影響統計檢驗的功效。 [plot_power（）函數](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.plot_power.html)可用于創建功率曲線。因變量（x軸）必須在' _dep_var_ '參數中通過名稱指定。然后可以為樣本大小（ _nobs_ ），效應大小（ _effect_size_ ）和顯著性（ _alpha_ ）參數指定值數組。然后繪制一條或多條曲線，顯示對統計功效的影響。例如，我們可以假設0.05的顯著性（函數的默認值）并探索樣本大小在5到100之間的變化，具有低，中和高效果大小。 ```py # calculate power curves from multiple power analyses analysis = TTestIndPower() analysis.plot_power(dep_var='nobs', nobs=arange(5, 100), effect_size=array([0.2, 0.5, 0.8])) ``` The complete example is listed below. ```py # calculate power curves for varying sample and effect size from numpy import array from matplotlib import pyplot from statsmodels.stats.power import TTestIndPower # parameters for power analysis effect_sizes = array([0.2, 0.5, 0.8]) sample_sizes = array(range(5, 100)) # calculate power curves from multiple power analyses analysis = TTestIndPower() analysis.plot_power(dep_var='nobs', nobs=sample_sizes, effect_size=effect_sizes) pyplot.show() ``` 運行該示例創建的圖表顯示了隨著樣本大小（x軸）增加，對三種不同效果大小（ _es_ ）的統計功效（y軸）的影響。我們可以看到，如果我們對一個大的影響感興趣，那么在統計功效方面的收益遞減點發生在大約40到50個觀測值。 ![Power Curves for Student's t Test](img/069ba5aaff77fc71bdc3dc494cb742fc.jpg) 學生t檢驗的功率曲線有用的是，statsmodels具有[類來執行功率分析](http://www.statsmodels.org/dev/stats.html#power-and-sample-size-calculations)以及其他統計測試，例如F檢驗，Z檢驗和Chi-Squared檢驗。 ## 擴展本節列出了一些擴展您可能希望探索的教程的想法。 * 繪制不同標準顯著性水平的功效曲線與樣本量的關系圖。 * 查找報告實驗統計功效的研究示例。 * 為statsmodels提供的其他統計測試準備表現分析示例。如果你探索任何這些擴展，我很想知道。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 ### 文件 * [使用效果大小 - 或為什么P值不夠](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/)，2012。 ### 圖書 * [影響大小的基本指南：統計力量，Meta分析和研究結果的解釋](https://amzn.to/2JDcwSe)，2010。 * [了解新統計：影響大小，置信區間和元分析](https://amzn.to/2v0wKSI)，2011。 * [行為科學的統計功效分析](https://amzn.to/2GNcmtu)，1988。 * [行為科學的應用功效分析](https://amzn.to/2GPS3vI)，2010。 ### API * [Statsmodels功率和樣本量計算](http://www.statsmodels.org/dev/stats.html#power-and-sample-size-calculations) * [statsmodels.stats.power.TTestPower API](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestPower.html) * [statsmodels.stats.power.TTestIndPower](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.html) * [statsmodels.stats.power.TTestIndPower.solve_power（）API](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.solve_power.html) [statsmodels.stats.power.TTestIndPower.plot_power（）API](http://www.statsmodels.org/dev/generated/statsmodels.stats.power.TTestIndPower.plot_power.html) * [Statsmodels統計權力](http://jpktd.blogspot.com.au/2013/03/statistical-power-in-statsmodels.html)，2013年。 * [statsmodels中的Power Plots](http://jpktd.blogspot.com.au/2013/05/power-plots-in-statsmodels.html) ，2013。 ### 用品 * [維基百科上的統計數據](https://en.wikipedia.org/wiki/Statistical_power) * [維基百科上的統計假設檢驗](https://en.wikipedia.org/wiki/Statistical_hypothesis_testing) * [維基百科的統計意義](https://en.wikipedia.org/wiki/Statistical_significance) * [維基百科上的樣本量確定](https://en.wikipedia.org/wiki/Sample_size_determination) * [維基百科上的效果大小](https://en.wikipedia.org/wiki/Effect_size) * [維基百科上的I型和II型錯誤](https://en.wikipedia.org/wiki/Type_I_and_type_II_errors) ## 摘要在本教程中，您發現了假設檢驗的統計功效以及如何計算功效分析和功率曲線作為實驗設計的一部分。具體來說，你學到了： * 統計功效是在發現效果時發現效果的假設檢驗的概率。 * 在給定期望的顯著性水平，效應大小和統計功效的情況下，功率分析可用于估計實驗所需的最小樣本大小。 * 如何計算和繪制Python中Student t檢驗的功效分析，以便有效地設計實驗。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。