10.3 統計能力 · 斯坦福 Stats60 21 世紀的統計思維

## 10.3 統計能力請記住，在上一章中，根據 Neyman-Pearson 假設檢驗方法，我們必須指定我們對兩種錯誤的容忍程度：假陽性（他們稱之為 _I 型錯誤 _）和假陰性（他們稱之為 _II 型錯誤 _）。人們經常把重點放在 I 型錯誤上，因為作出假陽性的聲明通常被視為一件非常糟糕的事情；例如，韋克菲爾德（1999）現在不可信的聲稱自閉癥與疫苗接種有關，導致了反疫苗情緒的大幅上升。兒童疾病，如麻疹。同樣，我們也不想聲稱一種藥物如果真的不能治愈一種疾病，這就是為什么 I 型錯誤的耐受性通常被設定為相當低的原因，通常是在![](https://img.kancloud.cn/46/c0/46c01e385788ea8e97a8ea63fdbc8d70_68x13.jpg)。但是 II 型錯誤呢？ _ 統計功率 _ 的概念是對第二類錯誤的補充，也就是說，如果存在的話，很可能會得到一個正的結果： ![](https://img.kancloud.cn/5f/9d/5f9dc2dfe87281485acdd5019c837c21_115x16.jpg) Neyman-Pearson 模型的另一個重要方面，我們沒有在上面討論過，事實上，除了說明 I 型和 II 型錯誤的可接受水平外，我們還必須描述一個特定的替代假設——即，我們希望檢測的影響大小計算機斷層掃描？否則，我們無法解釋![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)——發現大效應的可能性總是高于發現小效應的可能性，因此![](https://img.kancloud.cn/76/d0/76d0eb69ba026a58bbe3edd275fee712_11x16.jpg)將根據我們試圖檢測的效應大小而有所不同。影響功率的因素有三個： * 樣本量：較大的樣本提供更大的統計能力 * 效果大小：給定的設計總是比小效果有更大的發現大效果的能力（因為發現大效果更容易） * I 型錯誤率：I 型錯誤與功率之間存在一種關系，因此（其他所有情況相同）減少 I 型錯誤也會降低功率。我們可以通過模擬看到這一點。首先，讓我們模擬一個單獨的實驗，在這個實驗中，我們使用標準 t 檢驗比較兩組的平均值。我們將改變影響的大小（根據 Cohen's d 的規定）、I 類錯誤率和樣本大小，并針對每一個，我們將檢查重要結果（即功率）的比例是如何受到影響的。圖[10.4](#fig:plotPowerSim)顯示了功率如何隨這些因素的函數而變化的示例。 ```r # Simulate power as a function of sample size, effect size, and alpha # create a set of functions to generate simulated results powerDf <- expand.grid( sampSizePerGroup = c(12, 24, 48, 96), effectSize = c(.2, .5, .8), alpha = c(0.005, 0.05) ) %>% tidyr::expand(effectSize, sampSizePerGroup, alpha) %>% group_by(effectSize, sampSizePerGroup, alpha) runPowerSim <- function(df, nsims = 1000) { p <- array(NA, dim = nsims) for (s in 1:nsims) { data <- data.frame( y = rnorm(df$sampSizePerGroup * 2), group = array(0, dim = df$sampSizePerGroup * 2) ) data$group[1:df$sampSizePerGroup] <- 1 data$y[data$group == 1] <- data$y[data$group == 1] + df$effectSize tt <- t.test(y ~ group, data = data) p[s] <- tt$p.value } return(data.frame(power = mean(p < df$alpha))) } # run the simulation powerSimResults <- powerDf %>% do(runPowerSim(.)) ``` ![Results from power simulation, showing power as a function of sample size, with effect sizes shown as different colors, and alpha shown as line type. The standard criterion of 80 percent power is shown by the dotted black line.](https://img.kancloud.cn/6e/89/6e89fde97c0053efb0afdd402bc1013f_576x384.png) 圖 10.4 功率模擬結果，顯示功率與樣本大小的函數關系，效果大小顯示為不同顏色，alpha 顯示為線條類型。80%功率的標準標準標準用虛線黑線表示。這個模擬表明，即使樣本大小為 96，我們也幾乎沒有能力用![](https://img.kancloud.cn/75/db/75db97c1904819efc9fdf0b9859974cd_77x13.jpg)找到一個小的效果（![](https://img.kancloud.cn/be/e7/bee753d6fed720813a8a6b561f0aad18_57x13.jpg)）。這意味著，一項旨在實現這一目標的研究將是徒勞的，也就是說，即使存在這種規模的真實效應，也幾乎可以保證什么也找不到。至少有兩個重要的原因需要關注統計能力，一個是我們在這里討論的，另一個是我們將在第[17 章](#doing-reproducible-research)中討論的。如果你是一名研究人員，你可能不想花時間做無用的實驗。運行一個動力不足的研究基本上是徒勞的，因為這意味著即使它存在，人們也很難找到效果。 ### 10.3.1 功率分析幸運的是，有一些工具可以幫助我們確定實驗的統計能力。這些工具最常見的用途是在計劃一個實驗時，我們想確定我們的樣本需要多大才能有足夠的能力發現我們感興趣的效果。假設我們有興趣進行一項研究，研究 iOS 和 Android 設備用戶之間的特定個性特征是如何不同的。我們的計劃是收集兩組個體并測量他們的人格特征，然后用 t 檢驗比較這兩組。為了確定必要的樣本大小，我們可以使用`pwr`庫中的`pwr.t.test()`函數。 ```r # power analysis for Cohen's d = 0.5, for 80% power with alpha = 0.05 pwr.t.test(d = 0.5, power = 0.8, sig.level = 0.05) ``` ```r ## ## Two-sample t test power calculation ## ## n = 64 ## d = 0.5 ## sig.level = 0.05 ## power = 0.8 ## alternative = two.sided ## ## NOTE: n is number in *each* group ``` 這告訴我們，為了有足夠的力量找到中等規模的效果，我們需要每組至少 64 名受試者。在開始一項新的研究之前進行一次功率分析總是很重要的，以確保研究不會因為樣本太小而無效。您可能會想到，如果效果大小足夠大，那么所需的樣本將非常小。例如，如果我們運行相同的功率分析，效果大小為 d=3，那么我們將看到，每個組中只有大約 3 個受試者有足夠的功率來發現差異。 ```r ## ## Two-sample t test power calculation ## ## n = 3.1 ## d = 3 ## sig.level = 0.05 ## power = 0.8 ## alternative = two.sided ## ## NOTE: n is number in *each* group ``` 然而，在科學界很少有人做這樣一個實驗，我們期望能發現如此巨大的影響——正如我們不需要統計數據來告訴我們 16 歲的孩子比 6 歲的孩子高一樣。當我們進行功率分析時，我們需要指定一個對我們的研究合理的效應大小，這通常來自以前的研究。然而，在第[17 章](#doing-reproducible-research)中，我們將討論一種被稱為“贏家詛咒”的現象，這種現象可能導致公布的效果大小大于實際效果大小，因此也應記住這一點。