9.4 現代環境下的 NHST：多重測試 · 斯坦福 Stats60 21 世紀的統計思維

## 9.4 現代環境下的 NHST：多重測試到目前為止，我們已經討論了一些例子，其中我們對檢驗一個單一的統計假設感興趣，這與傳統科學是一致的，后者通常一次只測量幾個變量。然而，在現代科學中，我們通常可以測量每個個體數百萬個變量。例如，在量化整個基因組的基因研究中，每個個體可能有數百萬個測量單位，在大腦成像中，我們常常同時從大腦中超過 100000 個位置收集數據。當標準假設檢驗應用于這些環境中時，除非我們采取適當的措施，否則會發生不好的事情。讓我們看一個例子來看看這是如何工作的。理解能使個人易患諸如精神分裂癥等重大精神疾病的遺傳因素是很有興趣的，因為我們知道，在精神分裂癥患者中，大約 80%的個體差異是由于遺傳差異造成的。人類基因組計劃和隨后的基因組科學革命為研究人類在基因組上的差異提供了工具。近年來使用的一種方法被稱為全基因組關聯研究（GWAS），其中每個個體的基因組在其基因組中的 100 萬個或更多的位置上進行特征化，以確定他們所擁有的遺傳密碼的字母（我們稱之為“變體”）。在那個地方。在確定了這些之后，研究人員在基因組的每個位置進行了統計測試，以確定被診斷為精神分裂癥的人在該位置是否或多或少有一個特定的變異。讓我們想象一下，如果研究人員簡單地問，在每個地點的 P&lt；.05 測試是否有意義，而實際上在任何地點都沒有真正的效果，會發生什么。為此，我們從一個空分布生成大量的模擬 t 值，并詢問其中有多少在 p&lt；.05 處是重要的。讓我們這樣做很多次，每次都計算出有多少測試結果是重要的（參見圖[9.9](#fig:nullSim)）。 ```r # simulate 1500 studies with 10,000 tests each, thresholded at p < .05 nRuns <- 1500 # number of simulated studies to run nTests <- 10000 # number of simulated genes to test in each run uncAlpha <- 0.05 # alpha level uncOutcome <- replicate(nRuns, sum(rnorm(nTests) < qnorm(uncAlpha))) sprintf("mean proportion of significant tests per run: %0.2f", mean(uncOutcome) / nTests) ``` ```r ## [1] "mean proportion of significant tests per run: 0.05" ``` ```r # compute proportion of studies with at least one false positive result, # known as the familywise error rate sprintf("familywise error rate: %0.3f", mean(uncOutcome > 0)) ``` ```r ## [1] "familywise error rate: 1.000" ``` ![A histogram of the number of significant results in each set of 1 million statistical tests, when there is in fact no true effect.](https://img.kancloud.cn/31/f0/31f0715a1b617635768eab6e7174eb4e_384x384.png) 圖 9.9：每組 100 萬統計試驗中，當事實上沒有真實效果時，有效結果數量的柱狀圖。這表明，所有測試中約有 5%在每次運行中都是顯著的，這意味著如果我們使用 p&lt；.05 作為統計顯著性的閾值，那么即使沒有真正顯著的關系存在，我們仍然會“找到”大約 500 個看似顯著的基因。NT（預期的重要結果數只是![](https://img.kancloud.cn/0a/bd/0abdd732ef1a2fc8977ab263abd8248b_39x9.jpg)）。這是因為當我們控制每個測試的錯誤時，我們沒有控制 _ 系列錯誤 _，或者所有測試中的錯誤，這是我們真正想要控制的，如果我們要查看大量測試的結果。使用 p&lt；.05，在上面的例子中，我們的家庭錯誤率是一個——也就是說，我們幾乎可以保證在任何特定的研究中至少出現一個錯誤。控制家族誤差的一個簡單方法是將 alpha 水平除以測試次數；這被稱為 _bonferroni_ 修正，以意大利統計學家 Carlo Bonferroni 的名字命名。利用上述示例中的數據，我們在圖[9.10](#fig:bonferroniSim)中看到，只有約 5%的研究顯示使用校正后的α水平 0.000005 而不是名義水平 0.05 的任何顯著結果。我們已經有效地控制了家族誤差，這樣我們研究中的 _ 任何 _ 誤差發生的概率控制在 0.05 左右。 ```r # compute Bonferroni-corrected alpha corAlpha <- 0.05 / nTests corOutcome <- replicate(nRuns, sum(rnorm(nTests) < (qnorm(corAlpha)))) sprintf("corrected familywise error rate: %0.3f", mean(corOutcome > 0)) ``` ```r ## [1] "corrected familywise error rate: 0.046" ``` ![A histogram of the number of significant results across all simulation runs after applying the Bonferroni correction for multiple tests.](https://img.kancloud.cn/24/2b/242b5260904eb103bf4c6ac64c02d49f_384x384.png) 圖 9.10 在多次試驗中應用 Bonferroni 校正后，所有模擬運行的重要結果數量的柱狀圖。