10.1 置信區間 · 斯坦福 Stats60 21 世紀的統計思維

## 10.1 置信區間到目前為止，我們在這本書中的重點是估計統計數據的具體值。例如，假設我們想估計 nhanes 數據集中成年人的平均體重。我們可以從數據集中提取一個樣本并估計平均值： ```r # take a sample from adults in NHANES and summarize their weight sampSize <- 250 NHANES_sample <- sample_n(NHANES_adult, sampSize) sample_summary <- NHANES_sample %>% summarize( meanWeight = mean(Weight), sdWeight = sd(Weight) ) pander(sample_summary) ``` <colgroup><col style="width: 18%"> <col style="width: 13%"></colgroup> | 平均重量 | S 重量 | | --- | --- | | 82.77 美元 | 22.27 條 | 在這個樣本中，平均重量是 82.77 千克。我們將其稱為 _ 點估計 _，因為它為我們提供了一個描述差異的單一數字。然而，我們從前面對抽樣誤差的討論中知道，這個估計有一些不確定性，用標準誤差來描述。您還應該記住，標準誤差由兩個部分決定：總體標準偏差（分子）和樣本大小的平方根（分母）。總體標準偏差是一個未知但固定的參數，不在我們的控制范圍內，而樣本量 _ 在我們的控制范圍內。因此，我們可以通過增加樣本量來降低估計的不確定性——達到整個群體規模的極限，此時完全沒有不確定性，因為我們可以直接從整個群體的數據中計算群體參數。_ 您可能還記得之前我們引入了 _ 置信區間 _ 的概念，這是一種描述統計估計不確定性的方法。請記住，置信區間描述了一個平均包含給定概率的真實總體參數的區間；例如，95%置信區間是一個將捕獲 95%時間的真實總體參數的區間。請再次注意，這不是關于填充參數的語句；任何特定的置信區間都包含或不包含真參數。正如信任區間的發明者 Jerzy Neyman 所說： > “參數是一個未知常數，不能對其值作出概率陳述。”（J Neyman 1937）平均值的置信區間計算如下： ![](https://img.kancloud.cn/a1/32/a132eb0056d375ef0260305edc90648a_298x17.jpg) 其中臨界值由估計值的抽樣分布確定。那么，重要的問題是抽樣分布是什么。 ### 10.1.1 使用正態分布的置信區間如果我們知道總體標準差，那么我們可以用正態分布來計算置信區間。我們通常不這樣做，但對于我們的 nhanes 數據集示例，我們這樣做（重量為 21.3）。假設我們要計算平均值的 95%置信區間。臨界值將是標準正態分布的值，它捕獲了 95%的分布；這些僅僅是分布的 2.5%和 97.5%，我們可以使用 r 中的`qnorm()`函數計算得出![](https://img.kancloud.cn/67/49/6749615b1314e20b35bdb877a91e7e98_45x13.jpg)。因此，平均值（![](https://img.kancloud.cn/44/11/4411464857feb67b527a2553a41b4a3c_16x15.jpg)）的置信區間為： ![](https://img.kancloud.cn/1d/af/1daf5e505d4bb2a25fd7fe45a2edef4f_161x16.jpg) 利用樣本（82.77）的估計平均值和已知的總體標準差，我們可以計算出[80.13,85.41]的置信區間。 ### 10.1.2 使用 t 分布的置信區間如上所述，如果我們知道總體標準差，那么我們可以使用正態分布來計算我們的置信區間。但是，一般情況下，我們不會——在這種情況下，_t_ 分布更適合作為采樣分布。記住，t 分布比正態分布略寬，特別是對于較小的樣本，這意味著置信區間將比我們使用正態分布時的置信區間略寬。這包含了當我們基于小樣本得出結論時產生的額外不確定性。我們可以用類似于上述正態分布的方法計算 95%的置信區間，但臨界值是由 _t_ 分布的 2.5%和 97.5%確定的，我們可以用 r 中的`qt()`函數計算，因此平均值（![](https://img.kancloud.cn/44/11/4411464857feb67b527a2553a41b4a3c_16x15.jpg)）的 ence 間隔為： ![](https://img.kancloud.cn/1c/4f/1c4f8a22f2dcf48afccd2e2f7e4a00fd_158x18.jpg) 其中![](https://img.kancloud.cn/0b/5b/0b5bb5c01c595292a30bae40eb29d7c0_27x15.jpg)是臨界 t 值。對于 nhanes 權重示例（樣本大小為 250），置信區間為： ```r # compute confidence intervals for weight in NHANES data sample_summary <- sample_summary %>% mutate( cutoff_lower = qt(0.025, sampSize), cutoff_upper = qt(0.975, sampSize), CI_lower = meanWeight + cutoff_lower * sdWeight / sqrt(sampSize), CI_upper = meanWeight + cutoff_upper * sdWeight / sqrt(sampSize) ) pander(sample_summary) ``` <colgroup><col style="width: 17%"> <col style="width: 14%"> <col style="width: 19%"> <col style="width: 19%"> <col style="width: 14%"> <col style="width: 14%"></colgroup> | meanWeight | sdWeight | 切斷閥 | 上切斷 | Ci_ 下 | Ci_ 上部 | | --- | --- | --- | --- | --- | --- | | 82.77 | 22.27 | -1.97 條 | 1.97 條 | 80 | 85.54 美元 | 請記住，這并不能告訴我們關于真實總體值在這個區間內的概率，因為它是一個固定參數（我們知道它是 81.77，因為在這種情況下我們有整個總體），并且它或者不在這個特定區間內（i 在這種情況下，確實如此）。相反，它告訴我們，從長遠來看，如果我們使用這個過程計算置信區間，95%的置信區間將捕獲真正的總體參數。 ### 10.1.3 置信區間和樣本量由于標準誤差隨樣本量的減小而減小，平均置信區間應隨著樣本量的增大而變窄，從而為我們的估計提供了越來越嚴格的界限。圖[10.1](#fig:CISampSize)顯示了置信區間將如何作為權重示例的樣本大小函數而變化的示例。從圖中可以明顯看出，隨著樣本量的增加，置信區間變得越來越緊，但是增加樣本會產生遞減的回報，這與置信區間項的分母與樣本量的平方根成正比的事實相一致。E. ![An example of the effect of sample size on the width of the confidence interval for the mean.](https://img.kancloud.cn/66/47/6647b12f2f785e0f8263e3304d491b99_384x384.png) 圖 10.1 樣本量對平均值置信區間寬度影響的示例。 ### 10.1.4 使用引導程序計算置信區間在某些情況下，我們不能假定正態性，或者我們不知道統計的抽樣分布。在這些情況下，我們可以使用引導程序（我們在[8](#resampling-and-simulation)章中介紹了它）。作為提醒，引導程序需要重復地用替換項對數據 _ 進行重采樣，然后使用這些樣本上計算的統計分布作為統計分布的抽樣代理。_ 早些時候，我們使用手工編寫的代碼運行引導程序，但是 R 包含一個名為`boot`的包，我們可以使用它運行引導程序并計算置信區間。讓我們用它來計算 nhanes 樣本中權重的置信區間。 ```r # compute bootstrap confidence intervals on NHANES weight data meanWeight <- function(df, foo) { return(mean(df[foo, ]$Weight)) } bs <- boot(NHANES_sample, meanWeight, 1000) # use the percentile bootstrap bootci <- boot.ci(bs, type = "perc") print("Bootstrap confidence intervals:") ``` ```r ## [1] "Bootstrap confidence intervals:" ``` ```r tibble( lower = bootci$perc[4], upper = bootci$perc[5] ) %>% pander() ``` <colgroup><col style="width: 11%"> <col style="width: 11%"></colgroup> | 降低 | 上面的 | | --- | --- | | 第 80.12 條 | 85.71 美元 | 這些值與使用上面的 t 分布得到的值相當接近，盡管不完全相同。 ### 10.1.5 置信區間與假設檢驗的關系置信區間與假設檢驗有著密切的關系。尤其是，如果置信區間不包括無效假設，那么相關的統計檢驗將具有統計學意義。例如，如果您使用![](https://img.kancloud.cn/46/c0/46c01e385788ea8e97a8ea63fdbc8d70_68x13.jpg)測試樣本的平均值是否大于零，您可以簡單地檢查是否在平均值的 95%置信區間內包含零。如果我們想比較兩個條件的平均值，事情會變得更棘手（Schenker 和紳士 2001）。有幾個情況是清楚的。首先，如果每個均值都包含在另一個均值的置信區間內，那么在所選置信水平上肯定沒有顯著差異。其次，如果置信區間之間沒有重疊，那么在所選水平上肯定存在顯著差異；事實上，該測試基本上是 _ 保守 _，因此實際誤差率將低于所選水平。但是，如果置信區間彼此重疊，但不包含另一組的平均值，情況會怎樣呢？在這種情況下，答案取決于兩個變量的相對可變性，沒有一般的答案。一般來說，我們應該避免對重疊的置信區間使用“視覺測試”，因為它通常會導致較高的假陰性（II 型）錯誤率。