## 10.1 置信區間
到目前為止,我們在這本書中的重點是估計統計數據的具體值。例如,假設我們想估計 nhanes 數據集中成年人的平均體重。我們可以從數據集中提取一個樣本并估計平均值:
```r
# take a sample from adults in NHANES and summarize their weight
sampSize <- 250
NHANES_sample <- sample_n(NHANES_adult, sampSize)
sample_summary <-
NHANES_sample %>%
summarize(
meanWeight = mean(Weight),
sdWeight = sd(Weight)
)
pander(sample_summary)
```
<colgroup><col style="width: 18%"> <col style="width: 13%"></colgroup>
| 平均重量 | S 重量 |
| --- | --- |
| 82.77 美元 | 22.27 條 |
在這個樣本中,平均重量是 82.77 千克。我們將其稱為 _ 點估計 _,因為它為我們提供了一個描述差異的單一數字。然而,我們從前面對抽樣誤差的討論中知道,這個估計有一些不確定性,用標準誤差來描述。您還應該記住,標準誤差由兩個部分決定:總體標準偏差(分子)和樣本大小的平方根(分母)。總體標準偏差是一個未知但固定的參數,不在我們的控制范圍內,而樣本量 _ 在我們的控制范圍內。因此,我們可以通過增加樣本量來降低估計的不確定性——達到整個群體規模的極限,此時完全沒有不確定性,因為我們可以直接從整個群體的數據中計算群體參數。_
您可能還記得之前我們引入了 _ 置信區間 _ 的概念,這是一種描述統計估計不確定性的方法。請記住,置信區間描述了一個平均包含給定概率的真實總體參數的區間;例如,95%置信區間是一個將捕獲 95%時間的真實總體參數的區間。請再次注意,這不是關于填充參數的語句;任何特定的置信區間都包含或不包含真參數。正如信任區間的發明者 Jerzy Neyman 所說:
> “參數是一個未知常數,不能對其值作出概率陳述。”(J Neyman 1937)
平均值的置信區間計算如下:

其中臨界值由估計值的抽樣分布確定。那么,重要的問題是抽樣分布是什么。
### 10.1.1 使用正態分布的置信區間
如果我們知道總體標準差,那么我們可以用正態分布來計算置信區間。我們通常不這樣做,但對于我們的 nhanes 數據集示例,我們這樣做(重量為 21.3)。
假設我們要計算平均值的 95%置信區間。臨界值將是標準正態分布的值,它捕獲了 95%的分布;這些僅僅是分布的 2.5%和 97.5%,我們可以使用 r 中的`qnorm()`函數計算得出。因此,平均值()的置信區間為:

利用樣本(82.77)的估計平均值和已知的總體標準差,我們可以計算出[80.13,85.41]的置信區間。
### 10.1.2 使用 t 分布的置信區間
如上所述,如果我們知道總體標準差,那么我們可以使用正態分布來計算我們的置信區間。但是,一般情況下,我們不會——在這種情況下,_t_ 分布更適合作為采樣分布。記住,t 分布比正態分布略寬,特別是對于較小的樣本,這意味著置信區間將比我們使用正態分布時的置信區間略寬。這包含了當我們基于小樣本得出結論時產生的額外不確定性。
我們可以用類似于上述正態分布的方法計算 95%的置信區間,但臨界值是由 _t_ 分布的 2.5%和 97.5%確定的,我們可以用 r 中的`qt()`函數計算,因此平均值()的 ence 間隔為:

其中是臨界 t 值。對于 nhanes 權重示例(樣本大小為 250),置信區間為:
```r
# compute confidence intervals for weight in NHANES data
sample_summary <-
sample_summary %>%
mutate(
cutoff_lower = qt(0.025, sampSize),
cutoff_upper = qt(0.975, sampSize),
CI_lower = meanWeight + cutoff_lower * sdWeight / sqrt(sampSize),
CI_upper = meanWeight + cutoff_upper * sdWeight / sqrt(sampSize)
)
pander(sample_summary)
```
<colgroup><col style="width: 17%"> <col style="width: 14%"> <col style="width: 19%"> <col style="width: 19%"> <col style="width: 14%"> <col style="width: 14%"></colgroup>
| meanWeight | sdWeight | 切斷閥 | 上切斷 | Ci_ 下 | Ci_ 上部 |
| --- | --- | --- | --- | --- | --- |
| 82.77 | 22.27 | -1.97 條 | 1.97 條 | 80 | 85.54 美元 |
請記住,這并不能告訴我們關于真實總體值在這個區間內的概率,因為它是一個固定參數(我們知道它是 81.77,因為在這種情況下我們有整個總體),并且它或者不在這個特定區間內(i 在這種情況下,確實如此)。相反,它告訴我們,從長遠來看,如果我們使用這個過程計算置信區間,95%的置信區間將捕獲真正的總體參數。
### 10.1.3 置信區間和樣本量
由于標準誤差隨樣本量的減小而減小,平均置信區間應隨著樣本量的增大而變窄,從而為我們的估計提供了越來越嚴格的界限。圖[10.1](#fig:CISampSize)顯示了置信區間將如何作為權重示例的樣本大小函數而變化的示例。從圖中可以明顯看出,隨著樣本量的增加,置信區間變得越來越緊,但是增加樣本會產生遞減的回報,這與置信區間項的分母與樣本量的平方根成正比的事實相一致。E.

圖 10.1 樣本量對平均值置信區間寬度影響的示例。
### 10.1.4 使用引導程序計算置信區間
在某些情況下,我們不能假定正態性,或者我們不知道統計的抽樣分布。在這些情況下,我們可以使用引導程序(我們在[8](#resampling-and-simulation)章中介紹了它)。作為提醒,引導程序需要重復地用替換項對數據 _ 進行重采樣,然后使用這些樣本上計算的統計分布作為統計分布的抽樣代理。_
早些時候,我們使用手工編寫的代碼運行引導程序,但是 R 包含一個名為`boot`的包,我們可以使用它運行引導程序并計算置信區間。讓我們用它來計算 nhanes 樣本中權重的置信區間。
```r
# compute bootstrap confidence intervals on NHANES weight data
meanWeight <- function(df, foo) {
return(mean(df[foo, ]$Weight))
}
bs <- boot(NHANES_sample, meanWeight, 1000)
# use the percentile bootstrap
bootci <- boot.ci(bs, type = "perc")
print("Bootstrap confidence intervals:")
```
```r
## [1] "Bootstrap confidence intervals:"
```
```r
tibble(
lower = bootci$perc[4],
upper = bootci$perc[5]
) %>%
pander()
```
<colgroup><col style="width: 11%"> <col style="width: 11%"></colgroup>
| 降低 | 上面的 |
| --- | --- |
| 第 80.12 條 | 85.71 美元 |
這些值與使用上面的 t 分布得到的值相當接近,盡管不完全相同。
### 10.1.5 置信區間與假設檢驗的關系
置信區間與假設檢驗有著密切的關系。尤其是,如果置信區間不包括無效假設,那么相關的統計檢驗將具有統計學意義。例如,如果您使用測試樣本的平均值是否大于零,您可以簡單地檢查是否在平均值的 95%置信區間內包含零。
如果我們想比較兩個條件的平均值,事情會變得更棘手(Schenker 和紳士 2001)。有幾個情況是清楚的。首先,如果每個均值都包含在另一個均值的置信區間內,那么在所選置信水平上肯定沒有顯著差異。其次,如果置信區間之間沒有重疊,那么在所選水平上肯定存在顯著差異;事實上,該測試基本上是 _ 保守 _,因此實際誤差率將低于所選水平。但是,如果置信區間彼此重疊,但不包含另一組的平均值,情況會怎樣呢?在這種情況下,答案取決于兩個變量的相對可變性,沒有一般的答案。一般來說,我們應該避免對重疊的置信區間使用“視覺測試”,因為它通常會導致較高的假陰性(II 型)錯誤率。
- 前言
- 0.1 本書為什么存在?
- 0.2 你不是統計學家-我們為什么要聽你的?
- 0.3 為什么是 R?
- 0.4 數據的黃金時代
- 0.5 開源書籍
- 0.6 確認
- 1 引言
- 1.1 什么是統計思維?
- 1.2 統計數據能為我們做什么?
- 1.3 統計學的基本概念
- 1.4 因果關系與統計
- 1.5 閱讀建議
- 2 處理數據
- 2.1 什么是數據?
- 2.2 測量尺度
- 2.3 什么是良好的測量?
- 2.4 閱讀建議
- 3 概率
- 3.1 什么是概率?
- 3.2 我們如何確定概率?
- 3.3 概率分布
- 3.4 條件概率
- 3.5 根據數據計算條件概率
- 3.6 獨立性
- 3.7 逆轉條件概率:貝葉斯規則
- 3.8 數據學習
- 3.9 優勢比
- 3.10 概率是什么意思?
- 3.11 閱讀建議
- 4 匯總數據
- 4.1 為什么要總結數據?
- 4.2 使用表格匯總數據
- 4.3 分布的理想化表示
- 4.4 閱讀建議
- 5 將模型擬合到數據
- 5.1 什么是模型?
- 5.2 統計建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最簡單的模型:平均值
- 5.6 模式
- 5.7 變異性:平均值與數據的擬合程度如何?
- 5.8 使用模擬了解統計數據
- 5.9 Z 分數
- 6 數據可視化
- 6.1 數據可視化如何拯救生命
- 6.2 繪圖解剖
- 6.3 使用 ggplot 在 R 中繪制
- 6.4 良好可視化原則
- 6.5 最大化數據/墨水比
- 6.6 避免圖表垃圾
- 6.7 避免數據失真
- 6.8 謊言因素
- 6.9 記住人的局限性
- 6.10 其他因素的修正
- 6.11 建議閱讀和視頻
- 7 取樣
- 7.1 我們如何取樣?
- 7.2 采樣誤差
- 7.3 平均值的標準誤差
- 7.4 中心極限定理
- 7.5 置信區間
- 7.6 閱讀建議
- 8 重新采樣和模擬
- 8.1 蒙特卡羅模擬
- 8.2 統計的隨機性
- 8.3 生成隨機數
- 8.4 使用蒙特卡羅模擬
- 8.5 使用模擬統計:引導程序
- 8.6 閱讀建議
- 9 假設檢驗
- 9.1 無效假設統計檢驗(NHST)
- 9.2 無效假設統計檢驗:一個例子
- 9.3 無效假設檢驗過程
- 9.4 現代環境下的 NHST:多重測試
- 9.5 閱讀建議
- 10 置信區間、效應大小和統計功率
- 10.1 置信區間
- 10.2 效果大小
- 10.3 統計能力
- 10.4 閱讀建議
- 11 貝葉斯統計
- 11.1 生成模型
- 11.2 貝葉斯定理與逆推理
- 11.3 進行貝葉斯估計
- 11.4 估計后驗分布
- 11.5 選擇優先權
- 11.6 貝葉斯假設檢驗
- 11.7 閱讀建議
- 12 分類關系建模
- 12.1 示例:糖果顏色
- 12.2 皮爾遜卡方檢驗
- 12.3 應急表及雙向試驗
- 12.4 標準化殘差
- 12.5 優勢比
- 12.6 貝葉斯系數
- 12.7 超出 2 x 2 表的分類分析
- 12.8 注意辛普森悖論
- 13 建模持續關系
- 13.1 一個例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否與仇恨犯罪有關?
- 13.3 協方差和相關性
- 13.4 相關性和因果關系
- 13.5 閱讀建議
- 14 一般線性模型
- 14.1 線性回歸
- 14.2 安裝更復雜的模型
- 14.3 變量之間的相互作用
- 14.4“預測”的真正含義是什么?
- 14.5 閱讀建議
- 15 比較方法
- 15.1 學生 T 考試
- 15.2 t 檢驗作為線性模型
- 15.3 平均差的貝葉斯因子
- 15.4 配對 t 檢驗
- 15.5 比較兩種以上的方法
- 16 統計建模過程:一個實例
- 16.1 統計建模過程
- 17 做重復性研究
- 17.1 我們認為科學應該如何運作
- 17.2 科學(有時)是如何工作的
- 17.3 科學中的再現性危機
- 17.4 有問題的研究實踐
- 17.5 進行重復性研究
- 17.6 進行重復性數據分析
- 17.7 結論:提高科學水平
- 17.8 閱讀建議
- References