## 11.6 貝葉斯假設檢驗
在學習了如何執行貝葉斯估計之后,我們現在轉向使用貝葉斯方法進行假設檢驗。假設有兩位政治家對公眾是否支持死刑持不同的看法。史密斯參議員認為只有 40%的人支持死刑,而瓊斯參議員認為 60%的人支持死刑。他們安排了一個民意測驗來測試這一點,隨機抽取 1000 人,詢問他們是否支持死刑。調查結果顯示,在接受調查的樣本中,490 人支持死刑。基于這些數據,我們想知道:這些數據支持一位參議員對另一位參議員的主張嗎?我們可以使用一個名為[貝葉斯因子](https://bayesfactor.blogspot.com/2014/02/the-bayesfactor-package-this-blog-is.html)的概念來測試這一點。
### 11.6.1 貝葉斯因子
貝葉斯因子表征了兩種不同假設下數據的相對似然性。定義如下:

對于兩個假設和。對于我們的兩位參議員,我們知道如何使用二項分布計算每個假設下數據的可能性。我們將把史密斯參議員作為分子,瓊斯參議員作為分母,這樣一個大于一的值將為史密斯參議員反映出更多的證據,而一個小于一的值將為瓊斯參議員反映出更多的證據。
```r
# compute Bayes factor for Smith vs. Jones
bf <-
dbinom(
x = 490,
size = 1000,
prob = 0.4 #Smith's hypothesis
) / dbinom(
x = 490,
size = 1000,
prob = 0.6 #Jones' hypothesis
)
sprintf("Bayes factor = %0.2f", bf)
```
```r
## [1] "Bayes factor = 3325.26"
```
這個數字提供了數據提供的關于兩個假設的證據的度量——在本例中,它告訴我們數據支持史密斯參議員的力度是他們支持瓊斯參議員的 3000 倍。
### 11.6.2 統計假設的貝葉斯因子
在前一個例子中,我們有來自每個參議員的具體預測,這些預測的可能性我們可以用二項分布來量化。然而,在實際數據分析中,我們通常必須處理參數的不確定性,這會使貝葉斯因子復雜化。然而,作為交換,我們獲得了量化相對數量的證據的能力,支持無效假設與替代假設。
假設我們是一名醫學研究人員,正在進行糖尿病治療的臨床試驗,我們希望知道與安慰劑相比,某種藥物是否能降低血糖。我們招募了一組志愿者,將他們隨機分配到藥物組或安慰劑組,并在給藥或安慰劑期間測量各組血紅蛋白 A1c(血糖水平的一個標記)的變化。我們想知道的是:藥物和安慰劑之間有區別嗎?
首先,讓我們生成一些數據,并使用空假設測試對其進行分析(參見圖[11.7](#fig:bayesTesting))。
```r
# create simulated data for drug trial example
set.seed(123456)
nsubs <- 40
effect_size <- 0.1
# randomize indiviuals to drug (1) or placebo (0)
drugDf <-
tibble(
group = as.integer(runif(nsubs) > 0.5)
) %>%
mutate(
hbchange = rnorm(nsubs) - group * effect_size
)
```

圖 11.7 顯示藥物和安慰劑組數據的方框圖。
讓我們進行一個獨立的樣本 t 檢驗,這表明兩組之間存在顯著差異:
```r
# compute t-test for drug example
drugTT <- t.test(hbchange ~ group, alternative = "greater", data = drugDf)
print(drugTT)
```
```r
##
## Welch Two Sample t-test
##
## data: hbchange by group
## t = 2, df = 40, p-value = 0.03
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.096 Inf
## sample estimates:
## mean in group 0 mean in group 1
## 0.12 -0.48
```
這個測試告訴我們,兩組之間存在顯著的差異,但是它并不能量化證據支持無效假設和替代假設的強度。為了測量這一點,我們可以使用 r 中 bayes factor 包中的`ttestBF`函數計算貝葉斯因子:
```r
# compute Bayes factor for drug data
bf_drug <- ttestBF(
formula = hbchange ~ group, data = drugDf,
nullInterval = c(0, Inf)
)
bf_drug
```
```r
## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 0<d<Inf : 2.4 ±0%
## [2] Alt., r=0.707 !(0<d<Inf) : 0.12 ±0%
##
## Against denominator:
## Null, mu1-mu2 = 0
## ---
## Bayes factor type: BFindepSample, JZS
```
這里的貝葉斯因子告訴我們,替代假設(即差異大于零)比給定數據的點零假設(即平均差為零)的可能性高出 2.4 倍。
#### 11.6.2.1 單側試驗
我們通常對針對特定點值(例如,平均差=0)的零假設進行測試的興趣低于針對定向零假設(例如,差小于或等于零)進行測試的興趣。我們也可以使用`ttestBF`分析的結果進行定向(或 _ 單邊 _)測試,因為它提供了兩個 Bayes 因素:一個是平均差大于零的替代假設,另一個是平均差為 l 的替代假設。小于零。如果我們想評估正效應的相對證據,我們可以通過簡單地將返回的兩個 Bayes 因子除以函數來計算 Bayes 因子,比較正效應和負效應的相對證據:
```r
bf_drug[1]/bf_drug[2]
```
```r
## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 0<d<Inf : 20 ±0%
##
## Against denominator:
## Alternative, r = 0.707106781186548, mu =/= 0 !(0<d<Inf)
## ---
## Bayes factor type: BFindepSample, JZS
```
現在我們看到,正效應和負效應的貝葉斯因子大得多(接近 20)。
#### 11.6.2.2 解釋貝葉斯因子
我們如何知道 2 或 20 的貝葉斯因子是好是壞?[Kass&Rafferty(1995)](https://www.andrew.cmu.edu/user/kk3n/simplicity/KassRaftery1995.pdf)提出了一個解釋 Bayes 因子的一般準則:
| 高爐 | 證據的效力 |
| --- | --- |
| 1 到 3 | 只值得一提 |
| 3 至 20 | 積極的 |
| 20 至 150 | 堅強的 |
| &150 英鎊 | 非常強壯 |
在此基礎上,盡管統計結果是顯著的,但支持替代假設與點零假設的證據數量足夠弱,甚至不值得一提,而方向假設的證據是積極的,但不太強。
### 11.6.3 評估無效假設的證據
因為 Bayes 因子正在比較兩個假設的證據,它還允許我們評估是否有支持空假設的證據,而標準的空假設測試無法做到這一點(因為它從空值為真的假設開始)。這對于確定一個非重大的結果是否真的提供了有力的證據證明沒有效果,或者只是反映了總體上的薄弱證據是非常有用的。
- 前言
- 0.1 本書為什么存在?
- 0.2 你不是統計學家-我們為什么要聽你的?
- 0.3 為什么是 R?
- 0.4 數據的黃金時代
- 0.5 開源書籍
- 0.6 確認
- 1 引言
- 1.1 什么是統計思維?
- 1.2 統計數據能為我們做什么?
- 1.3 統計學的基本概念
- 1.4 因果關系與統計
- 1.5 閱讀建議
- 2 處理數據
- 2.1 什么是數據?
- 2.2 測量尺度
- 2.3 什么是良好的測量?
- 2.4 閱讀建議
- 3 概率
- 3.1 什么是概率?
- 3.2 我們如何確定概率?
- 3.3 概率分布
- 3.4 條件概率
- 3.5 根據數據計算條件概率
- 3.6 獨立性
- 3.7 逆轉條件概率:貝葉斯規則
- 3.8 數據學習
- 3.9 優勢比
- 3.10 概率是什么意思?
- 3.11 閱讀建議
- 4 匯總數據
- 4.1 為什么要總結數據?
- 4.2 使用表格匯總數據
- 4.3 分布的理想化表示
- 4.4 閱讀建議
- 5 將模型擬合到數據
- 5.1 什么是模型?
- 5.2 統計建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最簡單的模型:平均值
- 5.6 模式
- 5.7 變異性:平均值與數據的擬合程度如何?
- 5.8 使用模擬了解統計數據
- 5.9 Z 分數
- 6 數據可視化
- 6.1 數據可視化如何拯救生命
- 6.2 繪圖解剖
- 6.3 使用 ggplot 在 R 中繪制
- 6.4 良好可視化原則
- 6.5 最大化數據/墨水比
- 6.6 避免圖表垃圾
- 6.7 避免數據失真
- 6.8 謊言因素
- 6.9 記住人的局限性
- 6.10 其他因素的修正
- 6.11 建議閱讀和視頻
- 7 取樣
- 7.1 我們如何取樣?
- 7.2 采樣誤差
- 7.3 平均值的標準誤差
- 7.4 中心極限定理
- 7.5 置信區間
- 7.6 閱讀建議
- 8 重新采樣和模擬
- 8.1 蒙特卡羅模擬
- 8.2 統計的隨機性
- 8.3 生成隨機數
- 8.4 使用蒙特卡羅模擬
- 8.5 使用模擬統計:引導程序
- 8.6 閱讀建議
- 9 假設檢驗
- 9.1 無效假設統計檢驗(NHST)
- 9.2 無效假設統計檢驗:一個例子
- 9.3 無效假設檢驗過程
- 9.4 現代環境下的 NHST:多重測試
- 9.5 閱讀建議
- 10 置信區間、效應大小和統計功率
- 10.1 置信區間
- 10.2 效果大小
- 10.3 統計能力
- 10.4 閱讀建議
- 11 貝葉斯統計
- 11.1 生成模型
- 11.2 貝葉斯定理與逆推理
- 11.3 進行貝葉斯估計
- 11.4 估計后驗分布
- 11.5 選擇優先權
- 11.6 貝葉斯假設檢驗
- 11.7 閱讀建議
- 12 分類關系建模
- 12.1 示例:糖果顏色
- 12.2 皮爾遜卡方檢驗
- 12.3 應急表及雙向試驗
- 12.4 標準化殘差
- 12.5 優勢比
- 12.6 貝葉斯系數
- 12.7 超出 2 x 2 表的分類分析
- 12.8 注意辛普森悖論
- 13 建模持續關系
- 13.1 一個例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否與仇恨犯罪有關?
- 13.3 協方差和相關性
- 13.4 相關性和因果關系
- 13.5 閱讀建議
- 14 一般線性模型
- 14.1 線性回歸
- 14.2 安裝更復雜的模型
- 14.3 變量之間的相互作用
- 14.4“預測”的真正含義是什么?
- 14.5 閱讀建議
- 15 比較方法
- 15.1 學生 T 考試
- 15.2 t 檢驗作為線性模型
- 15.3 平均差的貝葉斯因子
- 15.4 配對 t 檢驗
- 15.5 比較兩種以上的方法
- 16 統計建模過程:一個實例
- 16.1 統計建模過程
- 17 做重復性研究
- 17.1 我們認為科學應該如何運作
- 17.2 科學(有時)是如何工作的
- 17.3 科學中的再現性危機
- 17.4 有問題的研究實踐
- 17.5 進行重復性研究
- 17.6 進行重復性數據分析
- 17.7 結論:提高科學水平
- 17.8 閱讀建議
- References