12.8 注意辛普森悖論 · 斯坦福 Stats60 21 世紀的統計思維

## 12.8 注意辛普森悖論上述應急表是對大量觀察結果的總結，但有時會產生誤導。讓我們以棒球為例。下表顯示了 1995-1997 年間德里克·杰特和大衛·賈斯汀的擊球數據（擊數/擊數和平均擊球數）： | 玩家 | 1995 年 | | 1996 年 | | 1997 年 | | 合并 | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 基特 | 12 月 48 日 | 0.250 | 183/582 年 | .314 條 | 190/654 年 | .291 條 | 385/1284 年 | **.300** | | 大衛·正義 | 104/411 號 | **.253** | 45/140 分 | **.321** | 163/495 年 | **.329** | 312/1046 年 | .298 條 | 如果你仔細觀察，你會發現有些奇怪的事情正在發生：在每一年，正義比杰特有一個更高的擊球平均值，但當我們結合所有三年的數據，杰特的平均值實際上高于正義！這是一個被稱為 _ 辛普森悖論 _ 的現象的例子，在這種現象中，組合數據集中的模式可能不存在于數據的任何子集中。當有另一個變量可能在不同的子集之間發生變化時，就會發生這種情況——在這種情況下，AT 蝙蝠的數量隨著時間的推移而變化，1995 年司法部的擊球次數更多（擊球平均數較低時）。我們把它稱為一個潛伏變量（htg2），每當我們檢查分類數據時，注意這些變量總是很重要的。