5.7 變異性：平均值與數據的擬合程度如何？ · 斯坦福 Stats60 21 世紀的統計思維

## 5.7 變異性：平均值與數據的擬合程度如何？一旦我們描述了數據的中心趨勢，我們通常還想描述數據的變量——有時也稱為“分散度”，這反映了一個事實，即它描述了數據的分散程度。我們已經遇到了上面的平方誤差之和，這是最常用的變異性度量的基礎：方差 _ 和標準差 _。一個總體的方差（稱為![](https://img.kancloud.cn/8c/97/8c97e53e47d9ac642fc260db31a39a84_17x16.jpg)）只是平方誤差除以觀測次數的總和，也就是說，你之前遇到的 _ 平均平方誤差 _。__ ![](https://img.kancloud.cn/f5/cf/f5cfd7f7e12aade6468f96d67a371d6a_221x41.jpg) 其中![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg)是人口平均數。標準差就是這個的平方根，也就是我們以前看到的 _ 均方根誤差 _。標準偏差是有用的，因為誤差的單位與原始數據相同（撤消我們應用于誤差的平方）。我們通常無法訪問整個群體，因此我們必須使用一個樣本來計算方差，我們稱之為![](https://img.kancloud.cn/f2/db/f2db4c062993ddf412a52963ceaee439_17x16.jpg)，其中“hat”表示這是一個基于樣本的估計。![](https://img.kancloud.cn/f2/db/f2db4c062993ddf412a52963ceaee439_17x16.jpg)的方程式與![](https://img.kancloud.cn/8c/97/8c97e53e47d9ac642fc260db31a39a84_17x16.jpg)的方程式相似： ![](https://img.kancloud.cn/1d/e5/1de57a04346e87aee7357ae60c44c086_161x43.jpg) 這兩個方程之間的唯一區別是我們用 n-1 而不是 n 來除。這與一個基本的統計概念有關：_ 自由度 _。記住，為了計算樣本方差，我們首先必須估計樣本均值![](https://img.kancloud.cn/44/11/4411464857feb67b527a2553a41b4a3c_16x15.jpg)。在估計了這一點之后，數據中的一個值就不再是自由變化的了。例如，假設我們有以下數據點： ```r # generate example data points dfDf <- tibble( x = c(3, 5, 7, 9, 11) ) pander(dfDf) ``` <colgroup><col style="width: 5%"></colgroup> | X | | --- | | 三 | | 5 個 | | 7 | | 9 | | 11 個 | 現在我們計算平均值： ```r # compute mean meanx <- dfDf %>% summarize( mean(x) ) %>% pull() sprintf('%0.2f',meanx) ``` ```r ## [1] "7.00" ``` 因為我們知道這個數據集的平均值是 7，所以我們可以計算出如果缺少某個特定的值會是什么。例如，假設我們要模糊第一個值（3）。這樣做之后，我們仍然知道它的值必須是 3，因為 7 的平均值意味著所有值的總和是![](https://img.kancloud.cn/63/18/6318e1edd81518364c348b4b47cc66c2_79x13.jpg)和![](https://img.kancloud.cn/e7/25/e725d18a55188dbad7e250a1b05738c3_198x18.jpg)。所以當我們說我們已經“失去”了一定程度的自由，這意味著有一個值在擬合模型后是不能自由改變的。在樣本方差的背景下，如果我們不考慮失去的自由度，那么我們對樣本方差的估計將是 _ 偏向 _——也就是說，它將小于真實（總體）值。