5.5 最簡單的模型：平均值 · 斯坦福 Stats60 21 世紀的統計思維

## 5.5 最簡單的模型：平均值我們已經遇到了平均值（或平均值），事實上，大多數人知道平均值，即使他們從未上過統計課。它通常用來描述我們稱之為數據集“中心趨勢”的東西——也就是說，數據以什么值為中心？大多數人不認為計算平均值是將模型與數據相匹配。然而，這正是我們計算平均值時要做的。我們已經看到了計算數據樣本平均值的公式： ![](https://img.kancloud.cn/0b/5d/0b5d33eab206151d52ef342b050c6dd9_102x40.jpg) 注意，我說過這個公式是專門針對數據的 _ 樣本 _ 的，它是從更大的人群中選擇的一組數據點。我們希望通過一個樣本來描述一個更大的群體——我們感興趣的全套個體。例如，如果我們是一個政治民意測驗者，我們感興趣的人群可能都是注冊選民，而我們的樣本可能只包括從這個人群中抽取的幾千人。在本課程的后面，我們將更詳細地討論抽樣，但現在重要的一點是統計學家通常喜歡使用不同的符號來區分描述樣本值的統計數據和描述總體值的參數；在這種情況下，公式 a 表示總體平均值（表示為![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg)）為： ![](https://img.kancloud.cn/18/9a/189a1f6e0890954f12edf72abf9477c7_97x42.jpg) 其中 n 是整個人口的大小。我們已經看到，平均值是保證給我們的平均誤差為零的匯總統計。平均值還有另一個特點：它是最小化平方誤差總和（SSE）的匯總統計。在統計學中，我們稱之為“最佳”估計量。我們可以從數學上證明這一點，但我們將在圖[5.7](#fig:MinSSE)中以圖形方式證明這一點。 ![A demonstration of the mean as the statistic that minimizes the sum of squared errors. Using the NHANES child height data, we compute the mean (denoted by the blue bar). Then, we test a range of other values, and for each one we compute the sum of squared errors for each data point from that value, which are denoted by the black curve. We see that the mean falls at the minimum of the squared error plot.](https://img.kancloud.cn/9f/29/9f29d99a95f8e50cdf9cc453a253d650_384x384.png) 圖 5.7 平均值作為統計值的證明，可使平方誤差之和最小化。使用 nhanes 子高度數據，我們計算平均值（用藍色條表示）。然后，我們測試其他值的范圍，對于每個值，我們從該值計算每個數據點的平方誤差之和，該值由黑色曲線表示。我們看到平均值降到平方誤差圖的最小值。 SSE 的最小化是一個很好的特性，這就是為什么平均值是最常用的統計數據匯總。然而，均值也有一個陰暗面。假設一個酒吧有五個人，我們檢查每個人的收入： ```r # create income data frame incomeDf <- tibble( income = c(48000, 64000, 58000, 72000, 66000), person = c("Joe", "Karen", "Mark", "Andrea", "Pat") ) # glimpse(incomeDf) panderOptions('digits',2) pander(incomeDf) ``` <colgroup><col style="width: 12%"> <col style="width: 12%"></colgroup> | 收入 | 人 | | --- | --- | | 48000 個 | 喬 | | 64000 個 | 凱倫 | | 5.8 萬 | 作記號 | | 72000 個 | 安德莉亞 | | 66000 個 | 拍打 | ```r sprintf("Mean income: %0.2f", mean(incomeDf$income)) ``` ```r ## [1] "Mean income: 61600.00" ``` 這個平均值似乎是這五個人收入的一個很好的總結。現在讓我們看看如果碧昂斯·諾爾斯走進酒吧會發生什么： ```r # add Beyonce to income data frame incomeDf <- incomeDf %>% rbind(c(54000000, "Beyonce")) %>% mutate(income = as.double(income)) pander(incomeDf) ``` <colgroup><col style="width: 13%"> <col style="width: 13%"></colgroup> | income | person | | --- | --- | | 48000 | Joe | | 64000 | Karen | | 58000 | Mark | | 72000 | Andrea | | 66000 | Pat | | 5.4E+07 型 | 碧昂斯 | ```r sprintf("Mean income: %0.2f", mean(incomeDf$income)) ``` ```r ## [1] "Mean income: 9051333.33" ``` 平均值現在接近 1000 萬美元，這并不能真正代表酒吧里的任何人——特別是，它受到了碧昂絲價值的巨大驅動。一般來說，平均值對極值非常敏感，這就是為什么在使用平均值匯總數據時，確保沒有極值總是很重要的原因。 ### 5.5.1 中間值如果我們想以對異常值不太敏感的方式總結數據，我們可以使用另一種稱為 _ 中位數 _ 的統計。如果我們按大小來排序所有的值，那么中值就是中間值。如果有一個偶數的值，那么中間會有兩個值，在這種情況下，我們取這兩個數字的平均值（即中間點）。讓我們來看一個例子。假設我們要總結以下值： ```r # create example data frame dataDf <- tibble( values = c(8, 6, 3, 14, 12, 7, 6, 4, 9) ) pander(dataDf) ``` <colgroup><col style="width: 11%"></colgroup> | 價值觀 | | --- | | 8 個 | | 6 | | 三 | | 14 | | 12 個 | | 7 | | 6 | | 4 | | 9 | 如果我們對這些值進行排序： ```r # sort values and print dataDf <- dataDf %>% arrange(values) pander(dataDf) ``` <colgroup><col style="width: 11%"></colgroup> | values | | --- | | 3 | | 4 | | 6 | | 6 | | 7 | | 8 | | 9 | | 12 | | 14 | 中間值是中間值，在本例中是 9 個值中的第 5 個。平均值最小化平方誤差之和，而中位數最小化一個微小的不同數量：絕對誤差之和。這就解釋了為什么它對異常值不那么敏感——與采用絕對值相比，平方化會加劇較大誤差的影響。我們可以在收入示例中看到這一點： ```r # print income table pander(incomeDf) ``` <colgroup><col style="width: 13%"> <col style="width: 13%"></colgroup> | income | person | | --- | --- | | 48000 | Joe | | 64000 | Karen | | 58000 | Mark | | 72000 | Andrea | | 66000 | Pat | | 5.4e+07 | Beyonce | ```r sprintf('Mean income: %.2f',mean(incomeDf$income)) ``` ```r ## [1] "Mean income: 9051333.33" ``` ```r sprintf('Median income: %.2f',median(incomeDf$income)) ``` ```r ## [1] "Median income: 65000.00" ``` 中位數更能代表整個群體，對一個大的離群值不太敏感。既然如此，我們為什么要用平均數呢？正如我們將在后面的章節中看到的，平均值是“最佳”估計值，因為與其他估計值相比，它在樣本之間的差異較小。這取決于我們是否值得考慮對潛在異常值的敏感性——統計數據都是關于權衡的。