5.8 使用模擬了解統計數據 · 斯坦福 Stats60 21 世紀的統計思維

## 5.8 使用模擬了解統計數據我非常了解使用計算機模擬來理解統計概念，在以后的課程中，我們將深入探討這些概念的使用。在這里，我們將通過詢問在計算樣本方差時是否可以確認是否需要從樣本大小中減去 1 來介紹這個想法。讓我們將來自 nhanes 數據的整個兒童樣本視為我們的“群體”，并查看使用分母中的 n 或 n-1 計算樣本方差對數據中大量模擬隨機樣本的群體方差有多好。現在不要擔心細節——我們稍后會回到課程中。 ```r # compare variance estimates using N or N-1 in denominator population_variance <- NHANES_child %>% summarize( var(Height) ) %>% pull() # take 100 samples and estimate the sample variance using both N or N-1 in the demoninator sampsize <- 50 nsamp <- 1000 varhat_n <- array(data = NA, dim = nsamp) varhat_nm1 <- array(data = NA, dim = nsamp) for (i in 1:nsamp) { samp <- sample_n(NHANES_child, 1000)[1:sampsize, ] sampmean <- mean(samp$Height) sse <- sum((samp$Height - sampmean)**2) varhat_n[i] <- sse / sampsize varhat_nm1[i] <- sse / (sampsize - 1) } sprintf("population variance: %.2f", population_variance) ``` ```r ## [1] "population variance: 724.67" ``` ```r sprintf("variance estimate(n): %.2f", mean(varhat_n)) ``` ```r ## [1] "variance estimate(n): 709.03" ``` ```r sprintf("variance estimate(n-1): %.2f", mean(varhat_nm1)) ``` ```r ## [1] "variance estimate(n-1): 723.50" ``` 這表明上述理論是正確的：以![](https://img.kancloud.cn/53/68/53689a2659baf60384f961010bae3df3_41x13.gif)為分母的方差估計與以全數據（即總體）為分母計算的方差非常接近，而以![](https://img.kancloud.cn/f2/48/f248e891effc6650d9d31fbefc54cbe4_11x8.gif)為分母計算的方差與真實的 v 值相比有偏差（較小）。值。