8.4 使用蒙特卡羅模擬 · 斯坦福 Stats60 21 世紀的統計思維

## 8.4 使用蒙特卡羅模擬讓我們回到考試結束時間的例子。假設我管理三個測驗，并記錄每個學生每次考試的完成時間，這可能類似于圖[8.2](#fig:finishingTimes)所示的分布。 ![Simulated finishing time distributions.](https://img.kancloud.cn/b9/ed/b9ed43800b3a5f58a70d5a5372c452fa_768x384.png) 圖 8.2 模擬完成時間分布。然而，我們真正想知道的不是完成時間的分布是什么樣子的，而是每個測驗的 _ 最長 _ 完成時間的分布是什么樣子的。為了做到這一點，我們可以模擬大量的測驗（假設完成時間是正態分布的，如上所述）；對于每個模擬的測驗，我們可以記錄最長的完成時間。為此，我們在 r 中創建了一個名為`sampleMax()`的新函數，該函數從適當的分布（即正態分布）中模擬適當大小的樣本（即班級中的學生數），并返回樣本中的最大值。然后，我們使用`replicate()`函數重復此模擬大量次（應該足夠 5000 次），該函數將所有輸出存儲到一個變量中。整理時間分布見圖[8.3](#fig:finishTimeSim)。 ```r # sample maximum value 5000 times and compute 99th percentile nRuns <- 5000 sampSize <- 150 sampleMax <- function(sampSize = 150) { samp <- rnorm(sampSize, mean = 5, sd = 1) return(max(samp)) } maxTime <- replicate(nRuns, sampleMax()) cutoff <- quantile(maxTime, 0.99) sprintf("99th percentile of maxTime distribution: %.2f", cutoff) ``` ```r ## [1] "99th percentile of maxTime distribution: 8.81" ``` ![Distribution of maximum finishing times across simulations.](https://img.kancloud.cn/10/20/1020bdfa842d4d627bb47078a4b85623_384x384.png) 圖 8.3 模擬中最大完成時間的分布。這表明完成時間分布的第 99 個百分點下降到了 8.81，這意味著如果我們為測驗留出這么多時間，那么每個人都應該完成 99%的時間。務必記住，我們的假設很重要——如果它們是錯誤的，那么模擬的結果是無用的。在這種情況下，我們假設完成時間分布為正態分布，具有特定的平均值和標準偏差；如果這些假設不正確（而且幾乎可以肯定），那么真正的答案可能會非常不同。