5.9 Z 分數 · 斯坦福 Stats60 21 世紀的統計思維

## 5.9 Z 分數 ```r crimeData <- read.table( "data/CrimeOneYearofData_clean.csv", header = TRUE, sep = "," ) # let's drop DC since it is so small crimeData <- crimeData %>% dplyr::filter(State != "District of Columbia") caCrimeData <- crimeData %>% dplyr::filter(State == "California") ``` 以分布的中心趨勢和變異性為特征后，通常有助于根據個體分數相對于總體分布的位置來表示。假設我們有興趣描述不同州犯罪的相對水平，以確定加利福尼亞是否是一個特別危險的地方。我們可以使用來自[FBI 統一犯罪報告網站](https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeOneYearofData.cfm)的 2014 年數據來問這個問題。圖[5.8](#fig:crimeHist)的左面板顯示了每個州暴力犯罪數量的柱狀圖，突出了加州的價值。從這些數據來看，加利福尼亞州似乎非常危險，當年共有 153709 起犯罪。 ![Left: Histogram of the number of violent crimes. The value for CA is plotted in blue. Right: A map of the same data, with number of crimes plotted for each state in color.](https://img.kancloud.cn/5f/9c/5f9c99025a16f7e840fdc715fc09efe7_768x384.png) 圖 5.8 左：暴力犯罪數量的柱狀圖。CA 的值以藍色繪制。右圖：一張相同數據的地圖，用彩色繪制每個州的犯罪數量。使用 r，還可以很容易地生成一個顯示變量跨狀態分布的地圖，如圖[5.8](#fig:crimeHist)右面板所示。然而，你可能已經意識到加州在美國任何一個州的人口都是最多的，所以它也會有更多的犯罪是合理的。如果我們將這兩種情況相提并論（參見圖[5.9](#fig:popVsCrime)的左面板），我們就會發現人口與犯罪數量之間存在直接關系。 ![Left: A plot of number of crimes versus population by state. Right: A histogram of per capita crime rates, expressed as crimes per 100,000 people.](https://img.kancloud.cn/76/01/760175ae0c82f2d7cbe9a3e28d97b50b_768x384.png) 圖 5.9 左：按州劃分的犯罪數量與人口的關系圖。對：人均犯罪率的柱狀圖，以每 10 萬人的犯罪率表示。我們不應使用犯罪的原始數量，而應使用人均暴力犯罪率，即犯罪數量除以國家人口所得的比率。FBI 的數據集已經包含了這個值（以每 100000 人的比率表示）。 ```r # print crime rate statistics, normalizing for population sprintf("rate of 2014 violent crimes in CA: %.2f", caCrimeData$Violent.Crime.rate) ``` ```r ## [1] "rate of 2014 violent crimes in CA: 396.10" ``` ```r sprintf("mean rate: %.2f", mean(crimeData$Violent.Crime.rate)) ``` ```r ## [1] "mean rate: 346.81" ``` ```r sprintf("std of rate: %.2f", sd(crimeData$Violent.Crime.rate)) ``` ```r ## [1] "std of rate: 128.82" ``` 從右圖[5.9](#fig:popVsCrime)中我們可以看出，加利福尼亞畢竟沒有那么危險——它每 10 萬人的犯罪率為 396.1，略高于 346.81 的平均值，但在許多其他州的范圍內。但是，如果我們想更清楚地了解它與發行版的其他部分有多遠呢？ _z-score_ 允許我們以一種方式表示數據，從而更深入地了解每個數據點與整體分布的關系。如果我們知道總體平均值![](https://img.kancloud.cn/da/ae/daae94eb5dc924acf8a8609e74df9f3a_11x12.jpg)和標準差![](https://img.kancloud.cn/5a/44/5a44d08a2c46ced5dd1a8786e2d30d12_11x8.jpg)的值，則計算數據點 z 得分的公式為： ![](https://img.kancloud.cn/3c/f2/3cf25e879cda934a5f006ba99a9a751b_107x33.jpg) 直觀地說，你可以把 z 值看作是告訴你離任何數據點的平均值有多遠，以標準偏差為單位。我們可以根據犯罪率數據來計算，如圖[5.10](#fig:crimeZplot)所示。 ```r ## [1] "mean of Z-scored data: 1.4658413372004e-16" ``` ```r ## [1] "std deviation of Z-scored data: 1" ``` ![Scatterplot of original crime rate data against Z-scored data.](https://img.kancloud.cn/56/eb/56eba8ee51fc44ed29e783e20a610c8c_384x384.png) 圖 5.10 原始犯罪率數據與 Z 評分數據的散點圖。散點圖表明，z-得分的過程并沒有改變數據點的相對分布（可以看到原始數據和 z-得分數據在相互作圖時落在一條直線上），只是將它們移動到一個平均值為零和一個標準差。一個。然而，如果你仔細觀察，你會發現平均值并不完全為零——只是非常小。這里所發生的是，計算機以一定的 _ 數字精度 _ 表示數字，這意味著有些數字不完全為零，但小到 R 認為它們為零。 ```r # examples of numerical precision print(paste("smallest number such that 1+x != 1", .Machine$double.eps)) ``` ```r ## [1] "smallest number such that 1+x != 1 2.22044604925031e-16" ``` ```r # We can confirm this by showing that adding anything less than that number to # 1 is treated as 1 by R print((1 + .Machine$double.eps) == 1) ``` ```r ## [1] FALSE ``` ```r print((1 + .Machine$double.eps / 2) == 1) ``` ```r ## [1] TRUE ``` ```r # we can also look at the largest number print(paste("largest number", .Machine$double.xmax)) ``` ```r ## [1] "largest number 1.79769313486232e+308" ``` ```r # similarly here, we can see that adding 1 to the largest possible number # is no different from the largest possible number, in R's eyes at least. print((1 + .Machine$double.xmax) == .Machine$double.xmax) ``` ```r ## [1] TRUE ``` 圖[5.11](#fig:crimeZmap)顯示了使用地理視圖的 Z 評分犯罪數據。 ![Crime data rendered onto a US map, presented as Z-scores.](https://img.kancloud.cn/fa/cc/facc3745991536c01f579665c8d67022_576x576.png) 圖 5.11 呈現在美國地圖上的犯罪數據，以 z 分數表示。這為我們提供了一個稍微更具解釋性的數據視圖。例如，我們可以看到內華達州、田納西州和新墨西哥州的犯罪率都比平均值高出大約兩個標準差。 ### 5.9.1 解釋 z-分數 “z-得分”中的“z”源于標準正態分布（即平均值為零且標準偏差為 1 的正態分布）通常被稱為“z”分布。我們可以使用標準正態分布來幫助我們了解相對于分布的其余部分，特定的 z 分數告訴我們數據點的位置。 ![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at one standard deviation above/below the mean.](https://img.kancloud.cn/79/5f/795f271039da3c2addf107bf195e0a41_576x576.png) 圖 5.12 標準正態分布的密度（頂部）和累積分布（底部），在平均值以上/以下的一個標準偏差處進行截止。圖[5.12](#fig:zDensityCDF)中的上面板顯示，我們預計約 16%的值會落在![](https://img.kancloud.cn/b6/c6/b6c6dfe494c103117422b2dbf67d0a7f_45x15.jpg)中，同樣的比例也會落在![](https://img.kancloud.cn/0d/4e/0d4ea0c814981780118f6267889195ec_59x15.jpg)中。 ![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at two standard deviations above/below the mean](https://img.kancloud.cn/93/54/93542d031c82b2f475c6bc6d7d139eef_576x576.png) 圖 5.13 標準正態分布的密度（頂部）和累積分布（底部），平均值以上/以下兩個標準偏差處的截止值圖[5.13](#fig:zDensity2SD)顯示了兩個標準偏差的相同曲線圖。在這里，我們看到只有約 2.3%的值落在![](https://img.kancloud.cn/9c/ec/9cecb9232456457fb3e9aa2cfb9f34cd_60x15.jpg)中，同樣的也落在![](https://img.kancloud.cn/f2/bc/f2bc5a6680e598a231b3c50e11fd5783_46x15.jpg)中。因此，如果我們知道特定數據點的 z 值，我們可以估計找到一個值的可能性或可能性有多大，至少與該值一樣極端，這樣我們就可以將值放入更好的上下文中。 ### 5.9.2 標準化評分假設我們希望生成平均值為 100、標準差為 10 的標準化犯罪評分，而不是 Z 評分。這類似于用智力測驗的分數來產生智力商數（IQ）的標準化。我們可以簡單地將 z 分數乘以 10，然后再加 100。 ```r ## [1] "mean of standardized score data: 100" ``` ```r ## [1] "std deviation of standardized score data: 10" ``` ![Crime data presented as standardized scores with mean of 100 and standard deviation of 10.](https://img.kancloud.cn/2a/8c/2a8cbc8f593665343c81baec2284f279_384x384.png) 圖 5.14 犯罪數據以標準化分數呈現，平均值為 100，標準差為 10。 #### 5.9.2.1 使用 z 分比較分布 z 值的一個有用的應用是比較不同變量的分布。假設我們想比較暴力犯罪和財產犯罪在各州的分布情況。在圖[5.15](#fig:crimeTypePlot)的左面板中，我們將這些圖形繪制在一起，用藍色繪制 CA。正如你所看到的，財產犯罪的原始率遠遠高于暴力犯罪的原始率，所以我們不能直接比較數字。但是，我們可以將這些數據的 z 值相互繪制出來（圖[5.15](#fig:crimeTypePlot)的右面板）——這里我們再次看到數據的分布沒有改變。把每一個變量的數據放入 z 值后，就可以進行比較了，讓我們看到加州實際上處于暴力犯罪和財產犯罪分布的中間。 ![Plot of violent vs. property crime rates (left) and Z-scored rates (right).](https://img.kancloud.cn/e0/96/e096388c452ee290703b690dd0d6ca1b_768x384.png) 圖 5.15 暴力與財產犯罪率（左）和 Z 得分率（右）的曲線圖。讓我們再給情節加一個因素：人口。在圖[5.16](#fig:crimeTypePopPlot)的左面板中，我們使用繪圖符號的大小來顯示這一點，這通常是向繪圖添加信息的一種有用方法。 ![Left: Plot of violent vs. property crime rates, with population size presented through the size of the plotting symbol; California is presented in blue. Right: Difference scores for violent vs. property crime, plotted against population. ](https://img.kancloud.cn/31/5a/315a4d3c17a0aab9cbd5e9cd49caabbe_768x384.png) 圖 5.16 左圖：暴力犯罪率與財產犯罪率的對比圖，人口規模以繪圖符號的大小表示；加利福尼亞州以藍色表示。對：針對人口的暴力和財產犯罪的得分差異。因為 z 分數是直接可比的，所以我們也可以計算“暴力差異”分數，該分數表示各州暴力與非暴力（財產）犯罪的相對比率。然后我們可以將這些得分與人口進行對比（參見圖[5.16](#fig:crimeTypePopPlot)的右面板）。這說明我們如何使用 z-分數將不同的變量放在一個共同的尺度上。值得注意的是，最小的國家在兩個方向上的差異似乎最大。雖然這可能會吸引我們去觀察每一個狀態，并試圖確定為什么它有一個高或低的差異分數，但這可能反映了這樣一個事實，即從較小的樣本中獲得的估計值必然會有更多的變量，正如我們將在幾章中更詳細地討論的那樣。