2.1 什么是數據？ · 斯坦福 Stats60 21 世紀的統計思維

## 2.1 什么是數據？關于數據的第一個重要點是數據 _ 是 _——意思是“數據”這個詞是復數（盡管有些人在這一點上不同意我的觀點）。你也可能想知道如何發音“data”——我說“day-tah”，但我認識許多說“dah-tah”的人，盡管如此，我仍然可以和他們保持朋友關系。現在如果我聽到他們說“數據是”，那將是更大的問題… ### 2.1.1 定性數據數據由 _ 變量 _ 組成，其中變量反映唯一的度量或數量。有些變量是 _ 定性的 _，這意味著它們描述的是質量而不是數字量。例如，在我的統計課程中，我通常會做一個介紹性的調查，既可以獲取課堂上使用的數據，也可以了解更多關于學生的信息。我問的問題之一是“你最喜歡吃什么？”其中一些答案是：藍莓、巧克力、玉米粉蒸肉、意大利面、披薩和芒果。這些數據本質上不是數字；我們可以為每個數據分配數字（1=藍莓，2=巧克力等），但我們只會將數字用作標簽，而不是實數；例如，在這種情況下，將數字相加是沒有意義的。但是，我們通常會使用數字對定性數據進行編碼，以使它們更易于使用，稍后您將看到。 ### 2.1.2 定量數據在統計學中，我們更常用于 _ 定量 _ 數據，這意味著數據是數字的。例如，這里的表[2.1](#tab:WhyTakingClass)顯示了我在入門課上問的另一個問題的結果，即“你為什么要上這門課？” <caption>Table 2.1 Counts of the prevalence of different responses to the question "Why are you taking this class?"</caption> | 你為什么要上這門課？ | 學生人數 | | --- | --- | | 滿足學位計劃要求 | 105 | | 滿足通識教育廣度要求 | 32 | | 不需要，但我對這個話題感興趣 | 11 個 | | 其他 | 4 | 請注意，學生的回答是定性的，但我們通過計算每個回答的學生數得出了他們的定量總結。 #### 2.1.2.1 數字類型我們在統計中處理的數字有幾種不同的類型。理解這些差異很重要，部分原因是像 R 這樣的編程語言經常區分它們。 **二進制數**。最簡單的是二進制數——也就是零或一。我們經常使用二進制數字來表示某個事物是真是假，是存在還是不存在。例如，我可能會問 10 個人他們是否經歷過偏頭痛。如果他們的答案是： ```r # create variable containing responses to migraine question everHadMigraine <- c('Yes','No','Yes','No','No','No','Yes','No','No','No') everHadMigraine ``` ```r ## [1] "Yes" "No" "Yes" "No" "No" "No" "Yes" "No" "No" "No" ``` 相反，我們可以使用==符號將這些值重新編碼為真值，該符號是對相等性的測試，如果這兩個值相等，則返回邏輯值“真”，否則返回“假”。 ```r # create truth values from everHadMigraine variable everHadMigraineTF <- everHadMigraine == 'Yes' everHadMigraineTF ``` ```r ## [1] TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE ``` r 同等對待真值和二進制數： ```r # evaluate truth of a set of assertions # 1 is equal to TRUE - should return TRUE TRUE == 1 ``` ```r ## [1] TRUE ``` ```r # 0 is equal to FALSE - should return TRUE FALSE == 0 ``` ```r ## [1] TRUE ``` ```r # 0 is equal to true - should return FALSE TRUE == 0 ``` ```r ## [1] FALSE ``` 我們還可以將真值列表顯式地轉換為整數： ```r # create integer values from truth values using as.integer() everHadMigraineBinary <- as.integer(everHadMigraineTF) everHadMigraineBinary ``` ```r ## [1] 1 0 1 0 0 0 1 0 0 0 ``` 當我們談到概率論時，我們會看到一種方法，在這種方法中，這種表示是非常有用的。 **整數**。整數是不含小數部分或小數部分的整數。我們在計算事物時最常遇到整數，但在心理測量中也經常遇到整數。例如，在我的介紹性調查中，我處理了一組關于統計學態度的問題（例如“統計學對我來說似乎很神秘”），在這些問題上，學生的回答是 1（“強烈反對”）到 7（“強烈同意”）。 **實數**。在統計學中，我們通常使用實數，實數有小數/十進制部分。例如，我們可以測量某人的體重，從整磅到微克，精確到任意水平。