3.5 根據數據計算條件概率 · 斯坦福 Stats60 21 世紀的統計思維

## 3.5 根據數據計算條件概率對于本課程中的許多例子，我們將使用從國家健康和營養檢查調查（NHANES）獲得的數據。NHANES 是美國疾病控制中心組織的一項正在進行的大型研究，旨在全面了解美國成人和兒童的健康和營養狀況。每年，這項調查都會通過訪談和身體和醫學測試，對美國大約 5000 人的樣本進行調查。nhanes 數據作為一個包包含在 r 中，使其易于訪問和使用。它還為我們提供了一個大型的、現實的數據集，作為許多不同統計工具的示例。假設我們對以下問題很感興趣：考慮到某人身體不活躍，他們患糖尿病的可能性有多大？--這就是![](https://img.kancloud.cn/40/6c/406c842b7a33ea6adc4ddd09abcbe6c6_160x19.jpg)。nhanes 記錄了兩個變量，解決了這個問題的兩個部分。第一個（`Diabetes`）詢問患者是否被告知患有糖尿病，第二個（`PhysActive`）記錄患者是否從事至少中等強度的運動、健身或娛樂活動。我們先計算一下簡單的概率。 ```r # Summarize NHANES data for diabetes and physical activity # drop duplicated IDs within the NHANES dataset NHANES_diabetes_activity <- NHANES %>% distinct(ID, .keep_all = TRUE) %>% drop_na(PhysActive, Diabetes) pander('Summary data for diabetes') ``` 糖尿病匯總數據 ```r NHANES_diabetes_activity %>% count(Diabetes) %>% mutate( prob = n / sum(n) ) %>% pander() ``` <colgroup><col style="width: 15%"> <col style="width: 9%"> <col style="width: 9%"></colgroup> | 糖尿病 | N 號 | 問題 | | --- | --- | --- | | 不 | 4893 個 | 0.899 個 | | 是的 | 550 個 | 0.101 個 | ```r pander('Summary data for physical activity') ``` 體育活動匯總數據 ```r NHANES_diabetes_activity %>% count(PhysActive) %>% mutate( prob = n / sum(n) ) %>% pander() ``` <colgroup><col style="width: 18%"> <col style="width: 9%"> <col style="width: 9%"></colgroup> | 物理激活 | n | prob | | --- | --- | --- | | No | 2472 個 | 0.454 個 | | Yes | 2971 年 | 0.546 個 | 這表明 nhanes 數據集中的某個人患糖尿病的概率是 0.101，而某個人不活躍的概率是 0.454。為了計算![](https://img.kancloud.cn/40/6c/406c842b7a33ea6adc4ddd09abcbe6c6_160x19.jpg)，我們還需要知道糖尿病 _ 和 _ 不活動的聯合概率，除了以下兩種情況的簡單概率： ```r # compute joint probabilities for diabetes and physical activity NHANES_diabetes_stats_by_activity <- NHANES_diabetes_activity %>% count(Diabetes, PhysActive) %>% mutate( prob = n / sum(n) ) pander(NHANES_diabetes_stats_by_activity) ``` <colgroup><col style="width: 15%"> <col style="width: 18%"> <col style="width: 9%"> <col style="width: 9%"></colgroup> | Diabetes | PhysActive | n | prob | | --- | --- | --- | --- | | No | No | 2123 個 | 0.39 分 | | No | Yes | 2770 個 | 0.509 個 | | Yes | No | 349 個 | 0.064 個 | | Yes | Yes | 201 年 | 0.037 個 | 基于這些聯合概率，我們可以計算![](https://img.kancloud.cn/40/6c/406c842b7a33ea6adc4ddd09abcbe6c6_160x19.jpg)： ```r # compute conditional probability p(diabetes|inactive) P_inactive <- NHANES_diabetes_activity %>% summarise( mean(PhysActive == "No") ) %>% pull() P_diabetes_and_inactive <- NHANES_diabetes_stats_by_activity %>% dplyr::filter(Diabetes == "Yes", PhysActive == "No") %>% pull(prob) P_diabetes_given_inactive <- P_diabetes_and_inactive / P_inactive P_diabetes_given_inactive ``` ```r ## [1] 0.1411812 ``` 該塊中的第一行代碼通過測試每個獨立的 physactive 變量是否等于“no”來計算![](https://img.kancloud.cn/33/36/3336839ed4b99a0a09ed0c4323552227_91x18.jpg)。這個技巧是有效的，因為 r 將真/假值分別視為 1/0；因此，如果我們想知道某個事件的可能性，我們可以生成一個布爾變量來測試該事件，然后簡單地取該變量的平均值。然后我們用這個值來計算條件概率，我們發現一個人患糖尿病的概率是 0.141。