## 2.2 測量尺度
所有變量必須至少具有兩個不同的可能值(否則它們將是一個 _ 常量 _ 而不是一個變量),但變量的不同值可以以不同的方式相互關聯,我們稱之為 _ 測量尺度 _。變量的不同值有四種不同的方式。
* _identity_:變量的每個值都有唯一的含義。
* 【htg0】震級【htg1】:該變量的值反映了不同的震級,并且相互之間具有有序的關系,即有些值較大,有些值較小。
* _ 等間隔 _:沿測量尺度的單位是相等的。例如,這意味著 1 和 2 之間的差值在大小上等于 19 和 20 之間的差值。
* _ 絕對零點 _:刻度有一個真正有意義的零點。例如,對于許多物理量的測量,例如高度或重量,這是完全沒有被測量的東西。
有四種不同的測量尺度,隨著這些不同的方式,變量的值可能會有所不同。
_ 標稱刻度 _。一個名義變量滿足同一性的標準,這樣每個變量的值代表不同的東西,但數字只是作為定性標簽,如上所述。例如,我們可能會要求人們加入他們的政黨,然后將其編碼為數字:1=“共和黨”、2=“民主黨”、3=“自由主義者”等等。但是,不同的數字之間沒有任何有序的關系。
_ 序數刻度 _。一個序數變量滿足同一性和數量級的標準,這樣就可以按數量級對值進行排序。例如,我們可能會要求患有慢性疼痛的人每天填寫一份表格,用 1-7 個數字量表來評估他們的疼痛有多嚴重。請注意,雖然患者在報告 6 天時可能會感覺到更多的疼痛,而在報告 3 天時則感覺到更多的疼痛,但是說他們的疼痛是前者的兩倍,后者的兩倍,這是沒有意義的;排序給了我們有關相對大小的信息,但不同的是數值之間的 CES 在量級上不一定相等。
_ 間隔刻度 _。區間標度具有序數標度的所有特征,但除此之外,測量標度上各單位之間的間隔可以視為相等。一個標準的例子是以攝氏度或法倫海特為單位測量的物理溫度;10 度和 20 度之間的物理差異與 90 度和 100 度之間的物理差異相同,但每個刻度也可以取負值。
_ 比例標度 _。比例尺度變量具有上述四個特征:同一性、量值、等間隔和絕對零。比率比例變量和區間比例變量的區別在于比率比例變量具有真正的零點。比例尺度變量的例子包括物理高度和重量,以及以開爾文測量的溫度。
### 2.2.1 為什么測量尺度很重要?
有兩個重要的原因,我們必須注意一個變量的測量尺度。首先,尺度決定了我們可以應用于數據的數學運算類型(見表[2.2](#tab:MeasurementTypes))。只能比較名義變量是否相等;也就是說,對該變量的兩個觀測值是否具有相同的數值?將其他數學運算應用于一個名義變量是沒有意義的,因為它們在名義變量中不是真正的數字,而是作為標簽。對于序數變量,我們也可以測試一個值是否大于或小于另一個值,但我們不能做任何算術。區間變量和比率變量允許我們執行算術;對于區間變量,我們只能加或減數值,而對于比率變量,我們也可以乘和除數值。
<caption>Table 2.2 Different scales of measurement admit different types of numeric operations</caption>
| | 等于/不等于 | 大于/小于 | 加/減 | 乘/除 |
| --- | --- | --- | --- | --- |
| 名義 | 好啊 | | | |
| 依次的 | OK | OK | | |
| 間隔 | OK | OK | OK | |
| 比率 | OK | OK | OK | OK |
這些約束也意味著我們可以對每種類型的變量計算某些類型的統計信息。只需計算不同值(例如最常見的值,即 _ 模式 _)的統計信息,就可以對任何變量類型進行計算。其他統計數據是基于值的排序或排序(如 _ 中位數 _,當所有值都按其大小排序時,中位數是中間值),這些統計數據要求值至少按順序排列。最后,涉及到值相加的統計(如平均值或 _ 平均值 _)要求變量至少在區間尺度上。盡管如此,我們應該注意到,對于研究人員來說,計算只有序數的變量的平均值是很常見的(比如人格測試的反應),但這有時會有問題。
- 前言
- 0.1 本書為什么存在?
- 0.2 你不是統計學家-我們為什么要聽你的?
- 0.3 為什么是 R?
- 0.4 數據的黃金時代
- 0.5 開源書籍
- 0.6 確認
- 1 引言
- 1.1 什么是統計思維?
- 1.2 統計數據能為我們做什么?
- 1.3 統計學的基本概念
- 1.4 因果關系與統計
- 1.5 閱讀建議
- 2 處理數據
- 2.1 什么是數據?
- 2.2 測量尺度
- 2.3 什么是良好的測量?
- 2.4 閱讀建議
- 3 概率
- 3.1 什么是概率?
- 3.2 我們如何確定概率?
- 3.3 概率分布
- 3.4 條件概率
- 3.5 根據數據計算條件概率
- 3.6 獨立性
- 3.7 逆轉條件概率:貝葉斯規則
- 3.8 數據學習
- 3.9 優勢比
- 3.10 概率是什么意思?
- 3.11 閱讀建議
- 4 匯總數據
- 4.1 為什么要總結數據?
- 4.2 使用表格匯總數據
- 4.3 分布的理想化表示
- 4.4 閱讀建議
- 5 將模型擬合到數據
- 5.1 什么是模型?
- 5.2 統計建模:示例
- 5.3 什么使模型“良好”?
- 5.4 模型是否太好?
- 5.5 最簡單的模型:平均值
- 5.6 模式
- 5.7 變異性:平均值與數據的擬合程度如何?
- 5.8 使用模擬了解統計數據
- 5.9 Z 分數
- 6 數據可視化
- 6.1 數據可視化如何拯救生命
- 6.2 繪圖解剖
- 6.3 使用 ggplot 在 R 中繪制
- 6.4 良好可視化原則
- 6.5 最大化數據/墨水比
- 6.6 避免圖表垃圾
- 6.7 避免數據失真
- 6.8 謊言因素
- 6.9 記住人的局限性
- 6.10 其他因素的修正
- 6.11 建議閱讀和視頻
- 7 取樣
- 7.1 我們如何取樣?
- 7.2 采樣誤差
- 7.3 平均值的標準誤差
- 7.4 中心極限定理
- 7.5 置信區間
- 7.6 閱讀建議
- 8 重新采樣和模擬
- 8.1 蒙特卡羅模擬
- 8.2 統計的隨機性
- 8.3 生成隨機數
- 8.4 使用蒙特卡羅模擬
- 8.5 使用模擬統計:引導程序
- 8.6 閱讀建議
- 9 假設檢驗
- 9.1 無效假設統計檢驗(NHST)
- 9.2 無效假設統計檢驗:一個例子
- 9.3 無效假設檢驗過程
- 9.4 現代環境下的 NHST:多重測試
- 9.5 閱讀建議
- 10 置信區間、效應大小和統計功率
- 10.1 置信區間
- 10.2 效果大小
- 10.3 統計能力
- 10.4 閱讀建議
- 11 貝葉斯統計
- 11.1 生成模型
- 11.2 貝葉斯定理與逆推理
- 11.3 進行貝葉斯估計
- 11.4 估計后驗分布
- 11.5 選擇優先權
- 11.6 貝葉斯假設檢驗
- 11.7 閱讀建議
- 12 分類關系建模
- 12.1 示例:糖果顏色
- 12.2 皮爾遜卡方檢驗
- 12.3 應急表及雙向試驗
- 12.4 標準化殘差
- 12.5 優勢比
- 12.6 貝葉斯系數
- 12.7 超出 2 x 2 表的分類分析
- 12.8 注意辛普森悖論
- 13 建模持續關系
- 13.1 一個例子:仇恨犯罪和收入不平等
- 13.2 收入不平等是否與仇恨犯罪有關?
- 13.3 協方差和相關性
- 13.4 相關性和因果關系
- 13.5 閱讀建議
- 14 一般線性模型
- 14.1 線性回歸
- 14.2 安裝更復雜的模型
- 14.3 變量之間的相互作用
- 14.4“預測”的真正含義是什么?
- 14.5 閱讀建議
- 15 比較方法
- 15.1 學生 T 考試
- 15.2 t 檢驗作為線性模型
- 15.3 平均差的貝葉斯因子
- 15.4 配對 t 檢驗
- 15.5 比較兩種以上的方法
- 16 統計建模過程:一個實例
- 16.1 統計建模過程
- 17 做重復性研究
- 17.1 我們認為科學應該如何運作
- 17.2 科學(有時)是如何工作的
- 17.3 科學中的再現性危機
- 17.4 有問題的研究實踐
- 17.5 進行重復性研究
- 17.6 進行重復性數據分析
- 17.7 結論:提高科學水平
- 17.8 閱讀建議
- References