# 4 顏色刻度
> 原文: [4 Color scales](https://serialmentor.com/dataviz/color-basics.html)
> 校驗:[飛龍](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻譯](https://translate.google.cn/)
數據可視化中的顏色有三個基本用例:(i)我們可以使用顏色來區分數據組; (ii)我們可以用顏色來表示數據值; (iii)我們可以使用顏色突出顯示。我們使用的顏色類型以及我們使用它們的方式在這三種情況下完全不同。
## 4.1 作為區分的工具的顏色
我們經常使用顏色作為區分不具有內在順序的離散項目或分組的手段,例如地圖上的不同國家或某個產品的不同制造商。在這種情況下,我們使用定性顏色刻度。這樣的刻度包含一組有限的特定顏色,選擇這些顏色是為了看起來彼此明顯不同,同時也彼此相同。第二個條件要求相對于其他顏色,不應該突出任何一種顏色。并且,顏色不應該產生順序的印象,就像持續變亮的一系列顏色的情況一樣。這些顏色會在被著色的物品之間產生明顯的順序,根據定義,它們沒有順序。
許多合適的定性顏色刻度很容易獲得。圖 4.1 顯示了三個代表性的例子。特別是,ColorBrewer 項目提供了很好的定性顏色刻度選擇,包括相當淺和相當深的顏色(Brewer 2017)。

圖 4.1:定性顏色刻度示例。 Okabe Ito 刻度是本書(Okabe 和 Ito 2008)中使用的默認刻度。 ColorBrewer Dark2 刻度由 ColorBrewer 項目(Brewer 2017)提供。 ggplot2 色調刻度是廣泛使用的繪圖軟件 ggplot2 中的默認定性刻度。
作為我們如何使用定性顏色刻度的一個例子,請考慮圖 4.2 。它顯示了美國各州 2000 年至 2010 年的人口增長率。我按照人口增長的順序排列了各州,我按地理區域對它們進行了著色。這種著色突出表明,同一地區的國家經歷了類似的人口增長。特別是,西部和南部各州人口增長最多,而中西部和東北部各州增長較少。

圖 4.2:2000 年至 2010 年美國的人口增長。西部和南部的州增長最大,而中西部和東北部的州增長小得多,甚至在密歇根州也有所下降。數據來源:美國人口普查局
## 4.2 代表數據值的顏色
顏色也可用于表示數據值,例如收入,溫度或速度。在這種情況下,我們使用順序顏色刻度。這樣的刻度包含一系列顏色,其清楚地指示(i)哪些值大于或小于哪些值,以及(ii)兩個特定值彼此有多遠。第二點意味著需要感知顏色刻度在其整個范圍內均勻變化。
順序刻度可以基于單個色調(例如,從深藍色到淺藍色)或基于多個色調(例如,從深紅色到淺黃色)(圖 4.3 )。多色調刻度傾向于遵循自然界中可見的顏色漸變,例如深紅色,綠色或藍色至淺黃色,或深紫色至淺綠色。相反,例如深黃色至淺藍色,看起來不自然,并沒有生成有用的順序刻度。

圖 4.3:連續顏色刻度示例。 ColorBrewer Blues 刻度是一種單色刻度,從深藍到淺藍不等。 Heat 和 Viridis 刻度是多色調刻度,分別從深紅色到淺黃色,從深藍色到綠色到淺黃色。
當我們想要顯示數據值如何跨地理區域變化時,將數據值表示為顏色特別有用。在這種情況下,我們可以繪制地理區域的地圖,并按照數據值對它們進行著色。這種地圖稱為等值線。圖 4.4 顯示了一個示例,其中我將德克薩斯州每個縣的年收入中位數映射到這些縣的地圖上。

圖 4.4:德克薩斯州的年收入中位數。德克薩斯州主要城市地區的收入中位數最高,特別是在休斯頓和達拉斯附近。西德克薩斯州的 Loving 縣沒有收入中位數估計值,因此該縣顯示為灰色。數據來源:2015 年的美國五年社區調查
在某些情況下,我們需要將數據值的偏差可視化為相對于中性點的兩個方向之一。一個簡單的例子是包含正數和負數的數據集。我們可能想要使用不同顏色來顯示它們,這樣就可以立即看出一個值是正還是負,以及它在任何一個方向上到零的距離。在這種情況下,適當的顏色刻度是發散顏色刻度。我們可以將一個不同的刻度視為兩個連續的刻度,它們在一個共同的中點處拼接在一起,通常用淺色來表示(圖 4.5 )。發散刻度需要平衡,以便從中心的淺色到外側的深色的漸變,在任一方向上大致相同。否則,數據值的感知幅度將取決于它是否高于或低于中點值。

圖 4.5:發散顏色刻度示例。發散的刻度可以被認為是在共同的中點顏色處拼接在一起的兩個連續刻度。發散刻度的常見顏色選擇包括棕色至藍綠色,粉紅色至黃綠色以及藍色至紅色。
作為發散顏色刻度的示例應用,請考慮圖 4.6 ,其顯示德克薩斯州的縣的白人百分比。盡管百分比總是一個正數,但這里的發散刻度是合理的,因為 50% 是一個有意義的中點值。高于 50% 的數字表明白人占多數,低于 50% 的數字表示相反。可視化清楚地顯示了哪些縣白人占多數,哪些縣他們是少數,以及哪些縣中白人和非白人以大致相等的比例出現。

圖 4.6:德克薩斯州的縣的白人的百分比。白人在德克薩斯州北部和東部占多數,但在德克薩斯州南部或西部則不然。數據來源:2010 年美國十年普查
## 4.3 作為突出顯示的工具的顏色
顏色也可以是突出顯示數據中特定元素的有效工具。數據集中可能存在特定的類別或值,其中包含有關我們想要講述的故事的關鍵信息,我們可以通過向讀者強調相關的圖形元素來強調故事。實現強調的一個簡單方法是,將這些圖形元素用一種顏色或一組顏色著色,這些顏色可以生動地突出圖形的其他部分。這種效果可以通過強調色刻度來實現,這些顏色刻度包含一組柔和顏色和一組匹配的更強,更暗和/或更柔和的顏色(圖 4.7)。

圖 4.7:強調色刻度示例,每個都有四種基色和三種強調色。強調色刻度可以通過幾種不同的方式得出:(頂部)我們可以采用現有的顏色刻度(例如,Okabe Ito 刻度,圖 4.1 )并使某些顏色變淡和/或部分去飽和,同時使其他顏色變暗;(中)我們可以采用灰度值并將它們與顏色配對; (下)我們可以使用現有的強調色刻度,例如 ColorBrewer 項目中的那個。
作為相同數據如何使用不同著色方法支持不同故事的示例,我創建了圖 4.2 的變體,現在我突出顯示兩個特定州,Texas 和 Louisiana(圖 4.8 )。這兩個州都在南方,他們是近鄰,然而一個州(德克薩斯州)是美國增長速度第五快的州,而另一個州是 2000 年至 2010 年間增長最慢的州。

圖 4.8:從 2000 年到 2010 年,兩個鄰近的南部州,德克薩斯州和路易斯安那州,經歷了美國最高和最低的人口增長率,數據來源:美國人口普查局
使用強調色時,基線顏色不會引起注意,這一點至關重要。注意基線顏色是多么單調(圖 4.8)。然而,它們很好地支持強調色。很容易犯下使用過于豐富多彩的基線顏色的錯誤,這樣他們最終會爭奪讀者對強調色的注意力。但是,有一個簡單的補救措施。只需刪除圖中所有元素的所有顏色,但突出顯示的數據類別或點除外。圖 4.9 中提供了該策略的一個示例。

圖 4.9:田徑運動員是參加流行運動的最矮和最瘦的男性職業運動員之一。數據來源:Telford and Cunningham(1991)
### 參考
```
Brewer, Cynthia A. 2017. “ColorBrewer 2.0. Color Advice for Cartography.” http://www.ColorBrewer.org.
Okabe, M., and K. Ito. 2008. “Color Universal Design (CUD): How to Make Figures and Presentations That Are Friendly to Colorblind People.” http://jfly.iam.u-tokyo.ac.jp/color/.
Telford, R. D., and R. B. Cunningham. 1991. “Sex, Sport, and Body-Size Dependency of Hematology in Highly Trained Athletes.” Medicine and Science in Sports and Exercise 23: 788–94.
```
- 數據可視化的基礎知識
- 歡迎
- 前言
- 1 簡介
- 2 可視化數據:將數據映射到美學上
- 3 坐標系和軸
- 4 顏色刻度
- 5 可視化的目錄
- 6 可視化數量
- 7 可視化分布:直方圖和密度圖
- 8 可視化分布:經驗累積分布函數和 q-q 圖
- 9 一次可視化多個分布
- 10 可視化比例
- 11 可視化嵌套比例
- 12 可視化兩個或多個定量變量之間的關聯
- 13 可視化自變量的時間序列和其他函數
- 14 可視化趨勢
- 15 可視化地理空間數據
- 16 可視化不確定性
- 17 比例墨水原理
- 18 處理重疊點
- 19 顏色使用的常見缺陷
- 20 冗余編碼
- 21 多面板圖形
- 22 標題,說明和表格
- 23 平衡數據和上下文
- 24 使用較大的軸標簽
- 25 避免線條圖
- 26 不要走向 3D
- 27 了解最常用的圖像文件格式
- 28 選擇合適的可視化軟件
- 29 講述一個故事并提出一個觀點
- 30 帶注解的參考書目
- 技術注解
- 參考