# 13 可視化自變量的時間序列和其他函數
> 原文: [13 Visualizing time series and other functions of an independent variable](https://serialmentor.com/dataviz/time-series.html)
> 校驗:[飛龍](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻譯](https://translate.google.cn/)
前一章討論了散點圖,其中我們根據一個定量變量繪制了另一個定量變量。當兩個變量中的一個可以被認為是時間時會出現一種特殊情況,因為時間會對數據施加額外的結構。現在數據點具有固有的順序;我們可以按照時間增加的順序排列點,并為每個數據點定義前導和后繼。我們經常希望用折線圖來可視化這個時間順序。然而,折線圖不限于時間序列。只要數據可以按照一個變量排序,它們就是合適的。例如,在受控實驗中也出現這種情況,其中治療變量有目的地設定為一系列不同的值。如果我們有多個依賴于時間的變量,我們可以繪制單個折線圖,也可以繪制規則的散點圖,然后繪制直線來連接時間上相鄰的點。
## 13.1 單個時間序列
作為時間序列的第一個演示,我們將考慮生物學預印本每月提交的模式。預印本是研究人員在正式同行評審和在科研期刊上發表之前,在線發表的學術文章。預印本服務器 bioRxiv 成立于 2013 年 11 月,專門面向從事生物科學研究的研究人員,自那以后,每月提交的作品大幅增長。我們可以通過制作一種散點圖來可視化這種增長(第 12 章),其中我們繪制了代表每個月提交數量的點(圖 13.1)。

圖 13.1:從 2014 年 11 月到 2018 年 4 月,預印本服務器 bioRxiv 的每月提交量。每個點代表一個月內提交量。在整個 4.5 年期間,提交量一直在穩步增加。數據來源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
然而,圖 13.1 與第 12 章中討論的散點圖之間存在重要差異。在圖 13.1 中,點沿著 *x* 軸均勻分布,并且它們之間有一個確定的順序。每個點只有一個左邊和一個右邊的鄰居(除了最左邊和最右邊的點,每個點只有一個鄰居)。我們可以通過用直線連接相鄰點來在視覺上強調這個順序(圖 13.2)。這樣的圖被稱為折線圖。

圖 13.2:預印本服務器 bioRxiv 的每月提交量,顯示為由線連接的點。這些線不代表數據,但僅作為眼睛的向導。通過用直線連接各個點,我們強調點之間有一個順序,每個點恰好有一個前面的相鄰點和后面的一個相鄰點。數據來源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
有些人反對在點之間繪制線條,因為線條不代表觀察到的數據。特別是,如果只有很少的觀測值,距離相隔很遠,那么在中間時間進行觀測時,它們可能不會精確地落在所示的線上。因此,在某種意義上,線對應于補充數據。然而,當點間隔很遠或間距不均勻時,它們可能有助于感知。我們可以通過在圖形標題中指出它來解決這個難題,例如通過寫“直線作為眼睛的向導”(參見圖 13.2 的標題)。
然而,使用直線來表示時間序列,并且通常完全省略點,是通常可接受的做法(圖 13.3)。沒有點,該圖更加強調數據的整體趨勢,而不是單個觀測值。沒有點的圖形在視覺上也不那么嘈雜。一般來說,時間序列越密集,用點來表示單個觀測值就越不重要。對于此處顯示的預印本數據集,我認為省略這些點很好。

圖 13.3:預印本服務器 bioRxiv 的每月提交量,顯示為沒有點的折線圖。點的省略強調整體時間趨勢,同時強調特定時間點處的個別觀測值。當時間點的間隔非常密集時,它特別有用。數據來源:Jordan Anaya,[www.prepubmed.org](http://www.prepubmed.org/)
我們也可以用純色填充曲線下區域(圖 13.4 )。這種選擇進一步強調了數據的總體趨勢,因為它在視覺上將曲線上方的區域與下方區域分開。但是,此可視化僅在 *y* 軸從零開始時有效,因此每個時間點處的陰影區域高度表示該時間點的數據值。

圖 13.4:預印本服務器 bioRxiv 的每月提交量,顯示為折線圖和下側填充區域。通過填充曲線下區域,我們更加強調總體時間趨勢,而不是僅僅畫一條線(圖 13.3)。數據來源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
## 13.2 多個時間序列和劑量反應曲線
我們經常有多個時間序列,我們想要一次顯示它們。在這種情況下,我們必須更加謹慎地繪制數據,因為圖形可能會變得混亂或難以閱讀。例如,如果我們想要顯示每月向多個預印本服務器提交的內容,則散點圖不是一個好主意,因為各個時間序列相互碰撞(圖 13.5)。用直線連接點可以緩解這個問題(圖 13.6)。

圖 13.5:生物醫學研究相關的三個預印本服務器的每月提交量:bioRxiv,arXiv 的 q-bio 部分和 PeerJ Preprints。每個點代表一個月內相應預印本服務器的提交數量。這個圖形被標記為“不好”,因為這三個時間序列在視覺上相互干擾并且難以閱讀。數據來源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)

圖 13.6:生物醫學研究相關的三個預印本服務器的每月提交量。通過使用線連接圖 13.5 中的點,我們幫助觀眾跟蹤每個時間序列。數據來源:Jordan Anaya,[prepubmed.org](http://www.prepubmed.org/)
圖 13.6 表示預印本數據集的可接受的可視化。但是,單獨的圖例會產生不必要的認知負擔。我們可以通過直接標記線條來減少這種認知負擔(圖 13.7 )。我們還消除了該圖中的各個點,結果比原始起點圖 13.5 更加流暢和易讀。

圖 13.7:生物醫學研究相關的三個預印本服務器的每月提交量。通過直接標記線條而不是提供圖例,我們減少了讀取圖形所需的認知負擔。消除圖例消除了對不同形狀點的需求。因此,我們可以通過消除點來進一步簡化圖形。數據來源:Jordan Anaya, [www.prepubmed.org](http://www.prepubmed.org/)
折線圖不限于時間序列。只要數據點具有自然順序,由沿 *x* 軸顯示的變量反映,它們就是合適的,因此相鄰點可以用線連接。例如,這種情況在劑量 - 反應曲線中出現,我們測量改變實驗中的一些數值參數(劑量),如何影響感興趣的結果(響應)。圖 13.8 顯示了這種類型的經典實驗,根據增加的受精量來測量燕麥產量。折線圖可視化突出了對于所考慮的三種燕麥品種,劑量 - 響應曲線如何具有相似的形狀,但在沒有受精的情況下起點不同(即一些品種具有比其他品種更高的產量)。

圖 13.8:劑量 - 反應曲線顯示了糞肥施肥后燕麥品種的平均產量。有了糞肥作為氮源,燕麥產量通常隨著氮的增加而增加,無論品種是什么。這里,糞肥施用量以英擔(cwt)計。英擔是一個舊的英制單位,等于 112 磅或 50.8 千克。數據源:Yates(1935)
## 13.3 兩個或多個響應變量的時間序列
在前面的例子中,我們只處理了一個響應變量的時間過程(例如,每月的預印本提交量或燕麥產量)。但是,擁有多個響應變量并不罕見。這種情況通常出現在宏觀經濟學中。例如,我們可能對過去 12 個月房價的變化感興趣,因為它與失業率有關。我們可以預期,當失業率較低時房價會上漲,反之亦然。
鑒于前面小節中的工具,我們可以將這些數據可視化為兩個相互疊加的獨立折線圖(圖 13.9 )。該圖直接顯示了兩個感興趣的變量,并且可以直接解釋。但是,因為這兩個變量顯示為單獨的折線圖,所以它們之間的繪圖比較可能很麻煩。在兩個變量在相同或相反的方向上移動時,如果我們想要識別時間區域,我們需要在兩個圖形之間來回切換并比較兩條曲線的相對斜率。

圖 13.9:2001 年 1 月至 2017 年 12 月房價(a)和失業率(b)12 個月的隨時間的變化。數據來源:美國勞工統計局 Freddie Mac 房價指數。
作為顯示兩個單獨的折線圖的替代方法,我們可以將兩個變量相互繪制,繪制從最早的時間點到最晚的時間點的路徑(圖 13.10)。這種可視化被稱為連通散點圖,因為我們在技術上在匯智兩個變量間的散點圖,然后連接相鄰點。物理學家和工程師經常將其稱為相位圖,因為在他們的學科中,它通常用于表示相位空間中的運動。我們之前在第三章中遇到了連通散點圖,其中我們繪制了休斯頓,TX 的日常溫度法線,與加利福尼亞州圣地亞哥的日常溫度法線(圖 3.3)。

圖 13.10:2001 年 1 月至 2017 年 12 月房價與失業率的 12 個月變化,顯示為連通散點圖。較暗的色調代表最近幾個月。圖 13.9 中看到的房價和失業率之間的負相關,導致連通散點圖形成兩個逆時針圓。數據來源:美國勞工統計局 Freddie Mac 房價指數。原始圖概念:Len Kiefer
在連通散點圖中,從左下角到右上角的方向上的線表示兩個變量之間的相關運動(當一個變量增長時,另一個變量增長),并且從左上角到右下方沿垂直方向的線,表示負相關運動(隨著一個變量增長,另一個變量收縮)。如果兩個變量具有某種循環關系,我們將在連通散點圖中看到圓或螺旋。在圖 13.10 中,我們看到 2001 年至 2005 年的一個小圓圈和剩余時間過程的一個大圓圈。
繪制連通散點圖時,重要的是我們指明數據的方向和時間刻度。如果沒有這樣的提示,繪圖可能變成毫無意義的涂鴉(圖 13.11)。(在圖 13.10 中)我在這里使用逐漸變暗的顏色來指示方向。或者,可以沿著路徑繪制箭頭。

圖 13.11:從 2001 年 1 月到 2017 年 12 月,房價與失業率的 12 個月變化。這個繪圖被標記為“不好”,因為沒有圖 13.10 的日期標記和顏色漸變,我們既看不到數據的方向也看不到數據變化速度。數據來源:美國勞工統計局 Freddie Mac 價格指數。
使用連通散點圖或兩個單獨的折線圖哪個更好?單獨的折線圖往往更容易閱讀,但是一旦人們習慣連通散點圖,他們就可以提取某些模式(例如具有一些不規則性的循環行為),這些模式很難在折線圖中找到。事實上,對我來說,房價變化和失業率之間的周期性關系很難在圖 13.9 中看到,但圖 13.10 中的逆時針螺旋清楚地表明了這一點。研究報告說,讀者更容易混淆連通散點圖,而不是折線圖中的順序和方向,并且不太可能看出相關性(Haroz,Kosara 和 Franconeri 2016)。另一方面,連通散點圖似乎導致更高的參與度,因此這些圖可能是吸引讀者進入故事的有效工具(Haroz,Kosara 和 Franconeri 2016)。
即使連通散點圖一次只能顯示兩個變量,我們也可以使用它們來可視化更高維的數據集。技巧是首先應用降維(見第 12 章)。然后,我們可以在低維空間中繪制連通散點圖。作為這種方法的一個例子,我們將可視化由圣路易斯聯邦儲備銀行提供的 100 多個宏觀經濟指標的月度觀測值的數據庫。我們對所有指標進行主成分分析(PCA),然后繪制 PC2 與 PC1(圖 13.12a),以及 PC2 與 PC3(圖 13.12b)的連通散點圖。

圖 13.12:將高維時間序列可視化為主成分空間中的連通散點圖。該繪圖展示了 1990 年 1 月至 2017 年 12 月期間的 100 多個宏觀經濟指標的聯合運動。經濟衰退和復蘇的時間以顏色表示,三次經濟衰退的終點(1991 年 3 月,2001 年 11 月和 2009 年 6 月)也被標記。(a)PC2 與 PC1,(b)PC2 與 PC3。數據來源:M. W. McCracken,St. Louis Fed
值得注意的是,圖 13.12a 看起來幾乎像一個常規折線圖,時間從左到右遞增。這種模式是由 PCA 的一個共同特征引起的:第一個成分通常測量系統的總體規模。在這里,PC1 大致衡量經濟的總體規模,這種規模很少隨著時間的推移而減少。
通過按照衰退和復蘇時間,對連通散點圖進行著色,我們可以看到衰退與 PC2 下降有關,而復蘇與 PC1 或 PC2 中的明顯特征無關(圖 13.12a)。然而,復蘇似乎與 PC3 的下降相對應(圖 13.12b)。此外,在 PC2 與 PC3 的圖中,我們看到該線遵循順時針螺旋的形狀。這種模式突出了經濟的周期性,經濟復蘇后出現衰退,反之亦然。
### 參考
```
Yates, F. 1935. “Complex Experiments.” Supplement to the Journal of the Royal Statistical Society 2: 181–247. doi:10.2307/2983638.
Haroz, S., R. Kosara, and S. Franconeri. 2016. “The Connected Scatterplot for Presenting Paired Time Series.” IEEE Transactions on Visualization and Computer Graphics 22: 2174–86. doi:10.1109/TVCG.2015.2502587.
```
- 數據可視化的基礎知識
- 歡迎
- 前言
- 1 簡介
- 2 可視化數據:將數據映射到美學上
- 3 坐標系和軸
- 4 顏色刻度
- 5 可視化的目錄
- 6 可視化數量
- 7 可視化分布:直方圖和密度圖
- 8 可視化分布:經驗累積分布函數和 q-q 圖
- 9 一次可視化多個分布
- 10 可視化比例
- 11 可視化嵌套比例
- 12 可視化兩個或多個定量變量之間的關聯
- 13 可視化自變量的時間序列和其他函數
- 14 可視化趨勢
- 15 可視化地理空間數據
- 16 可視化不確定性
- 17 比例墨水原理
- 18 處理重疊點
- 19 顏色使用的常見缺陷
- 20 冗余編碼
- 21 多面板圖形
- 22 標題,說明和表格
- 23 平衡數據和上下文
- 24 使用較大的軸標簽
- 25 避免線條圖
- 26 不要走向 3D
- 27 了解最常用的圖像文件格式
- 28 選擇合適的可視化軟件
- 29 講述一個故事并提出一個觀點
- 30 帶注解的參考書目
- 技術注解
- 參考