21 多面板圖形 · 數據可視化的基礎知識

# 21 多面板圖形 > 原文： [21 Multi-panel figures](https://serialmentor.com/dataviz/multi-panel-figures.html) > 校驗：[飛龍](https://github.com/wizardforcel) > 自豪地采用[谷歌翻譯](https://translate.google.cn/) 當數據集變得龐大且復雜時，它們通常包含的信息，比單個圖形面板中合理顯示的信息要多得多。要可視化此類數據集，創建多面板圖形會很有幫助。這些是由多個圖形面板組成的圖形，其中每個圖形面板顯示數據的一些子集。這些圖形有兩種截然不同的類別：1）小型多圖是由多個面板組成的圖，它們以規則網格排列。每個面板顯示數據的不同子集，但所有面板使用相同類型的可視化。 2）復合圖包括以任意排列（可能是或可能不是基于網格）組成的單獨的圖形面板，并且顯示完全不同的可視化，甚至可能不同的數據集。在本書的許多地方，我們遇到過兩種類型的多面板圖形。通常，這些圖形直觀且易于理解。但是，在制作這些圖形時，我們需要注意一些問題，例如適當的軸縮放，對齊以及單個面板之間的一致性。 ## 21.1 小型多圖（Small Multiple）術語“小型多圖”由 Tufte（1990）推廣。貝爾實驗室的 Cleveland，Becker 及其同事（WS Cleveland 1993；Becker，Cleveland 和 Shyu 1996）同時推廣了另一個術語“格子圖”。無論術語如何，關鍵思想是根據一個或多個數據維度將數據切片為部分，分別可視化每個數據切片，然后將各個可視化排列成網格。網格中的列，行或單個面板由定義數據切片的數據維度的值標記。最近，這種技術有時也稱為“切面”，以在廣泛使用的 ggplot2 繪圖庫中創建此類繪圖的方法命名（例如，`facet_grid()`，參見 Wickham（2016））。作為第一個例子，我們將這種技術應用于泰坦尼克號乘客的數據集。我們可以根據每位乘客所乘坐的艙位，以及乘客是否幸存來細分該數據集。在這六個數據片段中的每一個中，都有男性和女性乘客，我們可以使用條形圖來顯示他們的數字。結果是六個條形圖，我們排列成兩列（一個用于死亡乘客，一個用于幸存者）三行（每個艙位一個）（圖 21.1 ）。標記列和行，因此可以立即清楚六個圖中的哪一個對應于生存狀態和類別的哪個組合。 ![](https://img.kancloud.cn/11/33/11336d141986b258ead7e086c94ed9e6_960x720.jpg) 圖 21.1：按性別，生存狀態和他們乘坐的艙位（第 1，第 2 或第 3）劃分的泰坦尼克號乘客。這種可視化為泰坦尼克號乘客的命運提供了直觀且高度可解釋的可視化。我們清楚地看到，大多數男性死亡，大多數女性幸存。此外，幾乎所有死亡的女性都乘坐三等艙。小型多圖是一次可視化大量數據的強大工具。圖 21.1 使用六個獨立的面板，但我們可以使用更多。圖 21.2 顯示了互聯網電影數據庫（IMDB）上電影的平均評級與電影收到的投票數之間的關系，分別針對 100 年時間內發布的電影。在這里，數據集僅按一個維度，年份進行切片，每年的面板從左上角到右下角按行排列。該可視化顯示平均評級和投票數之間存在總體關系，具有更多投票的電影傾向于具有更高的評級。然而，這種趨勢的強度隨著年份而變化，對于 21 世紀初期發行的電影來說，沒有任何關系，甚至是負面關系。 ![](https://img.kancloud.cn/80/4c/804cc127f6022ad923e6af8efc1d7d03_1508x1508.jpg) 圖 21.2：從 1906 年到 2005 年的電影的平均評級與投票數。點表示單個電影，線表示每部電影的平均評級與電影收到的投票數的對數的線性回歸。在大多數年份中，具有較高票數的電影平均具有較高的平均評級。然而，這種趨勢在 20 世紀末已經趨于衰弱，并且在 21 世紀初發布的電影中可以看到負面關系。數據來源：互聯網電影數據庫（IMDB，[imdb.com](http://imdb.com/)）為了使這些大圖易于理解，重要的是每個面板使用相同的軸范圍和刻度。人類心理預計會出現這種情況。如果不是，那么讀者很可能會錯誤地解釋圖中顯示的內容。例如，考慮圖 21.3，介紹了不同學位領域的學士學位比例隨時間的變化情況。該圖顯示了 1971 年至 2015 年間的九個學位領域，平均占所有學位的 4% 以上。面板的 *y* 軸被縮放，使得每個學位領域的曲線覆蓋整個 *y* 軸范圍。因此，對圖 21.3 的粗略檢查表明，九個學位領域都同樣受歡迎，并且在受歡迎程度上都經歷了相似幅度的變化。 ![](https://img.kancloud.cn/f9/d0/f9d04e771145ffbc9ae9700a8c7c7f1c_1508x1206.jpg) 圖 21.3：美國高等教育機構授予的學士學位趨勢。顯示的是所有學位領域，平均占所有學位的 4% 以上。該圖標記為“不好”，因為所有面板使用不同的 *y* 軸范圍。這種選擇模糊了不同學位領域的相對大小，并且過度夸大了某些學位領域的變化。數據來源：國家教育統計中心然而，將所有面板放置在相同的 *y* 軸上，顯示出這種解釋具有高度誤導性（圖 21.4 ）。某些學位領域比其他領域更受歡迎，同樣一些領域比其他領域增長或縮小更多。例如，教育學已經下降很多，而視覺和表演藝術幾乎保持不變或者可能略有增加。 ![](https://img.kancloud.cn/d0/3e/d03e41ddc7539e17e9fda1fd32fec46b_1508x1206.jpg) 圖 21.4：美國高等教育機構授予的學士學位趨勢。顯示的是所有學位領域，平均占所有學位的 4% 以上。數據來源：國家教育統計中心我通常建議不要在小型多圖的單個面板中使用不同的軸刻度。但是，有時，這個問題確實是無法避免的。如果遇到這種情況，那么我認為至少你需要在圖標題中讓讀者注意這個問題。例如，您可以添加一個句子，例如：“請注意， *y* 軸的刻度在此圖的不同面板之間有所不同”。在小型多圖中考慮單個面板的順序也很重要。如果順序遵循一些邏輯原則，則該圖將更容易解釋。在圖 21.1 中，我從最艙位（一等）到最艙位（三行）排列了行。在圖 21.2 中，我通過從左上角到右下角按照遞增年份來排列面板。在圖 21.4 中，我通過遞減的學位平均受歡迎程度來排列面板，使得最受歡迎的學位位于最上面一行和/或左邊，最不受歡迎的學位位于最下面一行和/或在右邊。始終按照有意義的邏輯順序將面板排列在一個小型多圖中。 ## 21.2 復合圖并非每個具有多個面板的圖形都符合小型多圖的模式。有時我們只是想將幾個獨立的面板組合成一個復合圖，傳達一個總體點。在這種情況下，我們可以采用不同的繪圖并按行，列或其他更復雜的方式排列它們，并將整個排列看作一個圖形。例如，見圖 21.5 ，它繼續分析美國高等教育機構授予的學士學位的趨勢。圖 21.5 的面板（a）顯示了從 1971 年到 2015 年授予的學位總數的增長，在此期間，授予的學位數大約翻了一番。面板（b）顯示了同一時期五個最受歡迎學位領域的所授予學位的百分比變化。我們可以看到社會科學，歷史和教育從 1971 年到 2015 年經歷了大幅下降，而商業和健康專業則出現了大幅增長。請注意，在我的小型多圖示例中，復合圖形的各個面板按字母順序標記。通常使用拉丁字母表中的大寫或小寫字母。需要標簽來唯一地指定特定面板。例如，當我想談談圖 21.5 的一部分，它顯示所授予學位的百分比變化時，我可以引用該圖的圖（b）或簡單地引用圖 21.5b。如果沒有標簽，我將不得不笨拙地談論圖 21.5 的“右側面板”或“左側面板”，并且對于更復雜的面板布局而言，提及特定面板會更加笨拙。小型多圖不需要標記，或者通常不會對小型多圖進行標記，因為每個面板都由切面變量唯一指定，它作為圖形標簽而提供。 ![](https://img.kancloud.cn/55/b4/55b49db3b1af0c00ada010dfb07f3ec0_1508x603.jpg) 圖 21.5：美國高等教育機構授予的學士學位的趨勢。（a）從 1970 年到 2015 年，學位總數幾乎翻了一番。（b）在最受歡迎的學位領域中，社會科學，歷史和教育經歷了大幅下降，而商業和健康專業則有所增長。數據來源：國家教育統計中心標記復合圖形的不同面板時，請注意標簽如何適合整體圖形設計。我經常看到這樣的圖形，標簽看起來就像是由另一個人放在上面。并不罕見的是，標簽制作得過于龐大和突出，放置在一個尷尬的位置，或者以與圖中其他部分不同的字體排版。（參見圖 21.6 的例子。）當你看一個復合圖時，標簽不應該是你看到的第一件事。事實上，他們根本不需要脫穎而出。我們通常知道哪個圖形面板具有哪個標簽，因為約定是從左上角的“a”開始，標簽從左到右，從上到下連續。我認為這些標簽等同于頁碼。您通常不會閱讀頁碼，并且哪個頁面具有哪個號碼是毫無疑問的，但有時使用頁碼來引用書籍或文章中的特定位置會很有幫助。 ![](https://img.kancloud.cn/75/19/75198f3b2234ac8d963011616cdb7be5_1508x603.jpg) 圖 21.6：標記為“不好”的圖 21.5 的變體。標簽太大而且很厚，它們的字體不對，而且它們位于一個尷尬的位置。此外，雖然用大寫字母標記很好并且實際上很常見，但標簽需要在文檔中的所有圖形中保持一致。在本書中，慣例是多面板圖形使用較小的小寫標簽，因此這個圖形與本書中的其他圖形不一致。我們還需要注意復合圖形的各個面板如何組合在一起。可以制作一組圖形面板，它們各自都很好，但是不能共同工作。特別是，我們需要采用一致的視覺語言。 “視覺語言”是指我們用來顯示數據的顏色，符號，字體等。簡而言之，保持語言的一致性意味著相同的事物在數字上看起來相同或至少基本相似。讓我們看一個違反這一原則的例子。圖 21.7 是一個三面板圖，可視化男性和女性運動員的生理和身體成分的數據集。面板（a）顯示數據集中的男性和女性數量，面板（b）顯示男性和女性的紅細胞和白細胞計數，面板（c）顯示男性和女性的體脂百分比，按照運動細分。每個面板都是可接受的圖形。但是，三個面板組合起來不起作用，因為它們不共享共同的視覺語言。首先，面板（a）對男性和女性運動員使用相同的藍色，面板（b）僅用于男性運動員，面板（c）用于女運動員。此外，面板（b）和（c）引入了額外的顏色，但這兩個面板之間的顏色不同。最好是為男性和女性運動員使用相同的兩種顏色，并將相同的著色方案應用于面板（a）。其次，在圖（a）和（b）中，女性在左側，男性在右側，但在圖（c）中，順序是相反的。應切換面板（c）中的箱形圖順序，使其與面板（a）和（b）相匹配。 ![](https://img.kancloud.cn/da/f1/daf1e11c143a779692451d176234bd29_1371x1028.jpg) 圖 21.7：男性和女性運動員的生理和身體組成。（a）數據集包括 73 名女性和 85 名男性職業運動員。（b）與女性運動員相比，男性運動員往往有較高的紅細胞計數（以每升 10^12 個為單位），但白細胞計數沒有這種差異（WBC，以每升 10^9 為單位）。（c）男性運動員的體脂百分比，往往低于在同一運動中參賽的女運動員。數據來源：Telford 和 Cunningham（1991）圖 21.8 解決了所有這些問題。在這個圖中，女性運動員一直以橙色顯示，并且男性運動員在左側顯示為藍色。請注意，閱讀此圖比圖 21.7 更容易。當我們使用一致的視覺語言時，確定不同面板中哪些視覺元素代表女性和哪些男性，并不需要花費太多精力。另一方面，圖 21.7 可能非常令人困惑。特別是，一目了然，它可能會產生一種印象，即男性的體脂百分比往往高于女性。另請注意，我們在圖 21.8 中只需要單個圖例，但在圖 21.7 中需要兩個。由于視覺語言是一致的，因此相同的圖例適用于面板（b）和（c）。 ![](https://img.kancloud.cn/a1/8f/a18f327f989aaeb7a3e2dd2d3c91be00_1371x1028.jpg) 圖 21.8：男性和女性運動員的生理和身體組成。該圖顯示的數據與圖 21.7 完全相同，但現在使用的是一致的視覺語言。女性運動員的數據總是顯示在男性運動員的相應數據的左側，并且性別在圖的所有元素中始終采用顏色編碼。數據來源：Telford 和 Cunningham（1991）最后，我們需要注意復合圖中各個圖形面板的對齊。各個面板的軸和其他圖形元素應全部彼此對齊。使對齊正確可能非常棘手，特別是如果單獨的面板可能由不同的人和/或在不同的程序中單獨制作，然后在圖像處理程序中粘貼在一起。為了引起你對這種對齊問題的注意，圖 21.9 顯示了圖 21.8 的變體，現在所有的圖形元素都略微不對齊。我已經在圖 21.9 的所有面板上添加了軸線，來強調這些對齊問題。請注意，圖中任何一個面板的軸線都沒有與其他軸線對齊。 ![](https://img.kancloud.cn/b1/38/b13897fae0e177a8e59327e469aa1d7d_1371x1028.jpg) 圖 21.9：圖 21.8 的變體，其中所有圖形面板略微未對齊。不對齊是丑陋的，應該避免。 ### 參考 ``` Tufte, E. R. 1990. Envisioning Information. Cheshire, Connecticut: Graphics Press. Cleveland, W. 1993. “Visualizing Data.” Summit, New Jersey: Hobart Press. Becker, R. A., W. S. Cleveland, and M.-J. Shyu. 1996. “The Visual Design and Control of Trellis Display.” Journal of Computational and Graphical Statistics 5: 123–55. Wickham, H. 2016. ggplot2: Elegant Graphics for Data Analysis. 2nd ed. New York: Springer. Telford, R. D., and R. B. Cunningham. 1991. “Sex, Sport, and Body-Size Dependency of Hematology in Highly Trained Athletes.” Medicine and Science in Sports and Exercise 23: 788–94. ```