11 可視化嵌套比例 · 數據可視化的基礎知識

# 11 可視化嵌套比例 > 原文： [11 Visualizing nested proportions](https://serialmentor.com/dataviz/nested-proportions.html) > 校驗：[飛龍](https://github.com/wizardforcel) > 自豪地采用[谷歌翻譯](https://translate.google.cn/) 在前一章中，我討論了一個方案，將數據集分解為由一個類別變量定義的片段，例如政黨，公司或健康狀況。然而，我們想要深入探索，并一次按多個類別變量分解數據集，這并不罕見。例如，就議會席位而言，我們可能會對按照代表的黨派和性別劃分的席位比例感興趣。同樣，對于人們的健康狀況，我們可以詢問健康狀況如何進一步影響婚姻狀況。我將這些場景稱為嵌套比例，因為我們添加的每個附加類別變量，都會創建一個更精細的嵌套在先前比例中的數據細分。有幾種合適的方法可視化這種嵌套比例，包括馬賽克圖，樹形圖和平行集。 ## 11.1 嵌套比例產生了錯誤我將首先展示兩種有缺陷的嵌套比例可視化方法。雖然這些方法對于任何有經驗的數據科學家來說都是荒謬的，但我已經在現實中看到它們，因此認為它們值得討論。在本章中，我將使用匹茲堡 106 座橋梁的數據集。該數據集包含橋梁的各種信息，例如構造它們的材料（鋼，鐵或木材）以及它們建成的年份。根據建成年份，橋梁被分為不同的類別，例如 1870 年之前建造的手工橋梁和 1940 年后建造的現代橋梁。讓我們假設，我們希望可視化由鋼，鐵或木材制成的橋梁比例，以及手工或現代的比例。我們可能想通過繪制組合餅圖來做到這一點（圖 11.1 ）。但是，此可視化無效。餅圖中的所有切片必須加起來為 100%，此處切片的總和達到 135%。我們的總百分比超過 100% ，因為我們正在重復計算橋梁。數據集中的每個橋梁都由鋼，鐵或木材制成，因此這三個切片已經表示 100% 的橋梁。每個手工或現代橋梁也是鋼橋，鐵橋或木橋，因此在餅圖中計算兩次。 ![](https://img.kancloud.cn/75/51/7551c0b8aba5c8cebebf5e12dc22a347_960x672.jpg) 圖 11.1：匹茲堡的橋梁，按照建筑材料（鋼，木材，鐵）和建造日期（手工，1870 年之前，現代，1940 年之后）劃分，以餅圖展示。數字代表所有橋梁中給定類型的橋梁的百分比。此圖形無效，因為百分比加起來超過 100%。建筑材料與施工日期之間存在重疊。例如，所有現代橋梁均由鋼制成，大多數手工橋梁由木材制成。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）如果我們選擇不要求比例加起來是 100% 的可視化，則重復計算不一定是個問題。如前一章所述，并排條形符合此標準。我們可以在一個圖中將不同比例的橋梁顯示為條形圖，這個圖在技術上不是錯誤的（圖 11.2）。盡管如此，我還是將其標記為“不好”，因為它并未立即顯示某些類別之間存在重疊。一個不經意的觀察者可能從圖 11.2 得出結論，有五種不同類型的橋梁，例如，現代橋梁既不是由鋼制成，也不是由木頭或鐵制成。 ![](https://img.kancloud.cn/8d/e0/8de0af943b18d8cc413c77257cef645b_1152x711.jpg) 圖 11.2：匹茲堡的橋梁，按照建筑材料（鋼，木材，鐵）和施工日期（手工，1870 年之前，現代，1940 年之后）劃分，顯示為條形圖。與圖 11.1 不同，這種可視化在技術上并不是錯誤的，因為它并不意味著條形高度需要加起來達到 100%。但是，它也沒有明確表明不同分組之間的重疊，因此我將其標記為“不好”。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017） ## 11.2 馬賽克圖和樹形圖每當我們有重疊的類別時，最好清楚地顯示它們之間的相互關系。這可以用馬賽克圖完成（圖 11.3）。乍一看，馬賽克圖看起來類似于堆疊條形圖（例如，圖 10.5）。然而，與堆疊條形圖不同，在馬賽克圖中，各個陰影區域的高度和寬度都不同。請注意，在圖 11.3 中，我們看到兩個額外的建造時代，新興（從 1870 年到 1889 年）和成熟（1890 年至 1939 年）。結合手工和現代，這些建造時代涵蓋了數據集中的所有橋梁，三種建筑材料也是如此。這是馬賽克圖的關鍵條件：顯示的每個類別變量必須涵蓋數據集中的所有觀測值。 ![](https://img.kancloud.cn/66/6a/666ade7031df4133e78a0a820d061ba2_1152x711.jpg) 圖 11.3：匹茲堡的橋梁，由建筑材料（鋼，木材，鐵）和建造時代（手工，新興，成熟，現代）劃分，顯示為馬賽克圖。每個矩形的寬度與那個時代建造的橋梁的數量成比例，并且高度與使用該材料構造的橋梁的數量成比例。數字代表每個類別中的橋梁數量。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）為了繪制馬賽克圖，我們首先在 *x* 軸上放置一個類別變量（這里是橋梁的建造時代），并按照該類別的相對比例細分 *x* 軸。然后我們將另一個類別變量沿著 *y* 軸（這里是建筑材料）放置，并且在 *x* 軸的每個類別中，按照 *y* 變量（類別）的相對比例將 *y* 軸細分。結果是一組矩形，其面積與情況數量成比例，它們表示兩個類別變量的每個可能的組合。橋梁數據集也可以以相關但不同的格式可視化，稱為樹形圖。在樹形圖中，就像馬賽克圖中的情況一樣，我們采用一個封閉的矩形并將其細分為較小的矩形，其面積代表比例。然而，與馬賽克圖相比，將較小矩形放入較大矩形的方法是不同的。在樹形圖中，我們以遞歸方式將矩形嵌套在彼此內部。例如，在匹茲堡橋梁的情況下，我們可以首先將總區域細分為三個部分，代表三種建筑材料，木材、鐵和鋼。然后，我們進一步細分每個區域，以代表每種建筑材料所代表的建造時代（圖 11.4 ）。原則上，我們可以繼續在彼此內部嵌套更小的細分，但結果相對很快將變得笨拙或混亂。 ![](https://img.kancloud.cn/9e/75/9e75a2ed320d2ca85979b37466689c76_1152x864.jpg) 圖 11.4：匹茲堡的橋梁，由建筑材料（鋼，木材，鐵）和建造時代（手工，新興，成熟，現代）劃分，顯示為樹形圖。每個矩形的面積與該類型的橋梁數量成比例。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）雖然馬賽克圖和樹形圖密切相關，但它們具有不同的重點和不同的應用領域。在這里，馬賽克圖（圖 11.3）強調從手工時代到現代時期，建筑材料使用的時間演變，而樹形圖（圖 11.4 ）強調鋼橋，木橋和鐵橋的總數。更一般地，馬賽克圖假設，所示的所有比例可以通過兩個或更多個類別變量的正交組合來確定。例如，在圖 11.3 中，每個橋梁都可以通過選擇建筑材料（木材，鐵，鋼）和時代（手工，新興，成熟，現代）來描述。而且，原則上這兩個變量的每個組合都是可能的，即使在實踐中不一定是這種情況。（這里沒有鋼質手工橋梁，也沒有木質或鐵質的現代橋梁。）相比之下，樹形圖不存在這樣的要求。實際上，當通過組合多個類別變量無法有意義地描述比例時，樹形圖往往能夠工作得很好。例如，我們可以將美國分為四個區域（西部，東北部，中西部和南部），每個區域分為不同的州，但一個地區的州與另一個地區的州沒有關系（圖 11.5）。 ![](https://img.kancloud.cn/18/13/18131eb6b78f7ff26556010bd1a42340_1508x932.jpg) 圖 11.5：美國的州，可視化為樹形圖。每個矩形代表一個州，每個矩形的面積與狀態的地表面積成比例。這些州分為四個地區，西部，東北部，中西部和南部。顏色與每個州的居民數量成比例，較暗的顏色代表較大數量的居民。數據來源：2010 年美國人口普查馬賽克圖和樹形圖都是常用的并且可以是啟發性的，但是它們具有與堆疊條形相似的限制（10.1 節）：條件之間的直接比較可能是困難的，因為不同的矩形不一定為視覺比較共享基線。在馬賽克圖或樹形圖中，由于不同矩形的形狀可以變化，這個問題更加嚴重。例如，在新興橋梁和成熟橋梁之間存在相同數量的鐵橋（三個），但這在馬賽克圖中很難辨別（圖 11.3），因為代表三個橋梁的這兩組的這兩個矩形，具有完全不同的形狀。沒有必要解決這個問題 - 可視化嵌套比例可能很棘手。只要有可能，我建議在圖上顯示實際的計數或百分比，以便讀者可以驗證，它們對陰影區域的直觀解釋是否正確。 ## 11.3 嵌套餅圖在本章的開頭，我用一個有缺陷的餅圖（圖 11.1）可視化橋梁數據集，然后我認為馬賽克圖或樹形圖更合適。但是，后兩種繪圖類型都與餅圖密切相關，因為它們都使用面積來表示數據值。主要區別在于坐標系的類型，在餅圖的情況下為極坐標，在馬賽克圖或樹形圖的情況下為笛卡爾坐標。這些不同圖之間的這種緊密關系引發了一個問題，即餅圖的某些變體是否可用于可視化此數據集。有兩種可能性。首先，我們可以繪制一個由內圓和外圓組成的餅圖（圖 11.6 ）。內圓用一個變量（這里是建筑材料）顯示數據的細分，外圓用第二個變量（這里是橋梁的建造時代）顯示內圓的每個切片的細分。這種可視化是合理的，但我有我的保留意見，因此我將其標記為“丑陋”。最重要的是，兩個獨立的圓圈模糊了數據集中的每個橋都具有建筑材料和建造時代的事實。實際上，在圖 11.6 中，我們仍在對每個橋進行重復計算。如果我們將兩個圓中顯示的所有數字相加，我們得到 212，這是數據集中橋梁數量的兩倍。 ![](https://img.kancloud.cn/bd/1d/bd1dd796268ffef14a70daa7f169aab7_1152x864.jpg) 圖 11.6：匹茲堡的橋梁，由建筑材料（鋼，木，鐵，內圓）和建造時代（手工，新興，成熟，現代，外圓）劃分。數字代表每個類別中的橋梁數量。數據來源：Yoram Reich 和 Steven J. Fenves， UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）或者，我們可以首先根據一個變量（例如材料）將餅切成表示比例的片段，然后根據另一個變量（構造時代）進一步細分這些切片（圖 11.7 ）。通過這種方式，實際上我們正在制作一個包含大量小餅圖的普通餅圖。但是，我們可以使用顏色來指示餅圖的嵌套特性。在圖 11.7 中，綠色代表木橋，橙色代表鐵橋，藍色代表鋼橋。每種顏色的黑暗代表建造時代，較暗的顏色對應于最近建造的橋梁。通過以這種方式使用嵌套顏色刻度，我們可以通過主要變量（建筑材料）和次要變量（建造時代）可視化數據的細分。 ![](https://img.kancloud.cn/a8/71/a871014f6459f8363011b7258882fdb6_1152x864.jpg) 圖 11.7：匹茲堡的橋梁，由建筑材料（鋼，木材，鐵）和建造時代（手工，新興，成熟，現代）拆分。數字代表每個類別中的橋梁數量。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）圖 11.7 的餅圖形示橋梁數據集的合理可視化，但是與等效樹形圖直接相比（圖 11.4 ），我認為樹形圖是更可取的。首先，樹形圖的矩形形狀允許它更好地利用可用空間。圖 11.4 和 11.7 具有完全相同的大小，但在圖 11.7 中，大部分圖由于空白區域被浪費了。圖 11.4 ，樹形圖，幾乎沒有多余的空白區域。這很重要，因為它使我能夠將標簽放在樹形圖中的陰影區域內。內部標簽總是使用數據創建比外部標簽更強的可視單元，因此是首選。其次，圖 11.7 中的一些切片非常薄，因此很難看到。相比之下，圖 11.4 中的每個矩形都具有合理的尺寸。 ## 11.4 平行集當我們想要顯示由兩個以上類別變量描述的比例時，馬賽克圖，樹形圖和餅圖都會很快變得難以處理。在這種情況下，可行的替代方案可以是平行集圖。在平行集圖中，我們展示了總數據集如何按每個單獨的類別變量分解，然后我們繪制陰影帶，顯示子組如何相互關聯。對于示例，請參見圖 11.8 。在這個圖中，我用建筑材料（鐵，鋼，木材），每個橋梁的長度（長，中，短），每個橋梁的建造時代（手工，新興，成熟，現代），每座橋跨越河流（Allegheny，Monongahela，Ohio）分解橋梁數據集。連接平行集的條帶由建筑材料著色。例如，這表明木橋大部分中等長度（有一些短橋），主要是在手工期間建造（在新興和成熟期間建造了一些中等長度的橋梁），并主要跨越 Allegheny 河（有一些跨越 Monongahela 河的手工橋梁）。相比之下，鐵橋的長度都是中等長度，主要是在手工時期建造起來的，等比例跨越 Allegheny 河和 Monongahela 河。 ![](https://img.kancloud.cn/bd/f6/bdf68faaf3755650c8a0cf158a8e6056_1371x847.jpg) 圖 11.8：匹茲堡的橋梁，由建筑材料，長度，建造時代和它們跨越的河流劃分，顯示為平行集圖。條帶的著色突出了不同橋梁的建筑材料。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）如果我們按照不同的標準著色，例如通過河流（圖 11.9 ），相同的可視化看起來很不一樣。這個圖形在視覺上很嘈雜，有許多縱橫交錯的條帶，但我們確實看到，幾乎所有類型的橋梁都可以跨越每條河流。 ![](https://img.kancloud.cn/8d/26/8d26d8a764caf2b206a5ce6e1a44e608_1371x847.jpg) 圖 11.9：匹茲堡的橋梁，按建筑材料，長度，建造時代和跨越河流劃分。這個圖形類似于圖 11.8 ，但現在條帶的著色突出了不同橋梁跨越的河流。該圖標記為“丑陋”，因為圖中間的彩色條帶的布置非常嘈雜，并且還因為需要從右向左讀取條帶。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017）我將圖 11.9 標記為“丑陋”，因為我覺得它過于復雜和令人困惑。首先，因為我們習慣于從左到右閱讀，所以我認為定義著色的集合應該一直顯示在左邊，而不是右邊。這樣可以更容易地查看著色的起源位置以及它如何在數據集中流動。其次，改變集合的順序是一個好主意，這樣可以最大限度地減少交叉條帶的數量。按照這些原則，我得出圖 11.10 ，我認為它比圖 11.9 更可取。 ![](https://img.kancloud.cn/28/fb/28fba9ce58265b56928fa683a28117d1_1371x847.jpg) 圖 11.10：匹茲堡的橋梁，按照河流，建造時代，長度和建筑材料劃分。該圖與圖 11.9 的不同之處僅在于平行集的順序。但是，修改后的順序會產生更易于閱讀且不太嘈雜的圖形。數據來源：Yoram Reich 和 Steven J. Fenves，UCI 機器學習庫（Dua 和 Karra Taniskidou 2017） ### 參考 ``` Dua, D., and E. Karra Taniskidou. 2017. “UCI Machine Learning Repository.” University of California, Irvine, School of Information; Computer Sciences. https://archive.ics.uci.edu/ml. ```