28 選擇合適的可視化軟件 · 數據可視化的基礎知識

# 28 選擇合適的可視化軟件 > 原文： [28 Choosing the right visualization software](https://serialmentor.com/dataviz/choosing-visualization-software.html) > 校驗：[飛龍](https://github.com/wizardforcel) > 自豪地采用[谷歌翻譯](https://translate.google.cn/) 在本書中，我有目的地避免了數據可視化的一個關鍵問題：我們如何實際生成數據？我們應該使用什么工具？這個問題可以產生激烈的討論，因為許多人對他們熟悉的特定工具有強烈的情感紐帶。我經常看到人們大力捍衛他們自己喜歡的工具，而不是花時間學習新的方法，即使新方法有客觀的好處。我會說堅持使用你知道的工具并非完全不合理。學習任何新工具都需要時間和精力，而且你將不得不經歷一個痛苦的過渡期，使用新工具完成任務比使用舊工具要困難得多。經歷這段時間是否值得付出努力，通常只有在人們投入資金來學習新工具之后才能回顧一下。因此，無論不同工具和方法的優缺點如何，最重要的原則是您需要選擇適合您的工具。你是否能夠制作想要制作的圖形，而不需要過多的努力，是最重要的。最好的可視化軟件是允許您制作所需圖形的軟件。話雖如此，我確實認為我們可以使用一般原則，來評估不同方法產生可視化的相對優點。這些原則大致可分解為可視化的可復現性，快速瀏覽數據的容易程度，以及輸出的視覺外觀可以調整到何種程度。 ## 28.1 可復現性和可重復性在科學實驗的背景下，如果不同的研究小組進行相同類型的研究，且工作的總體科學發現將保持不變，我們將工作稱為可復現的。例如，如果一個研究小組發現一種新的止痛藥可以顯著減輕所感知的頭痛，而不會引起明顯的副作用，并且不同的小組隨后在不同的患者組中研究相同的藥物并且具有相同的發現，那么該工作是可復現的。相反，如果通過在同一設備上重復完全相同的測量程序，同一個人可以獲得非常相似或相同的測量結果，則工作是可重復的。例如，如果我稱量我的狗，并且發現它重 41 磅，然后我在相同的秤上再次稱重它并再次發現它重 41 磅，那么這個測量是可重復的。通過微小的修改，我們可以將這些概念應用于數據可視化。如果繪制的數據可用，并且可能已經應用的任何數據轉換是精確指定的，則可視化是可復現的。例如，如果你制作一個圖形然后向我發送你繪制的確切數據，那么我可以制作一個看起來非常相似的圖形。我們可能使用稍微不同的字體或顏色或點的大小，來顯示相同??的數據，因此這兩個圖形可能不完全相同，但您的和我的圖形傳達相同的信息，因此是彼此的復制品。另一方面，如果可以從原始數據重建完全相同的視覺外觀（直到最后一個像素），則可視化是可重復的。嚴格來說，可重復性要求即使圖中有隨機元素，例如抖動（第 18 章），這些元素也是以可重復的方式指定的，并且可以在將來某一天重新生成。對于隨機數據，可重復性通常要求我們指定一個特定的隨機數發生器，我們為其設置和記錄種子。在本書中，我們已經看到許多數字示例，它們復現但不重復其他圖形。例如，第 25 章顯示了幾組圖，其中每組中的所有圖形顯示相同的數據，但每組中的每個圖形看起來有些不同。類似地，圖 28.1a 是圖 9.7 的重復，包括應用于每個數據點的隨機抖動，而圖 28.1b 只是這個圖形的一個復現。圖 28.1 b 具有與圖 9.7 不同的抖動，并且它還使用了完全不同的視覺設計，即使它們清楚地傳達數據的相同信息，這兩個圖形看起來也非常不同。 ![](https://img.kancloud.cn/4d/99/4d9956522438eb50d513e507f95a537c_1508x482.jpg) 圖 28.1：圖形的重復和復現。部分（a）重復圖 9.7 。兩個圖形相同，包括應用于每個點的隨機抖動。相比之下，部分（b）是復現而不是重復。特別是，部分（b）的抖動與部分（a）或圖 9.7 中的抖動不同。當我們使用交互式繪圖軟件時，很難實現可重復性和可復現性。許多交互式程序允許您轉換或以其他方式操縱數據，但不會跟蹤您執行的每個單獨的數據轉換，而只跟蹤最終產品。如果你使用這種程序制作一個圖形，然后有人要求你復現圖形或用不同的數據集創建類似的圖形，你可能很難這樣做。在我擔任博士后和年輕的助理教授期間，我使用了一個交互式程序來完成我所有的科學可視化，這個確切的問題在我身上發生了好幾次。例如，我為科學手稿制作了幾個圖形。幾個月之后，當我想要修改手稿，并需要復現其中一個圖形的略微修改版本時，我意識到我不太確定我是如何制作原始圖形的。這種經歷教會我盡可能遠離交互程序。我現在以編程方式制作圖形，通過編寫從原始數據生成圖形的代碼（腳本）。任何能夠訪問所使用的生成腳本、編程語言以及特定庫的人，通常都可以重復通過編程生成的圖形。 ## 28.2 數據探索與數據展示數據可視化有兩個不同的階段，它們的要求非常不同。首先是數據探索。每當您開始使用新數據集時，您需要從不同角度查看它，并嘗試各種方式對其進行可視化，以便了解數據集的主要特征。在這個階段，速度和效率至關重要。您需要嘗試不同類型的可視化，不同的數據轉換以及數據的不同子集。您可以越快地遍歷對數據查看的不同方式，您將探索得越多，您注意到數據中您可能忽略的重要特征的可能性就越高。第二階段是數據展示。一旦您了解了數據集，就可以進入它，并了解要向觀眾展示的內容。這一階段的關鍵目標是制作一個高質量，出版物可用的圖形，可以打印在文章或書籍中，包含在演示文稿中，或發布在互聯網上。在探索階段，你制作的圖形是否具有吸引力是次要的。如果缺少軸標簽，圖例混亂或符號太小，只要您可以評估數據中的各種模式，就可以了。然而，重要的是，您可以輕松地更改數據的顯示方式。要真正探索數據，您應該能夠快速從散點圖轉移到重疊的密度分布圖到箱形圖到熱圖。在第二章中，我們討論了所有可視化如何包含從數據到美學的映射。精心設計的數據探索工具，將允許您輕松更改哪些變量映射到哪個美學，并且它將在單個一致框架內，提供各種不同的可視化選項。然而，根據我的經驗，許多可視化工具（特別是用于編程生成圖形的庫）沒有以這種方式建立。相反，它們按照繪圖類型進行組織，其中每種不同類型的繪圖需要稍微不同的輸入數據，并且具有其自己的特殊接口。這些工具可能妨礙高效的數據探索，因為很難記住所有不同的繪圖類型的工作原理。我鼓勵您仔細評估您的可視化軟件是否允許快速數據探索，或者它是否會妨礙您。如果它更頻繁地妨礙，您可能從探索替代可視化選項中受益。一旦我們確定了我們想要可視化數據的確切程度，我們想要進行哪些數據轉換，以及使用什么類型的繪圖，我們通常都希望制作一個高質量的數據用于發布。在這一點上，我們有幾種不同的途徑可以選擇。首先，我們可以使用我們用于初步探索的相同軟件平臺來確定圖形。其次，我們可以將平臺切換到一個可以讓我們更好地控制最終產品的平臺，即使該平臺更難以探索。第三，我們可以使用可視化軟件生成草圖，然后使用圖像處理或插圖程序（如 Photoshop 或 Illustrator）進行手動后處理。第四，我們可以手動重繪整個圖形，使用筆和紙或使用插圖程序。所有這些途徑都是合理的。但是，我想提醒您，不要在常規數據分析流水線或科學出版物中手動修改數據。圖形制作流水線中的手動步驟，使得重復或復現圖形本身是困難且耗時的。根據我從事自然科學的經驗，我們很少只制作圖形一次。在研究過程中，我們可能會重做實驗，擴展原始數據集，或者在稍微改變的條件下重復幾次實驗。我在出版過程的后期已多次看到它，當我們認為一切都已完成并最終確定時，我們最終對我們分析數據的方式進行了一些小修改，因此所有圖形都必須重新繪制。我也看到，在類似的情況下，不重做分析或不重繪圖形的決定，是因為所涉及的努力，或者因為制作原始圖形的人已經搬走或者找不到了。在所有這些場景中，不必要的復雜且不可復現的數據可視化流水線會阻礙最佳科學的產生。話雖如此，我對手工繪制的圖形或手動后處理的圖形，沒有任何原則性的關注，例如更改軸標簽，添加注解或修改顏色。這些方法可以產生美麗而獨特的圖形，這些圖形無法以任何其他方式輕松制作。事實上，隨著計算機生成的復雜和精致的可視化變得越來越普遍，我觀察到手動繪制的圖形正在復蘇（參見圖 28.2 的例子）。我認為情況就是這樣，因為這些圖形代表了一種獨特和個性化的數據處理，否則可能是數據的例行公事的描述。 ![](https://img.kancloud.cn/eb/0d/eb0dd10eb13fd78ec8790c33341ab751_1260x855.jpg) 圖 28.2：引入下一代測序方法后，每個基因組的測序成本下降得比摩爾定律預測的要快得多。這個手繪的圖形復現了由美國國立衛生研究院制作的廣泛宣傳的可視化。數據來源：國家人類基因組研究所 ## 28.3 分離內容和設計一個好的可視化軟件應該允許您分別思考圖形的內容和設計。對于內容，我指的是所顯示的特定數據集，應用的數據轉換（如果有的話），從數據到美學的特定映射，刻度，軸范圍和繪圖類型（散點圖，折線圖，條形圖，箱形圖等）。另一方面，設計描述了一些特征，例如前景色和背景色，字體規格（例如字體大小，字體和字體系列），符號形狀和大小，圖例的位置，軸刻度，軸標題和繪圖標題，以及該圖是否具有背景網格。當我處理新的可視化時，我通常首先確定內容應該是什么，使用前一小節中描述的快速探索。一旦設置了內容，我可能會調整設計，或者更有可能我將應用我喜歡的預定義設計和/或在更大的工作環境中向圖形提供一致的外觀。在我用于本書的軟件 ggplot2 中，內容和設計的分離是通過主題實現的。主題指定圖形的視覺外觀，并且很容易拍攝現有圖形并對其應用不同的主題（圖 28.3 ）。主題可以由第三方編寫并作為 R 包分發。通過這種機制，圍繞 ggplot2 開發了一個蓬勃發展的附加主題生態系統，它涵蓋了各種不同的風格和應用場景。如果您使用 ggplot2 制作圖形，幾乎可以肯定找到滿足您設計需求的現有主題。 ![](https://img.kancloud.cn/bd/a6/bda68de8ca7e4df4db81cab13ff364d9_1508x1131.jpg) 圖 28.3：1970 年至 2015 年的美國失業人數。使用四種不同的 ggplot2 主題顯示相同的圖形：（a）本書的默認主題；（b）ggplot2 的默認主題，它是我用來繪制本書中所有圖形的繪圖軟件；（c）模仿經濟學人所顯示的可視化的主題；（d）模仿 FiveThirtyEight 所顯示的可視化的主題。FiveThirtyEight 經常使用軸標簽來支持繪圖標題和副標題，因此我相應調整了圖形。數據來源：美國勞工統計局內容和設計的分離，使數據科學家和設計師能夠專注于他們最擅長的事情。大多數數據科學家不是設計師，因此他們主要關注的是數據，而不是可視化的設計。同樣，大多數設計師不是數據科學家，他們應該能夠為圖形提供獨特而吸引人的視覺語言，而不必擔心特定數據，適當的轉換等。在書籍，雜志，報紙和網站的出版界，長期以來一直遵循分離內容和設計的相同原則，其中作者提供內容但不提供布局或設計。布局和設計由一組專門從事該領域的人員創建，他們確保出版物以視覺上一致和吸引人的風格出現。這個原則是合乎邏輯且有用的，但在數據可視化領域尚未普及。總之，在選擇可視化軟件時，請考慮如何輕松地復現圖形，并使用更新或以其他方式更改的數據集重做它們，是否可以快速探索相同數據的不同可視化，以及您可以在多大程度上單獨調整視覺設計，而不是生成圖形內容。根據您的技能水平和編程的舒適度，在數據探索和數據展示階段使用不同的可視化工具可能是有益的，您可能更愿意以交互方式或手動方式進行最終的視覺調整。如果您必須以交互方式制作圖形，特別是使用不能跟蹤所有數據轉換和您已應用的視覺調整的軟件，請考慮仔細記錄您如何制作每個圖形，使所有工作都可以復現。