6.4 良好可視化原則 · 斯坦福 Stats60 21 世紀的統計思維

## 6.4 良好可視化原則許多書都是關于數據的有效可視化的。有一些原則是大多數作者都同意的，而其他的則更具爭議性。這里我們總結了一些主要原則；如果您想了解更多，那么在本章末尾的 _ 建議閱讀 _ 部分列出了一些很好的資源。下面是我們對數據可視化的一些重要原則的提煉。 ### 6.4.1 展示數據并使其脫穎而出假設我做了一項研究，研究了牙齒健康和使用牙線的時間之間的關系，我想把我的數據形象化。圖[6.7](#fig:dentalFigs)顯示了這些數據的四種可能的表示。 1. 在面板 A 中，我們實際上并不顯示數據，只是一條表示數據之間關系的線。這顯然不是最佳的，因為我們實際上看不到底層數據是什么樣子的。面板 B-D 顯示了繪制實際數據的三種可能結果，其中每個繪圖顯示了可能生成數據的不同方式。 1. 如果我們看到面板 B 中的情節，我們可能會懷疑——真實數據很少會遵循如此精確的模式。 2. 另一方面，面板 C 中的數據看起來像真實的數據——它們顯示了一種總體趨勢，但是它們是混亂的，就像世界上通常的數據一樣。 3. 面板 D 中的數據表明，兩個變量之間的明顯關系僅僅是由一個個體引起的，我們稱之為 _ 離群值 _，因為它們遠遠超出了組內其他變量的模式。很明顯，我們可能不想從由一個數據點驅動的效果得出很多結論。此圖強調了為什么 _ 總是 _ 重要的原因，即在過于相信任何數據摘要之前查看原始數據。 ![Four different possible presentations of data for the dental health example. Each point in the scatter plot represents one data point in the dataset, and the line in each plot represents the linear trend in the data.](https://img.kancloud.cn/56/6b/566b48361de59d51af1344488a081b39_576x576.png) 圖 6.7 牙齒健康示例的四種不同可能數據表示。散點圖中的每個點表示數據集中的一個數據點，每個圖中的線表示數據中的線性趨勢。