可視化統計關系 · seaborn 0.9 中文文檔

# 可視化統計關系 > 譯者：[JNJYan](https://github.com/JNJYan) 統計分析是了解數據集中的變量如何相互關聯以及這些關系如何依賴于其他變量的過程。可視化是此過程的核心組件，這是因為當數據被恰當地可視化時，人的視覺系統可以看到指示關系的趨勢和模式。我們將在本教程中討論三個 seaborn 函數。我們最常用的是[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")。這是一個[figure-level](../introduction.html#intro-func-types)的函數，可以用散點圖和線圖兩種通用的方法來可視化統計關系。[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")將[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid") 與兩個[axes-level]()函數組合在一起: * [`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot") (`kind="scatter"`; 默認值) * [`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")(`kind="line"`) 正如我們將要看到的，這些函數可能非常有啟發性，因為他們使用簡單且易于理解的數據表示形式，且仍然能夠表示復雜的數據集結構。之所以可以這樣，是因為它們可以通過色調、大小和樣式的語義映射最多三個額外的變量來增強繪制的二維圖形。 ```py import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set(style="darkgrid") ``` ## 用散點圖關聯變量散點圖是數據可視化的支柱，它通過點云描繪了兩個變量的聯合分布，其中每個點代表數據集中的一個觀測值。這種描述能夠使我們通過視覺推斷出許多信息，他們之間是否存在任何有意義的關系。在 seaborn 中有多種方式繪制散點圖。當兩個變量的是數值型時，最基本的是函數[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")。在 [類別可視化](categorical.html#categorical-tutorial)，我們將會看到使用散點圖來顯示類別數據的專用工具。[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")是[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")中`kind`的默認類型(也可以通過`kind="scatter"`來設置): ```py tips = sns.load_dataset("tips") sns.relplot(x="total_bill", y="tip", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_4_0.png](https://img.kancloud.cn/70/dd/70dd4cf094dc4b05c75b86c6d0d0856d_352x352.jpg) 雖然這些點是以二維繪制的，但可以通過根據第三個變量對點進行著色來將另一個維度添加到繪圖中。在 seaborn 中，這被稱為使用“色調語義”，因為該點的顏色獲得了意義： ```py sns.relplot(x="total_bill", y="tip", hue="smoker", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_6_0.png](https://img.kancloud.cn/d8/c1/d8c165abc27a3cda2d89111f35c0bf42_424x352.jpg) 為了強調類別之間的差異并提高可訪問性，可以為每個類別使用不同的標記樣式： ```py sns.relplot(x="total_bill", y="tip", hue="smoker", style="smoker", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_8_0.png](https://img.kancloud.cn/6b/73/6b738f0a122fa3caad0100e1e10d1d12_424x352.jpg) 也可以通過單獨改變每個點的色調和樣式來表示四個變量。但是這應該謹慎，因為眼睛對形狀的敏感度遠低于對顏色的敏感度: ```py sns.relplot(x="total_bill", y="tip", hue="smoker", style="time", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_10_0.png](https://img.kancloud.cn/fb/c0/fbc0c3ba84b2f8c28128157b4c98c16a_424x352.jpg) 在上面的例子中，色調語義表示類別，所以使用了默認的[定性調色板](color_palettes.html#palette-tutorial)。如果色調語義表示數值(特別是，如果它可以轉換為浮點數)，默認的顏色切換到順序調色板: ```py sns.relplot(x="total_bill", y="tip", hue="size", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_12_0.png](https://img.kancloud.cn/b9/d7/b9d77b08b082080a5bd89e1050b1b7b6_409x352.jpg) 在這兩種情況下，您都可以自定義調色板，有多種方式可以實現。在這里，我們使用[`cubehelix_palette()`](../generated/seaborn.cubehelix_palette.html#seaborn.cubehelix_palette "seaborn.cubehelix_palette")的字符串接口自定義一個順序調色板: ```py sns.relplot(x="total_bill", y="tip", hue="size", palette="ch:r=-.5,l=.75", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_14_0.png](https://img.kancloud.cn/4e/74/4e74776427a816a829caacb4703ccdfb_409x352.jpg) 第三個語義變量改變每個點的大小: ```py sns.relplot(x="total_bill", y="tip", size="size", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_16_0.png](https://img.kancloud.cn/73/29/73298c002125d5c8ad1e567fd89682aa_409x352.jpg) 與[`matplotlib.pyplot.scatter()`](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html#matplotlib.pyplot.scatter "(in Matplotlib v2.2.2)")不同，變量的值不用于直接決定點的面積。數據單位中的值范圍被規范化為面積單位的范圍，這個范圍可以自定義: ```py sns.relplot(x="total_bill", y="tip", size="size", sizes=(15, 200), data=tips); ``` ![http://seaborn.pydata.org/_images/relational_18_0.png](https://img.kancloud.cn/35/06/3506306923ac18d7ddcb1e072481c4ca_409x352.jpg) 在[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")API 示例中展示了更多如何通過自定義使用不同語義來顯示統計關系的示例。 ## 強調線圖的連續性散點圖是非常有效的，但是沒有通用的最優可視化類型。相反，可視表示應該適應數據集的細節以及您試圖用圖表回答的問題。對于某些數據集，您可能希望了解一個變量中的變化關于時間的函數，或者類似的連續變量。在這種情況下，一個很好的選擇是繪制線圖。在 seaborn 中，這可以通過[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")函數直接實現，也可以通過設置[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")的參數`kind="line"`來實現: ```py df = pd.DataFrame(dict(time=np.arange(500), value=np.random.randn(500).cumsum())) g = sns.relplot(x="time", y="value", kind="line", data=df) g.fig.autofmt_xdate() ``` ![http://seaborn.pydata.org/_images/relational_21_0.png](https://img.kancloud.cn/7d/82/7d8245cf91c2f1440858f3b92badf4b9_352x333.jpg) 由于[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")假設您想要將`y`繪制為`x`的函數，默認行為是在繪制之前按數字`x`對數據進行排序。但是，這可以被禁用： ```py df = pd.DataFrame(np.random.randn(500, 2).cumsum(axis=0), columns=["x", "y"]) sns.relplot(x="x", y="y", sort=False, kind="line", data=df); ``` ![http://seaborn.pydata.org/_images/relational_23_0.png](https://img.kancloud.cn/c7/43/c7439783c343bd83d6099579bbdff991_352x352.jpg) ### 聚合和表示不確定性更復雜的數據集將對`x`變量的相同值有多個觀測值。seaborn 的默認行為是通過繪制平均值及 95%的置信區間，在每個`x`周圍聚合多個測量值: ```py fmri = sns.load_dataset("fmri") sns.relplot(x="timepoint", y="signal", kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_25_0.png](https://img.kancloud.cn/76/7c/767cfbf683826552491a682d8845a6a6_352x352.jpg) 置信區間是使用 bootstrapping 計算的，對于較大的數據集，它可能是時間密集型的。因此，可以禁用它們: ```py sns.relplot(x="timepoint", y="signal", ci=None, kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_27_0.png](https://img.kancloud.cn/9f/1b/9f1b10cfffa46c813afd1d4948da3534_352x352.jpg) 尤其是對于較大的數據，另一個不錯的選擇是通過繪制標準差，而不是置信區間來表示分布在每個時間點的分布范圍: ```py sns.relplot(x="timepoint", y="signal", kind="line", ci="sd", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_29_0.png](https://img.kancloud.cn/a3/ea/a3eaba306980e2bd77e20e1a14ac01c2_352x352.jpg) 可以通過設置`estimator`參數為`None`，來完全停用聚合。當數據在每個點上有多個觀察值時，這可能會產生奇怪的效果。 ```py sns.relplot(x="timepoint", y="signal", estimator=None, kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_31_0.png](https://img.kancloud.cn/b3/bf/b3bf688be1e3789f296b6e662a33aaf5_352x352.jpg) ### Plotting subsets of data with semantic mappings 函數[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")與[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")具有相同的靈活性：它可以通過修改繪圖元素的色調，大小和樣式來顯示最多三個附加變量。它使用于[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")相同的 API，這意味著我們不需要停下來考慮控制 matplotlib 中線條與點外觀的參數。在[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")中使用語義也將決定數據的聚合方式。例如，添加具有兩個級別的色調語義將繪圖分成兩行以及錯誤帶，每個都著色以指示它們對應于哪個數據集。 ```py sns.relplot(x="timepoint", y="signal", hue="event", kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_33_0.png](https://img.kancloud.cn/3a/1e/3a1eaa201bfffcc6cc1551db7f6c934a_413x352.jpg) 在線條圖中添加樣式語義默認情況下會改變線條中的破折號模式： ```py sns.relplot(x="timepoint", y="signal", hue="region", style="event", kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_35_0.png](https://img.kancloud.cn/45/6b/456b4fe74ce512974a4cd6b7425d5146_422x352.jpg) 但您可以通過每次觀察時使用的標記識別子集，或者使用短劃線或代替它們： ```py sns.relplot(x="timepoint", y="signal", hue="region", style="event", dashes=False, markers=True, kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_37_0.png](https://img.kancloud.cn/96/9c/969cbd93adc1bf7c751f2181db4a839d_422x352.jpg) 與散點圖一樣，要謹慎使用多個語義制作線圖。雖然有時提供信息，但它們也很難解析和解釋。但當您只檢查一個附加變量的變化時，更改線條的顏色和樣式也很有用。當打印成黑白或有色盲的人觀看時，這可以使繪圖更容易訪問： ```py sns.relplot(x="timepoint", y="signal", hue="event", style="event", kind="line", data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_39_0.png](https://img.kancloud.cn/af/ef/afef2240b51002e3b7090e7c08148673_413x352.jpg) 當您使用重復測量數據（即，您有多次采樣的單位）時，您還可以單獨繪制每個采樣單位，而無需通過語義區分它們。這樣可以避免使圖例混亂： ```py sns.relplot(x="timepoint", y="signal", hue="region", units="subject", estimator=None, kind="line", data=fmri.query("event == 'stim'")); ``` ![http://seaborn.pydata.org/_images/relational_41_0.png](https://img.kancloud.cn/ae/cd/aecd3c99e108a9dc99ba61167df24f3c_422x352.jpg) [`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")中默認的色彩映射和圖例的處理還取決于色調語義是類別還是數值： ```py dots = sns.load_dataset("dots").query("align == 'dots'") sns.relplot(x="time", y="firing_rate", hue="coherence", style="choice", kind="line", data=dots); ``` ![http://seaborn.pydata.org/_images/relational_43_0.png](https://img.kancloud.cn/ec/f3/ecf3b1e12a35423bd4996014b1711fba_437x352.jpg) 可能會發生這樣的情況：即使`hue`變量是數值，它也很難用線性色標表示。如下示例，其中`hue`變量的級別以對數方式縮放。您可以通過傳遞列表或字典為每一行提供特定的顏色值： ```py palette = sns.cubehelix_palette(light=.8, n_colors=6) sns.relplot(x="time", y="firing_rate", hue="coherence", style="choice", palette=palette, kind="line", data=dots); ``` ![http://seaborn.pydata.org/_images/relational_45_0.png](https://img.kancloud.cn/07/e6/07e60bf57cc4047191936c0585cfaa56_437x352.jpg) 或者您可以更改色彩映射的規范化方式： ```py from matplotlib.colors import LogNorm palette = sns.cubehelix_palette(light=.7, n_colors=6) sns.relplot(x="time", y="firing_rate", hue="coherence", style="choice", hue_norm=LogNorm(), kind="line", data=dots); ``` ![http://seaborn.pydata.org/_images/relational_47_0.png](https://img.kancloud.cn/bb/5e/bb5e5c442d0b4ae2c23abbb1ef96f1af_437x352.jpg) 第三個語義，`size`改變線的寬度： ```py sns.relplot(x="time", y="firing_rate", size="coherence", style="choice", kind="line", data=dots); ``` ![http://seaborn.pydata.org/_images/relational_49_0.png](https://img.kancloud.cn/a5/56/a556a3380e6c3596c35605a146a74a60_437x352.jpg) 雖然`size`變量通常是數值型的，但是也可以用線寬映射為類別變量。在這樣做的時候要小心，因為除了“粗”線和“細”線之外，很難區分更多。然而，當線具有高頻變異性時，破折號很難被察覺，因此在這種情況下，使用不同的寬度可能更有效: ```py sns.relplot(x="time", y="firing_rate", hue="coherence", size="choice", palette=palette, kind="line", data=dots); ``` ![http://seaborn.pydata.org/_images/relational_51_0.png](https://img.kancloud.cn/26/14/26145e43941a6e1d6f58081c294b6335_437x352.jpg) ### 用日期數據繪圖線圖通常用于可視化與實際日期和時間相關的數據。這些函數以原始格式將數據傳遞給底層的 matplotlib 函數，因此他們可以利用 matplotlib 在 tick 標簽中設置日期格式的功能。但是所有這些格式化都必須在 matplotlib 層進行，您應該參考 matplotlib 文檔來了解它是如何工作的： ```py df = pd.DataFrame(dict(time=pd.date_range("2017-1-1", periods=500), value=np.random.randn(500).cumsum())) g = sns.relplot(x="time", y="value", kind="line", data=df) g.fig.autofmt_xdate() ``` ![http://seaborn.pydata.org/_images/relational_53_0.png](https://img.kancloud.cn/d0/d5/d0d57846d1a9bd98cc18a4434930d9ce_342x344.jpg) ## 顯示與切面的多種關系我們在本教程中強調，雖然這些函數可以同時顯示幾個語義變量，但這樣做并不總是有效的。但是，當你想要了解兩個變量之間的關系如何依賴于多個其他變量時呢？最好的方法可能是多次繪制。因為[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")基于[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid")，所以這很容易做到。要顯示附加變量的影響，而不是將其分配給圖中的一個語義角色，而是使用它來“切面”可視化。這意味著您可以創建多個軸并在每個軸上繪制數據的子集: ```py sns.relplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips); ``` ![http://seaborn.pydata.org/_images/relational_55_0.png](https://img.kancloud.cn/56/0c/560cf4f5e4226a697f6489b9a150f1d3_788x352.jpg) 您還可以通過這種方式顯示兩個變量的影響：一個是通過在列上切面而另一個是在行上切面。當您開始向網格添加更多變量時，您可能希望減小圖形大小。請記住，大小[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid")由每個切面的高度和長寬比參數化的： ```py sns.relplot(x="timepoint", y="signal", hue="subject", col="region", row="event", height=3, kind="line", estimator=None, data=fmri); ``` ![http://seaborn.pydata.org/_images/relational_57_0.png](https://img.kancloud.cn/e2/d0/e2d06e7fe4f065acbc90e7cdfca731e9_495x424.jpg) 當您想要檢查一個變量的多個級別的效果時，在列上對該變量進行切面處理，然后將切面“包裝”到行中: ```py sns.relplot(x="timepoint", y="signal", hue="event", style="event", col="subject", col_wrap=5, height=3, aspect=.75, linewidth=2.5, kind="line", data=fmri.query("region == 'frontal'")); ``` ![http://seaborn.pydata.org/_images/relational_59_0.png](https://img.kancloud.cn/87/4c/874c214372b40fd626045375b196c213_870x640.jpg) 這些可視化通常被稱為格點圖，它們非常有效，因為它們以總體模式和與這些模式的偏差的數據格式來呈現數據，便于眼睛觀察。雖然你應該利用[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")和[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")提供的靈活性，但一定要記住，幾個簡單的圖通常比一個復雜的圖更有效。