<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 使用 Pandas 在 Python 中可視化機器學習數據 > 原文: [https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/](https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/) 您必須了解您的數據才能從機器學習算法中獲得最佳結果。 了解有關數據的最快方法是使用數據可視化。 在這篇文章中,您將了解如何使用 Pandas 在 Python 中可視化您的機器學習數據。 讓我們開始吧。 * **更新 March / 2018** :添加了備用鏈接以下載數據集,因為原始圖像已被刪除。 ![Visualize Machine Learning Data in Python With Pandas](https://img.kancloud.cn/41/e1/41e16cc403a18f166413eafc9dd867b0_640x425.jpg) 使用 Pandas 可視化 Python 中的機器學習數據 照片由 [Alex Cheek](https://www.flickr.com/photos/cheek/4988159977/) 拍攝,保留一些權利。 ## 關于秘籍 本文中的每個秘籍都是完整且獨立的,因此您可以將其復制并粘貼到您自己的項目中并立即使用它。 [Pima Indians 數據集](https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes)用于演示每個圖(更新:[從此處下載](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv))。該數據集描述了皮馬印第安人的醫療記錄以及每位患者是否在五年內患有糖尿病。因此,這是一個分類問題。 它是一個很好的演示數據集,因為所有輸入屬性都是數字,要預測的輸出變量是二進制(0 或 1)。 數據可從 [UCI 機器學習庫](https://archive.ics.uci.edu/ml/index.html)免費獲得,并作為每個秘籍的一部分直接下載。 ## 單變量圖 在本節中,我們將介紹可用于獨立理解每個屬性的技術。 ### 直方圖 了解每個屬性分布的快速方法是查看直方圖。 直方圖將數據分組到箱中,并為您提供每個箱中觀測數的計數。根據箱子的形狀,您可以快速了解屬性是高斯',傾斜還是指數分布。它還可以幫助您查看可能的異常值。 ``` # Univariate Histograms import matplotlib.pyplot as plt import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) data.hist() plt.show() ``` 我們可以看到,也許屬性 age,pedi 和 test 可能具有指數分布。我們還可以看到,_ 質量 _ 和 _pres_ 和 _plas_ 屬性可能具有高斯或近似高斯分布。這很有趣,因為許多機器學習技術假設輸入變量具有高斯單變量分布。 ![Univariate Histograms](https://img.kancloud.cn/54/23/54236cf3bb8ebe65ac3fa9961176b67e_800x600.jpg) 單變量直方圖 ### 密度圖 密度圖是另一種快速了解每個屬性分布的方法。這些圖看起來像一個抽象的直方圖,在每個 bin 的頂部繪制了一條平滑的曲線,就像你的眼睛試圖用直方圖一樣。 ``` # Univariate Density Plots import matplotlib.pyplot as plt import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) data.plot(kind='density', subplots=True, layout=(3,3), sharex=False) plt.show() ``` 我們可以看到每個屬性的分布比直方圖更清晰。 ![Univariate Density Plots](https://img.kancloud.cn/e7/93/e793e0317b5dd1349bb58a5b8ac8d440_800x600.jpg) 單變量密度圖 ### 盒子和晶須圖 另一種檢查每個屬性分布的有用方法是使用 [Box 和 Whisker Plots](https://en.wikipedia.org/wiki/Box_plot) 或簡稱箱形圖。 箱形圖總結了每個屬性的分布,繪制了一條中間值(中間值)和一個圍繞第 25 和第 75 百分位數的框(中間 50%的數據)。晶須提供數據傳播的概念,晶須之外的點顯示候選異常值(值比中間 50%數據的傳播大小的 1.5 倍)。 ``` # Box and Whisker Plots import matplotlib.pyplot as plt import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) data.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False) plt.show() ``` 我們可以看到屬性的傳播是完全不同的。有些像 _ 年齡 _,_ 測試 _ 和 _ 皮膚 _ 看起來相當偏向較小的值。 ![Univariate Box and Whisker Plots](https://img.kancloud.cn/f4/7d/f47d78e943c461e0a14240a81152a1a8_800x600.jpg) 單變量盒和晶須圖 ## 多變量圖 本節顯示了多個變量之間相互作用的圖表示例。 ### 相關矩陣圖 [相關](https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)表示兩個變量之間的變化有多大關系。如果兩個變量在同一方向上變化,則它們是正相關的。如果相反方向的變化在一起(一個上升,一個下降),那么它們是負相關的。 您可以計算每對屬性之間的相關性。這稱為相關矩陣。然后,您可以繪制相關矩陣,并了解哪些變量之間具有高度相關性。 這很有用,因為如果數據中存在高度相關的輸入變量,某些機器學習算法(如線性和邏輯回歸)可能會有較差的表現。 ``` # Correction Matrix Plot import matplotlib.pyplot as plt import pandas import numpy url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) correlations = data.corr() # plot correlation matrix fig = plt.figure() ax = fig.add_subplot(111) cax = ax.matshow(correlations, vmin=-1, vmax=1) fig.colorbar(cax) ticks = numpy.arange(0,9,1) ax.set_xticks(ticks) ax.set_yticks(ticks) ax.set_xticklabels(names) ax.set_yticklabels(names) plt.show() ``` 我們可以看到矩陣是對稱的,即矩陣的左下角與右上角相同。這很有用,因為我們可以在一個圖中看到關于相同數據的兩個不同視圖。我們還可以看到每個變量在從左上到右下的對角線中彼此完全正相關(如您所料)。 ![Correlation Matrix Plot](https://img.kancloud.cn/12/ac/12ac763a6eb715b9bdf358a993b75f80_800x600.jpg) 相關矩陣圖 ### 散點圖矩陣 散點圖將兩個變量之間的關系顯示為二維中的點,每個屬性一個軸。您可以為數據中的每對屬性創建散點圖。將所有這些散點圖一起繪制稱為散點圖矩陣。 散點圖對于發現變量之間的結構化關系很有用,例如是否可以用線匯總兩個變量之間的關系。具有結構化關系的屬性也可能是相關的,也是從數據集中刪除的良好候選者。 ``` # Scatterplot Matrix import matplotlib.pyplot as plt import pandas from pandas.plotting import scatter_matrix url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) scatter_matrix(data) plt.show() ``` 與相關矩陣圖一樣,散點圖矩陣是對稱的。這對于從不同角度看待成對關系很有用。因為用自己繪制每個變量的散點圖很少,對角線顯示每個屬性的直方圖。 ![Scatterplot Matrix](https://img.kancloud.cn/41/8d/418d931f10b59ca8e0975e1023207fbf_800x600.jpg) 散點圖矩陣 ## 摘要 在這篇文章中,您發現了許多方法可以使用 Pandas 更好地理解 Python 中的機器學習數據。 具體來說,您學習了如何使用以下方法繪制數據: * 直方圖 * 密度圖 * 盒子和晶須圖 * 相關矩陣圖 * 散點圖矩陣 打開 Python 交互式環境并嘗試每個秘籍。 你對這篇文章中的熊貓或秘籍有什么疑問嗎?在評論中提問,我會盡力回答。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看