<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # 如何在 Python 中加載機器學習數據 > 原文: [https://machinelearningmastery.com/load-machine-learning-data-python/](https://machinelearningmastery.com/load-machine-learning-data-python/) 您必須能夠在啟動機器學習項目之前加載數據。 機器學習數據最常見的格式是 CSV 文件。有許多方法可以在 Python 中加載 CSV 文件。 在這篇文章中,您將發現可以用來在 Python 中加載機器學習數據的不同方法。 讓我們開始吧。 * **2017 年 3 月更新**:更改從二進制('rb')到 ASCII('rt)的加載。 * **更新 March / 2018** :添加了備用鏈接以下載數據集,因為原始圖像已被刪除。 * **更新 March / 2018** :更新了來自 URL 示例的 NumPy 加載,以便與 Python 3 一起工作。 ![How To Load Machine Learning Data in Python](https://img.kancloud.cn/73/e8/73e8014a6d4d8e5551b3030268e852b2_640x480.jpg) 如何在 Python 中加載機器學習數據 照片由 [Ann Larie Valentine](https://www.flickr.com/photos/sanfranannie/2905016974/) ,保留一些權利。 ## 加載 CSV 數據時的注意事項 從 CSV 文件加載機器學習數據時需要考慮許多因素。 作為參考,您可以通過查看標題為[通用格式和逗號分隔值(CSV)文件的 MIME 類型](https://tools.ietf.org/html/rfc4180)的評論的 CSV 請求,了解有關 CSV 文件期望的大量信息。 ### CSV 文件標題 您的數據是否有文件頭? 如果是這樣,這可以幫助自動為每列數據分配名稱。如果沒有,您可能需要手動命名屬性。 無論哪種方式,您都應明確指定 CSV 文件在加載數據時是否具有文件頭。 ### 評論 您的數據有評論嗎? CSV 文件中的注釋在行的開頭用散列(“#”)表示。 如果您的文件中有注釋,則根據用于加載數據的方法,您可能需要指明是否期望注釋以及期望表示注釋行的字符。 ### 分隔符 用于分隔字段中值的標準分隔符是逗號(“,”)字符。 您的文件可以使用不同的分隔符,如 tab(“\ t”),在這種情況下,您必須明確指定它。 ### 行情 有時字段值可以包含空格。在這些 CSV 文件中,通常會引用值。 默認引號字符是雙引號“\”“。可以使用其他字符,您必須指定文件中使用的引號字符。 ## 機器學習數據加載秘籍 每個秘籍都是獨立的。 這意味著您可以將其復制并粘貼到項目中并立即使用。 如果您對這些秘籍或建議的改進有任何疑問,請發表評論,我會盡力回答。 ### 使用 Python 標準庫加載 CSV Python API 提供模塊 _CSV_ 和函數 _reader()_,可用于加載 CSV 文件。 加載后,將 CSV 數據轉換為 NumPy 數組并將其用于機器學習。 例如,您可以將 [Pima Indians 數據集](https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes)下載到您的本地目錄(更新:[從這里下載](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv))。所有字段都是數字,沒有標題行。運行下面的秘籍將加載 CSV 文件并將其轉換為 NumPy 數組。 ``` # Load CSV (using python) import csv import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE) x = list(reader) data = numpy.array(x).astype('float') print(data.shape) ``` 該示例加載一個對象,該對象可以遍歷數據的每一行,并且可以輕松轉換為 NumPy 數組。運行該示例將打印數組的形狀。 ``` (768, 9) ``` 有關 _csv.reader()_ 函數的更多信息,請參閱 Python API 文檔中的 [CSV 文件讀取和寫入](https://docs.python.org/2/library/csv.html)。 ### 使用 NumPy 加載 CSV 文件 您可以使用 NumPy 和 _numpy.loadtxt()_ 功能加載 CSV 數據。 此函數假定沒有標題行,并且所有數據都具有相同的格式。下面的示例假定文件 _pima-indians-diabetes.data.csv_ 位于您當前的工作目錄中。 ``` # Load CSV import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') data = numpy.loadtxt(raw_data, delimiter=",") print(data.shape) ``` 運行該示例將加載文件為 [numpy.ndarray](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.ndarray.html) 并打印數據的形狀: ``` (768, 9) ``` 可以修改此示例以直接從 URL 加載相同的數據集,如下所示: **注意**:此示例假設您使用的是 Python 3。 ``` # Load CSV from URL using NumPy from numpy import loadtxt from urllib.request import urlopen url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv' raw_data = urlopen(url) dataset = loadtxt(raw_data, delimiter=",") print(dataset.shape) ``` 同樣,運行該示例會產生相同的結果形狀。 ``` (768, 9) ``` 有關 [numpy.loadtxt()](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.loadtxt.html)函數的更多信息,請參閱 API 文檔(numpy 版本 1.10)。 ### 使用 Pandas 加載 CSV 文件 您可以使用 Pandas 和 _pandas.read_csv()_ 功能加載 CSV 數據。 此功能非常靈活,可能是我推薦的加載機器學習數據的方法。該函數返回一個 [pandas.DataFrame](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) ,您可以立即開始匯總和繪圖。 以下示例假定' _pima-indians-diabetes.data.csv_ '文件位于當前工作目錄中。 ``` # Load CSV using Pandas import pandas filename = 'pima-indians-diabetes.data.csv' names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(filename, names=names) print(data.shape) ``` 請注意,在此示例中,我們明確指定 DataFrame 的每個屬性的名稱。運行該示例顯示數據的形狀: ``` (768, 9) ``` 我們還可以修改此示例以直接從 URL 加載 CSV 數據。 ``` # Load CSV using Pandas from URL import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) print(data.shape) ``` 再次,運行該示例下載 CSV 文件,解析它并顯示加載的 DataFrame 的形狀。 ``` (768, 9) ``` 要了解有關 [pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)功能的更多信息,請參閱 API 文檔。 ## 摘要 在這篇文章中,您了解了如何使用 Python 加載機器學習數據。 您學習了三種可以使用的特定技術: * 使用 Python 標準庫加載 CSV。 * 使用 NumPy 加載 CSV 文件。 * 使用 Pandas 加載 CSV 文件。 此帖子的操作步驟是鍵入或復制并粘貼每個秘籍,并熟悉可以在 Python 中加載機器學習數據的不同方法。 您是否有任何關于在 Python 或此帖中加載機器學習數據的問題?在評論中提出您的問題,我會盡力回答。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看