如何在 Python 中加載機器學習數據 · Machine Learning Mastery 博客文章翻譯

# 如何在 Python 中加載機器學習數據 > 原文： [https://machinelearningmastery.com/load-machine-learning-data-python/](https://machinelearningmastery.com/load-machine-learning-data-python/) 您必須能夠在啟動機器學習項目之前加載數據。機器學習數據最常見的格式是 CSV 文件。有許多方法可以在 Python 中加載 CSV 文件。在這篇文章中，您將發現可以用來在 Python 中加載機器學習數據的不同方法。讓我們開始吧。 * **2017 年 3 月更新**：更改從二進制（'rb'）到 ASCII（'rt）的加載。 * **更新 March / 2018** ：添加了備用鏈接以下載數據集，因為原始圖像已被刪除。 * **更新 March / 2018** ：更新了來自 URL 示例的 NumPy 加載，以便與 Python 3 一起工作。 ![How To Load Machine Learning Data in Python](https://img.kancloud.cn/73/e8/73e8014a6d4d8e5551b3030268e852b2_640x480.jpg) 如何在 Python 中加載機器學習數據照片由 [Ann Larie Valentine](https://www.flickr.com/photos/sanfranannie/2905016974/) ，保留一些權利。 ## 加載 CSV 數據時的注意事項從 CSV 文件加載機器學習數據時需要考慮許多因素。作為參考，您可以通過查看標題為[通用格式和逗號分隔值（CSV）文件的 MIME 類型](https://tools.ietf.org/html/rfc4180)的評論的 CSV 請求，了解有關 CSV 文件期望的大量信息。 ### CSV 文件標題您的數據是否有文件頭？如果是這樣，這可以幫助自動為每列數據分配名稱。如果沒有，您可能需要手動命名屬性。無論哪種方式，您都應明確指定 CSV 文件在加載數據時是否具有文件頭。 ### 評論您的數據有評論嗎？ CSV 文件中的注釋在行的開頭用散列（“＃”）表示。如果您的文件中有注釋，則根據用于加載數據的方法，您可能需要指明是否期望注釋以及期望表示注釋行的字符。 ### 分隔符用于分隔字段中值的標準分隔符是逗號（“，”）字符。您的文件可以使用不同的分隔符，如 tab（“\ t”），在這種情況下，您必須明確指定它。 ### 行情有時字段值可以包含空格。在這些 CSV 文件中，通常會引用值。默認引號字符是雙引號“\”“。可以使用其他字符，您必須指定文件中使用的引號字符。 ## 機器學習數據加載秘籍每個秘籍都是獨立的。這意味著您可以將其復制并粘貼到項目中并立即使用。如果您對這些秘籍或建議的改進有任何疑問，請發表評論，我會盡力回答。 ### 使用 Python 標準庫加載 CSV Python API 提供模塊 _CSV_ 和函數 _reader（）_，可用于加載 CSV 文件。加載后，將 CSV 數據轉換為 NumPy 數組并將其用于機器學習。例如，您可以將 [Pima Indians 數據集](https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes)下載到您的本地目錄（更新：[從這里下載](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)）。所有字段都是數字，沒有標題行。運行下面的秘籍將加載 CSV 文件并將其轉換為 NumPy 數組。 ``` # Load CSV (using python) import csv import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE) x = list(reader) data = numpy.array(x).astype('float') print(data.shape) ``` 該示例加載一個對象，該對象可以遍歷數據的每一行，并且可以輕松轉換為 NumPy 數組。運行該示例將打印數組的形狀。 ``` (768, 9) ``` 有關 _csv.reader（）_ 函數的更多信息，請參閱 Python API 文檔中的 [CSV 文件讀取和寫入](https://docs.python.org/2/library/csv.html)。 ### 使用 NumPy 加載 CSV 文件您可以使用 NumPy 和 _numpy.loadtxt（）_ 功能加載 CSV 數據。此函數假定沒有標題行，并且所有數據都具有相同的格式。下面的示例假定文件 _pima-indians-diabetes.data.csv_ 位于您當前的工作目錄中。 ``` # Load CSV import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') data = numpy.loadtxt(raw_data, delimiter=",") print(data.shape) ``` 運行該示例將加載文件為 [numpy.ndarray](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.ndarray.html) 并打印數據的形狀： ``` (768, 9) ``` 可以修改此示例以直接從 URL 加載相同的數據集，如下所示： **注意**：此示例假設您使用的是 Python 3。 ``` # Load CSV from URL using NumPy from numpy import loadtxt from urllib.request import urlopen url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv' raw_data = urlopen(url) dataset = loadtxt(raw_data, delimiter=",") print(dataset.shape) ``` 同樣，運行該示例會產生相同的結果形狀。 ``` (768, 9) ``` 有關 [numpy.loadtxt（）](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.loadtxt.html)函數的更多信息，請參閱 API 文檔（numpy 版本 1.10）。 ### 使用 Pandas 加載 CSV 文件您可以使用 Pandas 和 _pandas.read_csv（）_ 功能加載 CSV 數據。此功能非常靈活，可能是我推薦的加載機器學習數據的方法。該函數返回一個 [pandas.DataFrame](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) ，您可以立即開始匯總和繪圖。以下示例假定' _pima-indians-diabetes.data.csv_ '文件位于當前工作目錄中。 ``` # Load CSV using Pandas import pandas filename = 'pima-indians-diabetes.data.csv' names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(filename, names=names) print(data.shape) ``` 請注意，在此示例中，我們明確指定 DataFrame 的每個屬性的名稱。運行該示例顯示數據的形狀： ``` (768, 9) ``` 我們還可以修改此示例以直接從 URL 加載 CSV 數據。 ``` # Load CSV using Pandas from URL import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) print(data.shape) ``` 再次，運行該示例下載 CSV 文件，解析它并顯示加載的 DataFrame 的形狀。 ``` (768, 9) ``` 要了解有關 [pandas.read_csv（）](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)功能的更多信息，請參閱 API 文檔。 ## 摘要在這篇文章中，您了解了如何使用 Python 加載機器學習數據。您學習了三種可以使用的特定技術： * 使用 Python 標準庫加載 CSV。 * 使用 NumPy 加載 CSV 文件。 * 使用 Pandas 加載 CSV 文件。此帖子的操作步驟是鍵入或復制并粘貼每個秘籍，并熟悉可以在 Python 中加載機器學習數據的不同方法。您是否有任何關于在 Python 或此帖中加載機器學習數據的問題？在評論中提出您的問題，我會盡力回答。