您在 Python 中的第一個機器學習項目循序漸進 · Machine Learning Mastery 博客文章翻譯

# 您在 Python 中的第一個機器學習項目循序漸進 > 原文： [https://machinelearningmastery.com/machine-learning-in-python-step-by-step/](https://machinelearningmastery.com/machine-learning-in-python-step-by-step/) 你想用 Python 做機器學習，但是你開始時遇到了麻煩嗎？在這篇文章中，您將使用 Python 完成您的第一個機器學習項目。在本分步教程中，您將： 1. 下載并安裝 Python SciPy 并獲得最有用的 Python 機器學習包。 2. 加載數據集并使用統計摘要和數據可視化了解其結構。 3. 創建 6 個機器學習模型，挑選最佳并建立準確性可靠的信心。如果您是一名機器學習初學者，并希望最終開始使用 Python，那么本教程就是為您設計的。讓我們開始吧！ * **2017 年 1 月更新**：已更新，以反映版本 0.18 中 scikit-learn API 的更改。 * **2017 年 3 月更新**：添加了幫助設置 Python 環境的鏈接。 * **Update Apr / 2018** ：添加了一些有關隨機性和預測的有用鏈接。 * **Update Sep / 2018** ：由于 UCI 變得不可靠，添加了我自己托管的數據集版本的鏈接。 * **2002 年 2 月更新**：更新以解決使用 SVM 和 Logistic 回歸的 sklearn API 版本 0.20+的警告，還更新了結果和圖表。 ![Your First Machine Learning Project in Python Step-By-Step](https://img.kancloud.cn/d6/e8/d6e8faa43e6571ed766e0063e3f75705_500x333.jpg) 您在 Python 中的第一個機器學習項目循序漸進照片由 [cosmoflash](https://www.flickr.com/photos/cosmoflash/2687052480/) ，保留一些權利。 ## 如何在 Python 中啟動機器學習？學習機器學習的最好方法是設計和完成小項目。 ### 入門時 Python 可能會令人生畏 Python 是一種流行且強大的解釋語言。與 R 不同，Python 是一種完整的語言和平臺，可用于研究和開發以及開發生產系統。還有許多模塊和庫可供選擇，提供了多種方法來完成每項任務。它可以感到壓倒性的。開始使用 Python 進行機器學習的最佳方法是完成一個項目。 * 它將強制您安裝并啟動 Python 解釋器（至少）。 * 它將為您提供如何逐步完成小項目的鳥瞰圖。 * 它會給你信心，也許會繼續你自己的小項目。 ### 初學者需要一個小型的端到端項目書籍和課程令人沮喪。它們為您提供了大量的秘籍和片段，但您永遠不會看到它們如何組合在一起。當您將機器學習應用于您自己的數據集時，您正在處理一個項目。機器學習項目可能不是線性的，但它有許多眾所周知的步驟： 1. 定義問題。 2. 準備數據。 3. 評估算法。 4. 改善結果。 5. 目前的結果。真正與新平臺或工具達成協議的最佳方式是端到端地完成機器學習項目并涵蓋關鍵步驟。即，從加載數據，匯總數據，評估算法和做出一些預測。如果可以這樣做，則可以使用可在數據集之后的數據集上使用的模板。一旦您更有信心，您可以填寫差距，例如進一步的數據準備和改進結果任務。 ### 你好機器學習世界開始使用新工具的最佳小項目是虹膜花的分類（例如[虹膜數據集](https://archive.ics.uci.edu/ml/datasets/Iris)）。這是一個很好的項目，因為它非常了解。 * 屬性是數字，因此您必須弄清楚如何加載和處理數據。 * 這是一個分類問題，允許您練習一種更簡單的監督學習算法。 * 這是一個多類別的分類問題（多名義），可能需要一些專門的處理。 * 它只有 4 個屬性和 150 行，這意味著它很小，很容易適合內存（和屏幕或 A4 頁面）。 * 所有數字屬性都具有相同的單位和相同的比例，不需要任何特殊的縮放或變換即可開始。讓我們開始使用 Python 的 hello world 機器學習項目。 ## Python 中的機器學習：循序漸進教程（從這里開始）在本節中，我們將通過端到端的小型機器學習項目進行工作。以下是我們將要介紹的內容概述： 1. 安裝 Python 和 SciPy 平臺。 2. 加載數據集。 3. 總結數據集。 4. 可視化數據集。 5. 評估一些算法。 6. 做一些預測。慢慢來。完成每個步驟。嘗試自己輸入命令或復制并粘貼命令以加快速度。如果您有任何疑問，請在帖子底部留言。 ## 1.下載，安裝和啟動 Python SciPy 如果尚未安裝，請在您的系統上安裝 Python 和 SciPy 平臺。我不想詳細介紹這個，因為其他人已經有了。這已經非常簡單，特別是如果您是開發人員。如果您確實需要幫助，請在評論中提問。 ### 1.1 安裝 SciPy 庫本教程假定 Python 版本為 2.7 或 3.5+。您需要安裝 5 個密鑰庫。下面是本教程所需的 Python SciPy 庫列表： * SciPy 的 * numpy 的 * matplotlib * 大熊貓 * sklearn 有許多方法可以安裝這些庫。我最好的建議是選擇一種方法，然后在安裝每個庫時保持一致。 [scipy 安裝頁面](http://www.scipy.org/install.html)提供了在多個不同平臺上安裝上述庫的優秀說明，例如 Linux，mac OS X 和 Windows。如果您有任何疑問或疑問，請參閱本指南，數千人已經關注。 * 在 Mac OS X 上，您可以使用 macport 來安裝 Python 2.7 和這些庫。有關 macports 的更多信息，[請參閱主頁](https://www.macports.org/install.php)。 * 在 Linux 上，您可以使用您的包管理器，例如 Fedora 上的 yum 來安裝 RPM。如果你在 Windows 上或者你沒有信心，我會建議你安裝免費版的 [Anaconda](https://www.continuum.io/downloads) ，其中包括你需要的一切。 **注意**：本教程假設您安裝了 scikit-learn 版本 0.18 或更高版本。需要更多幫助？請參閱以下教程之一： * [如何使用 Anaconda 設置用于機器學習和深度學習的 Python 環境](http://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/) * [如何使用 Python 3](http://machinelearningmastery.com/linux-virtual-machine-machine-learning-development-python-3/) 為機器學習開發創建 Linux 虛擬機 ### 1.2 啟動 Python 并檢查版本確保您的 Python 環境已成功安裝并按預期工作是一個好主意。下面的腳本將幫助您測試您的環境。它導入本教程中所需的每個庫并打印該版本。打開命令行并啟動 python 解釋器： ``` python ``` 我建議直接在解釋器中工作或編寫腳本并在命令行上運行它們，而不是大編輯器和 IDE。保持簡單，專注于機器學習而不是工具鏈。鍵入或復制并粘貼以下腳本： ``` # Check the versions of libraries # Python version import sys print('Python: {}'.format(sys.version)) # scipy import scipy print('scipy: {}'.format(scipy.__version__)) # numpy import numpy print('numpy: {}'.format(numpy.__version__)) # matplotlib import matplotlib print('matplotlib: {}'.format(matplotlib.__version__)) # pandas import pandas print('pandas: {}'.format(pandas.__version__)) # scikit-learn import sklearn print('sklearn: {}'.format(sklearn.__version__)) ``` 這是我在 OS X 工作站上獲得的輸出： ``` Python: 3.6.8 (default, Dec 30 2018, 13:01:55) [GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)] scipy: 1.1.0 numpy: 1.15.4 matplotlib: 3.0.2 pandas: 0.23.4 sklearn: 0.20.2 ``` 將上述輸出與您的版本進行比較。理想情況下，您的版本應該匹配或更新。 API 不會快速更改，因此如果您只是背后的幾個版本，請不要太擔心，本教程中的所有內容很可能仍適用于您。如果您收到錯誤，請停止。現在是時候解決它了。如果您無法干凈地運行上述腳本，則無法完成本教程。我最好的建議是谷歌搜索你的錯誤信息或在 [Stack Exchange](http://stackoverflow.com/questions/tagged/python) 上發帖提問。 ## 2.加載數據我們將使用虹膜花數據集。這個數據集很有名，因為它幾乎被所有人用作機器學習和統計中的“hello world”數據集。該數據集包含 150 個鳶尾花的觀察結果。以厘米為單位的花有四列測量值。第五列是觀察到的花的種類。所有觀察到的花屬于三種物種之一。您可以[在維基百科](https://en.wikipedia.org/wiki/Iris_flower_data_set)上了解有關此數據集的更多信息。在此步驟中，我們將從 CSV 文件 URL 加載虹膜數據。 ### 2.1 導入庫首先，讓我們導入我們將在本教程中使用的所有模塊，函數和對象。 ``` # Load libraries import pandas from pandas.plotting import scatter_matrix import matplotlib.pyplot as plt from sklearn import model_selection from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.naive_bayes import GaussianNB from sklearn.svm import SVC ``` 一切都應該加載沒有錯誤。如果您有錯誤，請停止。在繼續之前，您需要一個有效的 SciPy 環境。請參閱上面有關設置環境的建議。 ### 2.2 加載數據集我們可以直接從 UCI 機器學習庫加載數據。我們正在使用 pandas 來加載數據。我們還將使用 pandas 來探索數據，包括描述性統計和數據可視化。請注意，我們在加載數據時指定每列的名稱。這將有助于我們以后探索數據。 ``` # Load dataset url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv" names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] dataset = pandas.read_csv(url, names=names) ``` 數據集應該加載而不會發生意外。如果確實存在網絡問題，可以將 [iris.csv](https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv) 文件下載到工作目錄中，并使用相同的方法加載它，將 URL 更改為本地文件名。 ## 3.總結數據集現在是時候看看數據了。在這一步中，我們將以幾種不同的方式來看看數據： 1. 數據集的維度。 2. 窺視數據本身。 3. 所有屬性的統計摘要。 4. 按類變量細分數據。別擔心，每次查看數據都是一個命令。這些是有用的命令，您可以在將來的項目中反復使用這些命令。 ### 3.1 數據集的維度我們可以快速了解數據包含多少個實例（行）和多少屬性（列）以及 shape 屬性。 ``` # shape print(dataset.shape) ``` 您應該看到 150 個實例和 5 個屬性： ``` (150, 5) ``` ### 3.2 查看數據實際觀察您的數據也是一個好主意。 ``` # head print(dataset.head(20)) ``` 您應該看到數據的前 20 行： ``` sepal-length sepal-width petal-length petal-width class 0 5.1 3.5 1.4 0.2 Iris-setosa 1 4.9 3.0 1.4 0.2 Iris-setosa 2 4.7 3.2 1.3 0.2 Iris-setosa 3 4.6 3.1 1.5 0.2 Iris-setosa 4 5.0 3.6 1.4 0.2 Iris-setosa 5 5.4 3.9 1.7 0.4 Iris-setosa 6 4.6 3.4 1.4 0.3 Iris-setosa 7 5.0 3.4 1.5 0.2 Iris-setosa 8 4.4 2.9 1.4 0.2 Iris-setosa 9 4.9 3.1 1.5 0.1 Iris-setosa 10 5.4 3.7 1.5 0.2 Iris-setosa 11 4.8 3.4 1.6 0.2 Iris-setosa 12 4.8 3.0 1.4 0.1 Iris-setosa 13 4.3 3.0 1.1 0.1 Iris-setosa 14 5.8 4.0 1.2 0.2 Iris-setosa 15 5.7 4.4 1.5 0.4 Iris-setosa 16 5.4 3.9 1.3 0.4 Iris-setosa 17 5.1 3.5 1.4 0.3 Iris-setosa 18 5.7 3.8 1.7 0.3 Iris-setosa 19 5.1 3.8 1.5 0.3 Iris-setosa ``` ### 3.3 統計摘要現在我們可以看一下每個屬性的摘要。這包括計數，平均值，最小值和最大值以及一些百分位數。 ``` # descriptions print(dataset.describe()) ``` 我們可以看到所有數值都具有相同的比例（厘米）和 0 到 8 厘米之間的相似范圍。 ``` sepal-length sepal-width petal-length petal-width count 150.000000 150.000000 150.000000 150.000000 mean 5.843333 3.054000 3.758667 1.198667 std 0.828066 0.433594 1.764420 0.763161 min 4.300000 2.000000 1.000000 0.100000 25% 5.100000 2.800000 1.600000 0.300000 50% 5.800000 3.000000 4.350000 1.300000 75% 6.400000 3.300000 5.100000 1.800000 max 7.900000 4.400000 6.900000 2.500000 ``` ### 3.4 類分布現在讓我們看一下屬于每個類的實例（行）數。我們可以將其視為絕對計數。 ``` # class distribution print(dataset.groupby('class').size()) ``` 我們可以看到每個類具有相同數量的實例（數據集的 50％或 33％）。 ``` class Iris-setosa 50 Iris-versicolor 50 Iris-virginica 50 ``` ## 4.數據可視化我們現在對數據有一個基本的想法。我們需要通過一些可視化來擴展它。我們將看兩種類型的圖： 1. 單變量圖可以更好地理解每個屬性。 2. 多變量圖可以更好地理解屬性之間的關系。 ### 4.1 單變量圖我們從一些單變量圖開始，即每個變量的圖。鑒于輸入變量是數字，我們可以創建每個的框和晶須圖。 ``` # box and whisker plots dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False) plt.show() ``` 這使我們更清楚地了解輸入屬性的分布： ![Box and Whisker Plots for Each Input Variable for the Iris Flowers Dataset](https://img.kancloud.cn/27/24/2724c175e0ac04cff3e8ac1ee300af3e_1024x768.jpg) 鳶尾花數據集的每個輸入變量的框和晶須圖我們還可以創建每個輸入變量的直方圖，以了解分布。 ``` # histograms dataset.hist() plt.show() ``` 看起來可能有兩個輸入變量具有高斯分布。這很有用，因為我們可以使用可以利用這個假設的算法。 ![Histogram Plots for Each Input Variable for the Iris Flowers Dataset](https://img.kancloud.cn/54/a4/54a47b3cc94baaf2a62e6fbb321ce944_1024x768.jpg) 鳶尾花數據集的每個輸入變量的直方圖 ### 4.2 多變量圖現在我們可以看看變量之間的相互作用。首先，讓我們看一下所有屬性對的散點圖。這有助于發現輸入變量之間的結構化關系。 ``` # scatter plot matrix scatter_matrix(dataset) plt.show() ``` 注意一些屬性對的對角分組。這表明高度相關性和可預測的關系。 ![Scatter Matrix Plot for Each Input Variable for the Iris Flowers Dataset](https://img.kancloud.cn/7f/de/7fded54c3f877a1e832ad85f99632a2b_1024x768.jpg) 鳶尾花數據集的每個輸入變量的散點圖矩陣 ## 5.評估一些算法現在是時候創建一些數據模型并估計它們對看不見的數據的準確性。以下是我們將在此步驟中介紹的內容： 1. 分離出驗證數據集。 2. 設置測試工具以使用 10 倍交叉驗證。 3. 建立 5 種不同的模型來預測花卉測量的物種 4. 選擇最佳型號。 ### 5.1 創建驗證數據集我們需要知道我們創建的模型是好的。稍后，我們將使用統計方法來估計我們在看不見的數據上創建的模型的準確性。我們還希望通過對實際看不見的數據進行評估，對未見數據的最佳模型的準確性進行更具體的估計。也就是說，我們將阻止算法無法看到的一些數據，我們將使用這些數據來獲得關于最佳模型實際精確度的第二個獨立概念。我們將加載的數據集分成兩部分，其中 80％將用于訓練我們的模型，20％我們將作為驗證數據集。 ``` # Split-out validation dataset array = dataset.values X = array[:,0:4] Y = array[:,4] validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed) ``` 您現在在 _X_train_ 和 _Y_train_ 中有訓練數據用于準備模型， _X_validation_ 和 _Y_validation_ 設置我們以后可以使用。請注意，我們使用 python 切片來選擇 NumPy 數組中的列。如果這對您來說是新手，您可能需要查看此帖子： * [如何在 Python 中為機器學習索引，切片和重塑 NumPy 數組](https://machinelearningmastery.com/index-slice-reshape-numpy-arrays-machine-learning-python/) ### 5.2 測試線束我們將使用 10 倍交叉驗證來估計準確性。這會將我們的數據集分成 10 個部分，在 9 上訓練并在 1 上進行測試，并重復訓練測試分割的所有組合。 ``` # Test options and evaluation metric seed = 7 scoring = 'accuracy' ``` 具體隨機種子無關緊要，請在此處了解有關偽隨機數生成器的更多信息： * [Python 機器學習隨機數生成器簡介](https://machinelearningmastery.com/introduction-to-random-number-generators-for-machine-learning/) 我們使用'_ 準確度 _'的度量來評估模型。這是正確預測的實例數除以數據集中實例總數乘以 100 得到百分比（例如 95％準確）的比率。我們將在運行構建時使用 _ 評分 _ 變量，然后評估每個模型。 ### 5.3 構建模型我們不知道哪個算法可以解決此問題或使用哪些配置。我們從圖中得出一個概念，即某些類在某些維度上可以部分線性分離，因此我們期望得到普遍良好的結果。讓我們評估 6 種不同的算法： * Logistic 回歸（LR） * 線性判別分析（LDA） * K-Nearest Neighbors（KNN）。 * 分類和回歸樹（CART）。 * 高斯樸素貝葉斯（NB）。 * 支持向量機（SVM）。這是簡單線性（LR 和 LDA），非線性（KNN，CART，NB 和 SVM）算法的良好混合。我們在每次運行之前重置隨機數種子，以確保使用完全相同的數據分割執行每個算法的評估。它確保結果可直接比較。讓我們構建和評估我們的模型： ``` # Spot Check Algorithms models = [] models.append(('LR', LogisticRegression(solver='liblinear', multi_class='ovr'))) models.append(('LDA', LinearDiscriminantAnalysis())) models.append(('KNN', KNeighborsClassifier())) models.append(('CART', DecisionTreeClassifier())) models.append(('NB', GaussianNB())) models.append(('SVM', SVC(gamma='auto'))) # evaluate each model in turn results = [] names = [] for name, model in models: kfold = model_selection.KFold(n_splits=10, random_state=seed) cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring) results.append(cv_results) names.append(name) msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) print(msg) ``` ### 5.4 選擇最佳模型我們現在有 6 個模型和精度估計。我們需要將模型相互比較并選擇最準確的模型。運行上面的示例，我們得到以下原始結果： ``` LR: 0.966667 (0.040825) LDA: 0.975000 (0.038188) KNN: 0.983333 (0.033333) CART: 0.975000 (0.038188) NB: 0.975000 (0.053359) SVM: 0.991667 (0.025000) ``` 請注意，您的結果可能會有所不同。有關詳細信息，請參閱帖子： * [在機器學習中擁抱隨機性](https://machinelearningmastery.com/randomness-in-machine-learning/) 在這種情況下，我們可以看到支持向量機（SVM）看起來具有最大的估計準確度分數。我們還可以創建模型評估結果的圖表，并比較每個模型的傳播和平均準確度。每種算法都有一組精確度測量值，因為每種算法都被評估了 10 次（10 次交叉驗證）。 ``` # Compare Algorithms fig = plt.figure() fig.suptitle('Algorithm Comparison') ax = fig.add_subplot(111) plt.boxplot(results) ax.set_xticklabels(names) plt.show() ``` 您可以看到盒子和須狀圖在該范圍的頂部被壓扁，許多樣品達到 100％的準確度。 ![Box and Whisker Plot Comparing Machine Learning Algorithms on the Iris Flowers Dataset](https://img.kancloud.cn/88/ed/88edf8aca104da08479629fa1f4b8c1a_1024x768.jpg) 鳶尾花數據集上的盒子和晶須圖比較機器學習算法 ## 6.做出預測 KNN 算法非常簡單，是基于我們測試的精確模型。現在我們想要了解模型在驗證集上的準確性。這將使我們對最佳模型的準確性進行獨立的最終檢查。保留驗證集非常有用，以防您在訓練過程中出現問題，例如過度擬合訓練集或數據泄漏。兩者都會導致過于樂觀的結果。我們可以直接在驗證集上運行 KNN 模型，并將結果匯??總為最終準確度分數，[混淆矩陣](http://machinelearningmastery.com/confusion-matrix-machine-learning/)和分類報告。 ``` # Make predictions on validation dataset knn = KNeighborsClassifier() knn.fit(X_train, Y_train) predictions = knn.predict(X_validation) print(accuracy_score(Y_validation, predictions)) print(confusion_matrix(Y_validation, predictions)) print(classification_report(Y_validation, predictions)) ``` 我們可以看到精度為 0.9 或 90％。混淆矩陣提供了三個錯誤的指示。最后，分類報告按精度，召回，f1 分數和支持顯示每個類別的細分，顯示出優異的結果（授予驗證數據集很小）。 ``` 0.9 [[ 7 0 0] [ 0 11 1] [ 0 2 9]] precision recall f1-score support Iris-setosa 1.00 1.00 1.00 7 Iris-versicolor 0.85 0.92 0.88 12 Iris-virginica 0.90 0.82 0.86 11 micro avg 0.90 0.90 0.90 30 macro avg 0.92 0.91 0.91 30 weighted avg 0.90 0.90 0.90 30 ``` 您可以在此處了解有關如何進行預測和預測概率的更多信息： * [如何用 scikit-learn](https://machinelearningmastery.com/make-predictions-scikit-learn/) 進行預測 ## 你可以用 Python 做機器學習完成上面的教程。最多需要 5 到 10 分鐘！ **你不需要了解一切**。（至少現在不是）您的目標是端到端地完成教程并獲得結果。您無需了解第一遍的所有內容。隨時記下您的問題。在 Python 中大量使用 _ 幫助（“FunctionName”）_ 幫助語法來了解您正在使用的所有函數。 **你不需要知道算法如何工作**。了解限制以及如何配置機器學習算法非常重要。但是學習算法可以在以后學習。您需要在很長一段時間內慢慢構建此算法知識。今天，首先要熟悉平臺。 **你不需要成為 Python 程序員**。如果您是新手，Python 語言的語法可以很直觀。與其他語言一樣，重點關注函數調用（例如 _ 函數（）_）和賦值（例如 _a =“b”_）。這將幫助您完成大部分工作。您是一名開發人員，您知道如何快速掌握語言的基礎知識。剛開始并稍后深入了解細節。 **您不需要成為機器學習專家**。您可以稍后了解各種算法的優點和局限性，有很多帖子可供您稍后閱讀，以了解機器學習項目的步驟以及使用交叉驗證評估準確性的重要性。 **機器學習項目**中的其他步驟怎么樣？我們沒有涵蓋機器學習項目中的所有步驟，因為這是您的第一個項目，我們需要關注關鍵步驟。即，加載數據，查看數據，評估一些算法并做出一些預測。在后面的教程中，我們可以查看其他數據準備和結果改進任務。 ## 摘要在這篇文章中，您逐步了解了如何使用 Python 完成第一個機器學習項目。您發現完成一個小型端到端項目從加載數據到進行預測是熟悉新平臺的最佳方式。 ### 你的下一步你是否完成了本教程？ 1. 完成上面的教程。 2. 列出您的任何問題。 3. 搜索或研究答案。 4. 請記住，您可以使用 Python 中的 _ 幫助（“FunctionName”）_ 來獲取任何函數的幫助。你有問題嗎？在下面的評論中發布。