Python 機器學習迷你課程 · Machine Learning Mastery 博客文章翻譯

# Python 機器學習迷你課程 > 原文： [https://machinelearningmastery.com/python-machine-learning-mini-course/](https://machinelearningmastery.com/python-machine-learning-mini-course/) ### _14 天內從開發人員到機器學習從業者 _ Python 是應用機器學習增長最快的平臺之一。在這個迷你課程中，您將了解如何入門，構建準確的模型，并在 14 天內使用 Python 自信地完成預測建模機器學習項目。這是一個重要且重要的帖子。您可能想要將其加入書簽。讓我們開始吧。 * **2016 年 10 月更新**：更新了 sklearn v0.18 的示例。 * **2018 年 2 月更新**：更新 Python 和庫版本。 * **更新 March / 2018** ：添加了備用鏈接以下載某些數據集，因為原件似乎已被刪除。 ![Python Machine Learning Mini-Course](https://img.kancloud.cn/f2/9a/f29af249fcb545b90f787bfc8f2b305a_640x427.jpg) Python 機器學習迷你課程攝影： [Dave Young](https://www.flickr.com/photos/dcysurfer/7056436373/) ，保留一些權利。 ## 這個迷你課程是誰？在我們開始之前，讓我們確保您在正確的位置。以下列表提供了有關本課程設計對象的一般指導原則。如果你沒有完全匹配這些點，請不要驚慌，你可能只需要在一個或另一個區域刷新以跟上。 * **開發人員知道如何編寫一些代碼**。這意味著一旦您了解基本語法，就可以獲得像 Python 這樣的新編程語言。這并不意味著你是一個向導編碼器，只是你可以毫不費力地遵循基本的 C 語言。 * **知道一點機器學習的開發人員**。這意味著您了解機器學習的基礎知識，如交叉驗證，一些算法和[偏差 - 方差權衡](http://machinelearningmastery.com/gentle-introduction-to-the-bias-variance-trade-off-in-machine-learning/)。這并不意味著你是一個機器學習博士，只是你知道地標或知道在哪里查找它們。這個迷你課程既不是 Python 的教科書，也不是機器學習的教科書。它將把你從一個知道一點機器學習的開發人員帶到一個開發人員，他可以使用 Python 生態系統獲得結果，這是一個不斷上升的專業機器學習平臺。 ## 迷你課程概述這個迷你課程分為 14 節課。您可以每天完成一節課（推薦）或在一天內完成所有課程（硬核！）。這取決于你有空的時間和你的熱情程度。以下是 14 個課程，通過 Python 中的機器學習，可以幫助您開始并提高工作效率： * **第 1 課**：下載并安裝 Python 和 SciPy 生態系統。 * **第 2 課**：在 Python，NumPy，Matplotlib 和 Pandas 中徘徊。 * **第 3 課**：從 CSV 加載數據。 * **第 4 課**：通過描述性統計理解數據。 * **第 5 課**：用可視化理解數據。 * **第 6 課**：通過預處理數據準備建模。 * **第 7 課**：采用重采樣方法的算法評估。 * **第 8 課**：算法評估指標。 * **第 9 課**：抽樣檢查算法。 * **第 10 課**：模型比較和選擇。 * **第 11 課**：通過算法調整提高準確度。 * **第 12 課**：通過集合預測提高準確度。 * **第 13 課**：完成并保存你的模型。 * **第 14 課**：Hello World 端到端項目。每節課可能需要 60 秒或 30 分鐘。花點時間，按照自己的進度完成課程。在下面的評論中提出問題甚至發布結果。課程期望你去學習如何做事。我會給你提示，但每節課的部分內容是強迫你學習去哪里尋求 Python 平臺的幫助（提示，我直接在這個博客上有所有的答案，使用搜索特征）。我確實在早期課程中提供了更多幫助，因為我希望你建立一些自信和慣性。 **掛在那里，不要放棄！** ## 第 1 課：下載并安裝 Python 和 SciPy 在您訪問平臺之前，您無法開始使用 Python 進行機器學習。今天的課程很簡單，您必須在計算機上下載并安裝 Python 3.6 平臺。訪問 [Python 主頁](https://www.python.org/)并下載適用于您的操作系統（Linux，OS X 或 Windows）的 Python。在您的計算機上安裝 Python。您可能需要使用特定于平臺的軟件包管理器，例如 OS X 上的 macport 或 RedHat Linux 上的 yum。您還需要安裝 [SciPy 平臺](https://www.python.org/)和 scikit-learn 庫。我建議使用與安裝 Python 相同的方法。您可以使用 Anaconda 一次安裝（更容易）[。推薦給初學者。](https://www.continuum.io/downloads) 通過在命令行鍵入“python”，首次啟動 Python。使用以下代碼檢查您需要的所有版本： ``` # Python version import sys print('Python: {}'.format(sys.version)) # scipy import scipy print('scipy: {}'.format(scipy.__version__)) # numpy import numpy print('numpy: {}'.format(numpy.__version__)) # matplotlib import matplotlib print('matplotlib: {}'.format(matplotlib.__version__)) # pandas import pandas print('pandas: {}'.format(pandas.__version__)) # scikit-learn import sklearn print('sklearn: {}'.format(sklearn.__version__)) ``` 如果有任何錯誤，請停止。現在是時候解決它們了。需要幫忙？看本教程： * [如何使用 Anaconda 設置用于機器學習和深度學習的 Python 環境](https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/) ## 第 2 課：在 Python，NumPy，Matplotlib 和 Pandas 中解決。您需要能夠讀取和編寫基本的 Python 腳本。作為開發人員，您可以非常快速地學習新的編程語言。 Python 區分大小寫，使用散列（＃）進行注釋，并使用空格來表示代碼塊（空白很重要）。今天的任務是在 Python 交互式環境中練習 Python 編程語言的基本語法和重要的 SciPy 數據結構。 * 練習分配，使用 Python 中的列表和流控制。 * 練習使用 NumPy 數組。 * 練習在 Matplotlib 中創建簡單的圖。 * 練習使用 Pandas Series 和 DataFrames。例如，下面是創建 Pandas **DataFrame** 的簡單示例。 ``` # dataframe import numpy import pandas myarray = numpy.array([[1, 2, 3], [4, 5, 6]]) rownames = ['a', 'b'] colnames = ['one', 'two', 'three'] mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames) print(mydataframe) ``` ## 第 3 課：從 CSV 加載數據機器學習算法需要數據。您可以從 CSV 文件加載自己的數據，但是當您開始使用 Python 進行機器學習時，您應該在標準機器學習數據集上練習。今天課程的任務是將數據加載到 Python 中以及查找和加載標準機器學習數據集。有許多優秀的 CSV 格式標準機器學習數據集，您可以在 [UCI 機器學習庫](http://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/)上下載和練習。 * 使用標準庫中的 [CSV.reader（）](https://docs.python.org/2/library/csv.html)練習將 CSV 文件加載到 Python 中。 * 練習使用 NumPy 和 [numpy.loadtxt（）](http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.loadtxt.html)函數加載 CSV 文件。 * 練習使用 Pandas 和 [pandas.read_csv（）](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)函數加載 CSV 文件。為了幫助您入門，下面是一個片段，它將直接從 UCI 機器學習庫使用 Pandas 加載 Pima 印第安人糖尿病數據集。 ``` # Load CSV using Pandas from URL import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) print(data.shape) ``` 做得好到目前為止！在那里掛。 **到目前為止有任何問題嗎？在評論中提問。** ## 第 4 課：使用描述性統計數據理解數據將數據加載到 Python 后，您需要能夠理解它。您可以越好地理解數據，您可以構建的模型越好，越準確。理解數據的第一步是使用描述性統計。今天，您的課程是學習如何使用描述性統計數據來理解您的數據。我建議使用 Pandas DataFrame 上提供的輔助函數。 * 使用 **head（）**功能了解您的數據，查看前幾行。 * 使用 **shape** 屬性查看數據的尺寸。 * 使用 **dtypes** 屬性查看每個屬性的數據類型。 * 使用 **describe（）**功能查看數據分布。 * 使用 **corr（）**函數計算變量之間的成對相關性。以下示例加載 Pima 印第安人糖尿病數據集的開始并總結每個屬性的分布。 ``` # Statistical Summary import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) description = data.describe() print(description) ``` **試一試！** ## 第 5 課：使用可視化理解數據從昨天的課程開始，您必須花時間更好地了解您的數據。提高對數據理解的第二種方法是使用數據可視化技術（例如繪圖）。今天，您的課程是學習如何在 Python 中使用繪圖來理解單獨的屬性及其交互。同樣，我建議使用 Pandas DataFrame 上提供的輔助函數。 * 使用 **hist（）**功能創建每個屬性的直方圖。 * 使用**圖（kind ='box'）**功能創建每個屬性的盒須圖。 * 使用 **pandas.scatter_matrix（）**函數創建所有屬性的成對散點圖。例如，下面的代碼片段將加載糖尿病數據集并創建數據集的散點圖矩陣。 ``` # Scatter Plot Matrix import matplotlib.pyplot as plt import pandas from pandas.plotting import scatter_matrix url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) scatter_matrix(data) plt.show() ``` ![Sample Scatter Plot Matrix](https://img.kancloud.cn/41/8d/418d931f10b59ca8e0975e1023207fbf_800x600.jpg) 樣本散點圖矩陣 ## 第 6 課：通過預處理數據準備建模您的原始數據可能未設置為建模的最佳形狀。有時您需要預處理數據，以便最好地將數據中問題的固有結構呈現給建模算法。在今天的課程中，您將使用 scikit-learn 提供的預處理功能。 scikit-learn 庫提供了兩種用于轉換數據的標準習語。每種變換在不同情況下都很有用：擬合和多變換以及組合擬合和變換。您可以使用許多技術來準備建模數據。例如，嘗試以下某些操作 * 使用比例和中心選項標準化數值數據（例如，平均值為 0，標準差為 1）。 * 使用范圍選項標準化數值數據（例如，范圍為 0-1）。 * 探索更高級的功能工程，例如二值化。例如，下面的代碼片段加載 Pima Indians 糖尿病數據集，計算標準化數據所需的參數，然后創建輸入數據的標準化副本。 ``` # Standardize data (0 mean, 1 stdev) from sklearn.preprocessing import StandardScaler import pandas import numpy url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = pandas.read_csv(url, names=names) array = dataframe.values # separate array into input and output components X = array[:,0:8] Y = array[:,8] scaler = StandardScaler().fit(X) rescaledX = scaler.transform(X) # summarize transformed data numpy.set_printoptions(precision=3) print(rescaledX[0:5,:]) ``` ## 第 7 課：使用重采樣方法進行算法評估用于訓練機器學習算法的數據集稱為訓練數據集。用于訓練算法的數據集不能用于為您提供有關新數據模型準確性的可靠估計。這是一個很大的問題，因為創建模型的整個想法是對新數據進行預測。您可以使用稱為重采樣方法的統計方法將訓練數據集拆分為子集，一些用于訓練模型，另一些則用于估計模型對未見數據的準確性。今天課程的目標是練習使用 scikit-learn 中提供的不同重采樣方法，例如： * 將數據集拆分為訓練和測試集。 * 使用 k 折交叉驗證估算算法的準確性。 * 使用留一交叉驗證估算算法的準確性。下面的片段使用 scikit-learn 使用 10 倍交叉驗證來估計 Pima Indians 糖尿病數據集開始時 Logistic 回歸算法的準確性。 ``` # Evaluate using Cross Validation from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression() results = cross_val_score(model, X, Y, cv=kfold) print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()*100.0, results.std()*100.0) ``` 你得到了什么準確度？請在評論中告訴我。 **您是否意識到這是中途點？做得好！** ## 第 8 課：算法評估指標您可以使用許多不同的度量標準來評估數據集上的機器學習算法的技能。您可以通過 **cross_validation.cross_val_score（）**函數在 scikit-learn 中指定用于測試工具的度量標準，默認值可用于回歸和分類問題。今天課程的目標是練習使用 scikit-learn 包中提供的不同算法表現指標。 * 練習在分類問題上使用 Accuracy 和 LogLoss 指標。 * 練習生成混淆矩陣和分類報告。 * 練習在回歸問題上使用 RMSE 和 RSquared 指標。下面的片段演示了計算皮馬印第安人糖尿病數據集開始時的 LogLoss 指標。 ``` # Cross Validation Classification LogLoss from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression() scoring = 'neg_log_loss' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print("Logloss: %.3f (%.3f)") % (results.mean(), results.std()) ``` 你得到了什么日志損失？請在評論中告訴我。 ## 第 9 課：抽樣檢查算法您不可能事先知道哪種算法在您的數據上表現最佳。你必須使用反復試驗的過程來發現它。我稱這種點檢算法。 scikit-learn 庫提供了許多機器學習算法和工具的接口，用于比較這些算法的估計精度。在本課程中，您必須練習現場檢查不同的機器學習算法。 * 點檢數據集上的線性算法（例如線性回歸，邏輯回歸和線性判別分析）。 * 在數據集上檢查一些非線性算法（例如 KNN，SVM 和 CART）。 * 在數據集上對一些復雜的集成算法進行抽查（例如隨機森林和隨機梯度增強）。例如，下面的片段在波士頓房價數據集上點檢查 K-Nearest Neighbors 算法。 ``` # KNN Regression from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.neighbors import KNeighborsRegressor url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data" names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] dataframe = read_csv(url, delim_whitespace=True, names=names) array = dataframe.values X = array[:,0:13] Y = array[:,13] kfold = KFold(n_splits=10, random_state=7) model = KNeighborsRegressor() scoring = 'neg_mean_squared_error' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print(results.mean()) ``` 你得到的誤差是什么意思？請在評論中告訴我。 ## 第 10 課：模型比較和選擇現在您已了解如何在數據集上查看機器學習算法，您需要知道如何比較不同算法的估計表現并選擇最佳模型。在今天的課程中，您將練習比較 Python 中的機器學習算法與 scikit-learn 的準確性。 * 在數據集上比較線性算法。 * 在數據集上比較非線性算法。 * 將相同算法的不同配置相互比較。 * 創建比較算法的結果圖。以下示例將 Pima Indians 糖尿病數據集開始時的 Logistic 回歸和線性判別分析相互比較。 ``` # Compare Algorithms from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # load dataset url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] # prepare models models = [] models.append(('LR', LogisticRegression())) models.append(('LDA', LinearDiscriminantAnalysis())) # evaluate each model in turn results = [] names = [] scoring = 'accuracy' for name, model in models: kfold = KFold(n_splits=10, random_state=7) cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) results.append(cv_results) names.append(name) msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) print(msg) ``` 哪種算法效果更好？你能做得更好嗎？請在評論中告訴我。 ## 第 11 課：通過算法調整提高準確性一旦找到一個或兩個在數據集上表現良好的算法，您可能希望提高這些模型的表現。提高算法表現的一種方法是將其參數調整為特定數據集。 scikit-learn 庫提供了兩種搜索機器學習算法參數組合的方法。今天課程的目標是練習每一個。 * 使用您指定的網格搜索調整算法的參數。 * 使用隨機搜索調整算法的參數。下面使用的片段是在皮馬印第安人糖尿病數據集開始時使用網格搜索嶺回歸算法的示例。 ``` # Grid Search for Algorithm Tuning from pandas import read_csv import numpy from sklearn.linear_model import Ridge from sklearn.model_selection import GridSearchCV url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0]) param_grid = dict(alpha=alphas) model = Ridge() grid = GridSearchCV(estimator=model, param_grid=param_grid) grid.fit(X, Y) print(grid.best_score_) print(grid.best_estimator_.alpha) ``` 哪些參數達到了最佳效果？你能做得更好嗎？請在評論中告訴我。 ## 第 12 課：使用集合預測提高準確性另一種可以提高模型表現的方法是組合多個模型的預測。有些型號提供內置的這種功能，例如用于裝袋的隨機森林和用于增強的隨機梯度增強。另一種稱為投票的集合可用于將來自多個不同模型的預測組合在一起。在今天的課程中，您將練習使用整體方法。 * 使用隨機森林和額外樹木算法練習套袋合奏。 * 使用梯度增強機和 AdaBoost 算法練習增強樂團。 * 通過將多個模型的預測結合在一起來實踐投票合奏。下面的代碼片段演示了如何在皮馬印第安人糖尿病數據集中使用隨機森林算法（袋裝決策樹集合）。 ``` # Random Forest Classification from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] num_trees = 100 max_features = 3 kfold = KFold(n_splits=10, random_state=7) model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features) results = cross_val_score(model, X, Y, cv=kfold) print(results.mean()) ``` 你能設計一個更好的合奏嗎？請在評論中告訴我。 ## 第 13 課：完成并保存模型一旦在機器學習問題上找到了表現良好的模型，就需要完成它。在今天的課程中，您將練習與完成模型相關的任務。練習使用您的模型對新數據進行預測（在訓練和測試期間看不到的數據）。練習保存訓練有素的模型進行歸檔并重新加載。例如，下面的代碼段顯示了如何創建 Logistic 回歸模型，將其保存到文件，然后稍后加載并對未見數據進行預測。 ``` # Save Model Using Pickle from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression import pickle url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] test_size = 0.33 seed = 7 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed) # Fit the model on 33% model = LogisticRegression() model.fit(X_train, Y_train) # save the model to disk filename = 'finalized_model.sav' pickle.dump(model, open(filename, 'wb')) # some time later... # load the model from disk loaded_model = pickle.load(open(filename, 'rb')) result = loaded_model.score(X_test, Y_test) print(result) ``` ## 第 14 課：Hello World 端到端項目您現在知道如何完成預測建模機器學習問題的每個任務。在今天的課程中，您需要練習將各個部分組合在一起，并通過端到端的標準機器學習數據集進行操作。完成[虹膜數據集](https://archive.ics.uci.edu/ml/datasets/Iris)端到端（機器學習的 hello 世界）這包括以下步驟： 1. 使用描述性統計和可視化了解您的數據。 2. 預處理數據以最好地揭示問題的結構。 3. 使用您自己的測試工具對許多算法進行抽查。 4. 使用算法參數調整改善結果。 5. 使用集合方法改善結果。 6. 最終確定模型以備將來使用。慢慢來，并記錄您的結果。你用的是什么型號的？你得到了什么結果？請在評論中告訴我。 ## 結束！（_ 看你有多遠 _）你做到了。做得好！花點時間回顧一下你到底有多遠。 * 您開始對機器學習感興趣，并希望能夠使用 Python 練習和應用機器學習。 * 您下載，安裝并啟動了 Python，這可能是第一次并開始熟悉該語言的語法。 * 在一些課程中，您慢慢地，穩定地學習了預測建模機器學習項目的標準任務如何映射到 Python 平臺上。 * 基于常見機器學習任務的秘籍，您使用 Python 端到端地完成了第一次機器學習問題。 * 使用標準模板，您收集的秘籍和經驗現在能夠自己完成新的和不同的預測建模機器學習問題。不要輕視這一點，你在很短的時間內走了很長的路。這只是您使用 Python 進行機器學習之旅的開始。繼續練習和發展你的技能。 ## 摘要你是如何使用迷你課程的？你喜歡這個迷你課嗎？你有任何問題嗎？有沒有任何問題？讓我知道。在下面發表評論。