使用 scikit-learn 進行機器學習簡介 · Machine Learning Mastery 博客文章翻譯

# 使用 scikit-learn 進行機器學習簡介 > 原文： [https://machinelearningmastery.com/introduction-machine-learning-scikit-learn/](https://machinelearningmastery.com/introduction-machine-learning-scikit-learn/) [scikit-learn 庫](http://machinelearningmastery.com/a-gentle-introduction-to-scikit-learn-a-python-machine-learning-library/)是日常機器學習和數據科學最受歡迎的平臺之一。原因是它是基于 Python 構建的，這是一種功能齊全的編程語言。但是如何開始使用 scikit-learn 進行機器學習。 Kevin Markham 是一名數據科學訓練師，他創建了一系列 9 個視頻，向您展示如何使用 scikit-learn 開始機器學習。在這篇文章中，您將發現這一系列視頻以及所涵蓋的內容，一步一步地幫助您確定材料是否對您有用。 ## 視頻系列概述 [Kevin Markham](https://www.linkedin.com/in/justmarkham) 是一名數據科學訓練師，正式來自[大會](https://generalassemb.ly/)，計算機編程編程訓練營。 Kevin 創建了自己的訓練網站[數據學院](http://www.dataschool.io/)并分享了數據科學和機器學習的訓練。他擅長機器學習，并且視頻格式清晰。 2015 年，Mark 與機器學習競賽網站 Kaggle 合作，創建了一系列 9 個視頻和博客文章，使用 scikit-learn 輕松介紹機器學習。 9 個視頻的主題是： * 什么是機器學習，它是如何工作的？ * 為機器學習設置 Python：scikit-learn 和 IPython Notebook * scikit 入門 - 使用著名的虹膜數據集學習 * 用 scikit-learn 訓練機器學習模型 * 比較 scikit-learn 中的機器學習模型 * Python 中的數據科學：pandas，seaborn，scikit-learn * 使用交叉驗證選擇 scikit 中的最佳模型 * 如何在 scikit-learn 中找到最佳模型參數 * 如何評估 scikit-learn 中的分類器您可以在 Kaggle 上查看每個視頻的[博客文章。還有一個](http://blog.kaggle.com/author/kevin-markham/) [YouTube 播放列表](https://www.youtube.com/playlist?list=PL5-da3qGB5ICeMbQuqbbCOQWcS6OYBr5A)，您可以一個接一個地觀看所有 9 個視頻。您還可以使用 9 個視頻中的每個視頻中使用的代碼和演示材料訪問 [IPython 筆記本](https://github.com/justmarkham/scikit-learn-videos)。接下來我們將回顧該系列中的 9 個視頻。 ## 視頻 1：計算機如何從數據中學習？在第一個視頻中，Mark 指出該系列的重點是針對 Python 程序員的 scikit-learn。它也沒有假設任何先驗知識或熟悉機器學習，但他很快指出，如果不了解機器學習，就不能有效地使用 scikit-learn。該視頻包括： * 什么是機器學習？ * 機器學習的兩大類是什么？（有監督和無監督） * 什么是機器學習的例子？（泰坦尼克號沉沒時的乘客生存） * 機器學習如何運作？（從示例中學習如何預測新數據） <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/elojMnjn4kk?feature=oembed" width="500"></iframe> 他將機器學習定義為： > 機器學習是從數據中半自動提取知識他提供了應用機器學習過程的精美圖像概述。 ![Data School Machine Learning Process](https://img.kancloud.cn/68/46/684600fd1598003005bba4120673fd08_540x360.jpg) 數據學校機器學習過程（[從這里](http://blog.kaggle.com/wp-content/uploads/2015/04/01_supervised_learning.png)） ## 視頻 2：為機器學習設置 Python 第二個視頻主要是關于如何使用 [IPython 筆記本](http://ipython.org/notebook.html)的教程（現在可能被取代為 [Jupyter 筆記本](http://jupyter.org/)）。涉及的主題是： * scikit-learn 有哪些好處和缺點？ * 如何安裝 scikit-learn？ * 我如何使用 IPython 筆記本？ * 學習 Python 有哪些好資源？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/IsXXlYVBt1M?feature=oembed" width="500"></iframe> Mark 花了一些時間研究 scikit-learn 的好處，建議： * 它為機器學習算法提供了一致的界面。 * 它為每種算法提供了許多調整參數，并使用合理的默認值。 * 它有很好的文檔。 * 它具有豐富的機器學習相關任務功能。 * 它在 StackOverflow 和郵件列表上有一個活躍的開發人員社區。將 scikit-learn 與 R 進行比較，他建議 R 在開始時更快地進行機器學習，但從長遠來看，你可以更深入地學習 scikit-learn。他還建議 R 具有統計學習焦點，對模型可解釋性感興趣，而 scikit-learn 具有機器學習焦點，對預測準確性感興趣。我建議 R 中的[插入符](http://machinelearningmastery.com/caret-r-package-for-applied-predictive-modeling/)是一個功能強大且可能無與倫比的工具。 ## 視頻 3：機器學習第一步使用 scikit-learn 本視頻主要關注機器學習的“ _hello world_ ”，[虹膜花數據集](https://archive.ics.uci.edu/ml/datasets/Iris)。這包括加載數據和查看數據。本視頻涉及的主題包括： * 什么是著名的虹膜數據集，它與機器學習有什么關系？ * 我們如何將虹膜數據集加載到 scikit-learn 中？ * 我們如何使用機器學習術語描述數據集？ * 什么是 scikit-learn 處理數據的四個關鍵要求？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/hd1W4CyPX58?feature=oembed" width="500"></iframe> 如果您希望在 scikit-learn 中使用它，Mark 會總結您的數據的 4 個要求： * 輸入和響應變量必須分隔對象（X 和 y）。 * 輸入和響應變量必須是數字。 * 輸入和響應變量必須是 numpy 數組（ndarray）。 * 輸入和響應變量必須具有一致的形狀（行和列）。 ## 視頻 4：使用 scikit-learn 進行預測本視頻重點介紹如何在 scikit-learn 中構建您的第一個機器學習模型。 K-Nearest Neighbors 模型。涉及的主題包括： * 什么是 K-最近鄰分類模型？ * scikit-learn 中模型訓練和預測的四個步驟是什么？ * 如何將此模式應用于其他機器學習模型？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/RlQuVL6-qe8?feature=oembed" width="500"></iframe> Mark 總結了在 scikit-learn 中使用任何模型（在 API 中調用估算器）時必須遵循的 4 個步驟： * 您計劃使用的導入課程。 * 實例化估算器（模型是估算器）。 * 通過調用.fit（）函數使模型適合數據（訓練模型）。 * 通過調用.predict（）函數預測新觀察（樣本外）的響應。 ## 視頻 5：選擇機器學習模型本視頻側重于比較 scikit-learn 中的機器學習模型。 Mark 指出，構建有監督的機器學習模型的目標是推廣到樣本數據之外，即對未來的新數據做出準確的預測。涵蓋的主題包括： * 如何選擇用于我的監督學習任務的模型？ * 如何為該模型選擇最佳調整參數？ * 如何估計模型在樣本外數據上的可能性？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/0pP4EwWJgIU?feature=oembed" width="500"></iframe> 該視頻開始研究使用單個數據集估算模型表現的方法，從測試精度開始，然后查看使用訓練/測試分割并查看測試精度。 ## 視頻 6：Python 中的數據科學：pandas 和 scikit-learn 本視頻介紹了在使用 scikit-learn 時非常有用的相關庫，特別是用于加載和處理數據的 pandas 庫以及用于簡單和干凈的數據可視化的 seaborn 庫。該視頻也遠離分類，并著眼于回歸問題，實際值數據的預測。建立線性回歸模型，并評估不同的表現指標以評估構建的模型。以下是此較長視頻中涵蓋的主題列表： * 如何使用 pandas 庫將數據讀入 Python？ * 如何使用 seaborn 庫可視化數據？ * 什么是線性回歸，它是如何工作的？ * 如何在 scikit-learn 中訓練和解釋線性回歸模型？ * 回歸問題的評估指標有哪些？ * 如何選擇要包含在模型中的功能？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/3ZWuPVWq7p4?feature=oembed" width="500"></iframe> ## 視頻 7：交叉驗證簡介該視頻通過使用 k-fold 交叉驗證，深入研究了用于評估機器學習算法在看不見的數據上的表現的標準方法。馬克指出，單獨使用訓練精度會過度擬合已知數據，模型不會很好地概括。在訓練/測試拆分中單獨使用測試數據將具有高差異，這意味著它將對訓練和測試集的細節敏感。他建議交叉驗證可以在這些問題之間取得良好的平衡。該視頻包含以下主題： * 使用訓練/測試拆分程序進行模型評估有什么缺點？ * K-fold 交叉驗證如何克服這一限制？ * 如何使用交叉驗證來選擇調整參數，在模型之間進行選擇以及選擇要素？ * 交叉驗證有哪些可能的改進？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/6dbrR-WymjI?feature=oembed" width="500"></iframe> 交叉驗證用于模型選擇，調整模型參數和特征選擇。 Mark 列出了三個從交叉驗證中獲得最大收益的技巧： * 使用重復的 10 倍交叉驗證來進一步減少估計表現的變化。 * 使用保持的驗證數據集來確認從交叉驗證中看到的估計值并捕獲任何數據泄漏錯誤。 * 在交叉驗證折疊中執行所有特征選擇和工程設計，以避免數據泄漏錯誤。 ![Data School Cross Validation](https://img.kancloud.cn/67/54/6754324f7cb43ca66b539e5120382e56_389x536.jpg) 數據學校 K 折交叉驗證（[來自](http://blog.kaggle.com/wp-content/uploads/2015/06/07_cross_validation_diagram.png)） ## 視頻 8：尋找最佳模型參數本視頻重點介紹可用于調整機器學習算法參數（稱為超參數）的技術。 Mark 為算法調優引入了交叉驗證，如何使用網格搜索來嘗試參數組合和隨機搜索參數組合以提高效率。 This video covers the following topics: * 如何使用 K-fold 交叉驗證來搜索最佳調整參數？ * 如何提高這一過程的效率？ * 如何一次搜索多個調整參數？ * 在進行實際預測之前，您如何處理這些調整參數？ * 如何減少這個過程的計算費用？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/Gol_qOgRqfA?feature=oembed" width="500"></iframe> ## 視頻 9：如何在 scikit-learn 中評估分類器這是該系列中的最終視頻，也是最長的視頻。在這個視頻中，Mark 介紹了很多關于技術的材料，這些技術可以用來評估分類問題的機器學習模型。 The topics covered in this video are: * 模型評估的目的是什么，以及一些常見的評估程序是什么？ * 分類準確度的用途是什么，它的局限性是什么？ * 混淆矩陣如何描述分類器的表現？ * 可以從混淆矩陣計算哪些指標？ * 如何通過更改分類閾值來調整分類器表現？ * ROC 曲線的目的是什么？ * 曲線下面積（AUC）與分類準確度有何不同？ <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/85dtiMz9tSo?feature=oembed" width="500"></iframe> Mark 花了他的時間并仔細描述了混淆矩陣，敏感性和特異性的細節以及 ROC 曲線。 ## 摘要在這篇文章中，你發現了 Kevin Markham 的視頻系列，題為“_ 機器學習與 scikit-learn_ 的簡介”。您了解到它包含 9 個視頻： * 什么是機器學習，它是如何工作的？ * 為機器學習設置 Python：scikit-learn 和 IPython Notebook * scikit 入門 - 使用著名的虹膜數據集學習 * 用 scikit-learn 訓練機器學習模型 * 比較 scikit-learn 中的機器學習模型 * Python 中的數據科學：pandas，seaborn，scikit-learn * 使用交叉驗證選擇 scikit 中的最佳模型 * 如何在 scikit-learn 中找到最佳模型參數 * 如何評估 scikit-learn 中的分類器 Mark 已經制作了一個精彩的視頻系列，向您介紹 scikit-learn 的機器學習。我強烈建議觀看所有這些。你看過一些或所有這些視頻嗎？你覺得呢？在評論區分享你的觀點。