使用來自 UCI 機器學習庫的數據集練習機器學習 · Machine Learning Mastery 博客文章翻譯

# 使用來自 UCI 機器學習庫的數據集練習機器學習 > 原文： [https://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/](https://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/) 在哪里可以獲得良好的數據集來練習機器學習？數據集是真實的，因此它們很有趣且相關，雖然足夠小，您可以在 Excel 中查看并在桌面上完成工作。在這篇文章中，您將發現一個高質量，真實世界且易于理解的機器學習數據集的數據庫，您可以使用它來練習應用的機器學習。該數據庫稱為 UCI 機器學習庫，您可以使用它來構建自學程序并為機器學習奠定堅實的基礎。 ![Practice Practice Practice](img/1b9695b3c816e91aceb719bc1dfd95f5.jpg) 實踐練習攝影： [Phil Roeder](https://www.flickr.com/photos/tabor-roeder/16760089648/) ，保留一些權利。 ## 我們為什么需要練習數據集？如果您對應用機器學習感興趣，則需要練習數據集。這個問題可以阻止你死。 * 你應該使用哪個數據集？ * 你應該自己收集還是使用現成的？ * 哪一個和為什么？我教授一種自上而下的機器學習方法，我鼓勵您學習端到端解決問題的過程，將該過程映射到工具上，并以有針對性的方式對數據進行處理。有關更多信息，請參閱我的文章“[程序員機器學習：從開發人員到機器學習從業者的跳躍](http://machinelearningmastery.com/machine-learning-for-programmers/)”。 ### 那你如何以有針對性的方式練習？我教導說，最好的入門方法是練習具有特定特征的數據集。我建議您選擇在遇到自己的問題時遇到并需要解決的特征，例如： * 不同類型的監督學習，如分類和回歸。 * 來自數十，數百，數千和數百萬個實例的不同大小的數據集。 * 來自少于十個，幾十個，幾百個和幾千個屬性的不同數量的屬性 * 來自實數，整數，分類，序數和混合的不同屬性類型 * 不同的域名會迫使您快速了解和描述您之前沒有經驗的新問題。您可以通過設計一個測試問題數據集程序來創建一個學習和學習的特征程序以及解決它們所需的算法。這樣的程序有許多實際要求，例如： * **真實世界**：數據集應該來自現實世界（而不是設計）。這將使他們感興趣并介紹真實數據帶來的挑戰。 * **小**：數據集需要很小，以便您可以檢查和理解它們，并且可以快速運行多個模型以加快學習周期。 * **很好理解**：應該清楚地知道數據包含什么，為什么收集數據，需要解決的問題是什么，以便您可以構建調查框架。 * **基線**：了解已知哪些算法表現良好以及獲得的分數以便您有一個有用的比較點也很重要。當您開始學習時，這很重要，因為您需要快速反饋您的表現（接近最新技術或某些內容已被破壞）。 * **豐富**：您需要選擇許多數據集，以滿足您想要調查的特征和（如果可能的話）您的天生好奇心和興趣。對于初學者，您可以從 UCI 機器學習庫中獲取所需的所有內容以及更多數據集。 ## 什么是 UCI 機器學習庫？ [UCI 機器學習庫](http://archive.ics.uci.edu/ml/)是一個機器學習問題的數據庫，您可以免費訪問。它由位于加州大學歐文分校的[機器學習和智能系統中心](http://cml.ics.uci.edu/)托管和維護。它最初由 [David Aha](http://home.earthlink.net/~dwaha/) 創建，作為加州大學歐文分校的研究生。 25 年來，它一直是需要數據集的機器學習研究人員和機器學習從業者的首選。 [![UCI Machine Learning Repository](img/c37b3b5aff40c6a329e7e93b31dbb937.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2015/08/UCI-Machine-Learning-Repository.png) UCI 機器學習庫每個數據集都有自己的網頁，列出了所有已知的詳細信息，包括調查它的任何相關出版物。數據集本身可以作為 ASCII 文件下載，通常是有用的 CSV 格式。例如，這里是[鮑魚數據集](http://archive.ics.uci.edu/ml/datasets/Abalone)的網頁，需要從物理測量中預測鮑魚的年齡。 ### 存儲庫的好處該庫的一些有益功能包括： * 幾乎所有數據集都是從域中提取的（而不是合成的），這意味著它們具有真實世界的品質。 * 數據集涵蓋了從生物學到粒子物理學的廣泛主題。 * 數據集的詳細信息通過屬性類型，實例數，屬性數和可以排序和搜索的已發布年份等方面進行匯總。 * 對數據集進行了充分研究，這意味著它們在有趣的屬性和預期的“好”結果方面是眾所周知的。這可以為比較提供有用的基線。 * 大多數數據集都很小（數百到數千個實例），這意味著您可以在文本編輯器或 MS Excel 中輕松加載它們并查看它們，您也可以在工作站上快速建模它們。使用[這個支持排序和搜索的方便表](http://archive.ics.uci.edu/ml/datasets.html)瀏覽 300 多個數據集。 ### 對存儲庫的批評對存儲庫的一些批評包括： * 清理數據集，這意味著準備它們的研究人員通常已經根據屬性和實例的選擇進行了一些預處理。 * 數據集很小，如果您對調查更大規模的問題和技術感興趣，這沒有用。 * 有很多可供選擇，你可以通過猶豫不決和過度分析來凍結。當您不確定它是否是您正在調查的“_ 良好數據集 _”時，可能很難選擇數據集并開始使用。 * 數據集僅限于表格數據，主要用于分類（盡管列出了聚類和回歸數據集）。這對于那些對自然語言，計算機視覺，推薦器和其他數據感興趣的人來說是有限的。看一下[存儲庫主頁](http://archive.ics.uci.edu/ml/)，因為它顯示了特色數據集，最新的數據集以及當前最受歡迎的數據集。 ## 自學課程那么，如何充分利用 UCI 機器學習庫？我建議你考慮一下你想要了解的問題數據集中的特征。這些可能是您想要建模的特征（如回歸），或者是您希望在使用時更熟練的這些特征的模型算法（如隨機森林用于多類分類）。示例程序可能如下所示： * 二元分類：[皮馬印第安人糖尿病數據集](http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes) * 多類分類：[虹膜數據集](http://archive.ics.uci.edu/ml/datasets/Iris) * 回歸：[葡萄酒質量數據集](http://archive.ics.uci.edu/ml/datasets/Wine+Quality) * 分類屬性：[乳腺癌數據集](http://archive.ics.uci.edu/ml/datasets/Breast+Cancer) * 整數屬性：[計算機硬件數據集](https://archive.ics.uci.edu/ml/datasets/Computer+Hardware) * 分類成本函數：[德國信貸數據](https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)) * 缺失數據：[馬絞痛數據集](https://archive.ics.uci.edu/ml/datasets/Horse+Colic) 這只是一個特征列表，可以挑選和選擇自己的特征進行調查。我列出了每個特征的一個數據集，但是您可以選擇 2-3 個不同的數據集并完成一些小項目以提高您的理解并進行更多練習。對于每個問題，我建議您從端到端系統地進行操作，例如，在應用的機器學習過程中執行以下步驟： 1. 定義問題 2. 準備數據 3. 評估算法 4. 改善結果 5. 寫作結果 [![Machine Learning for Programmers - Select a Systematic Process](img/9808919901691497af468a6cf9a89d8d.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2015/08/Machine-Learning-for-Programmers-Select-a-Systematic-Process-e1439699783406.png) 選擇一個系統且可重復的流程，您可以使用該流程始終如一地提供結果。有關系統學習機器學習問題的更多信息，請參閱我的帖子“[處理機器學習問題的過程](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/)”。寫作是關鍵部分。它允許您構建一系列項目，您可以將這些項目作為未來項目的參考并獲得快速啟動，以及用作公共簡歷或您在應用機器學習中不斷增長的技能和能力。有關構建項目組合的更多信息，請參閱我的文章“[構建機器學習組合：完成小型項目并展示您的技能](http://machinelearningmastery.com/build-a-machine-learning-portfolio/)”。 ## 但是，如果...... **我不知道機器學習工具。** 選擇一個工具或平臺（如 Weka，R 或 scikit-learn）并使用此過程學習工具。完成機器學習和同時擅長工具的工作。 **我不知道如何編程（或代碼非常好）。** [使用 Weka](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/) 。它具有圖形用戶界面，無需編程。我會向初學者推薦這個，無論他們是否可以編程，因為工作機器學習問題的過程很好地映射到平臺上。 **我沒有時間。** 憑借強大的系統流程和涵蓋整個流程的優秀工具，我認為您可以在一兩個小時內解決問題。這意味著您可以在一個晚上或兩個晚上完成一個項目。您可以選擇要調查的詳細程度，最好在剛開始時保持簡潔明了。 **我在我正在建模的領域沒有背景知識。** 數據集頁面提供了有關數據集的一些背景知識。通常，您可以通過查看主數據集附帶的出版物或信息文件來深入了解。 **我幾乎沒有經驗來解決機器學習問題。** 現在是時候開始了。選擇一個[系統過程](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/)，選擇一個簡單的數據集和像 [Weka](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/) 這樣的工具，解決你的第一個問題。把第一塊石頭放在你的機器學習基礎上。 **我沒有數據分析經驗。** 無需數據分析經驗。數據集簡單易懂，易于理解。您只需要使用數據集主頁并通過查看數據文件本身來閱讀它們。 ## 行動步驟選擇一個數據集并開始使用。如果您認真對待自學，請考慮設計一個適度的特征列表和相應的數據集進行調查。您將學到很多東西，并為潛入更復雜和有趣的問題奠定寶貴的基礎。你覺得這篇文章有用嗎？發表評論并告訴我。