應用機器學習過程 · Machine Learning Mastery 博客文章翻譯

# 應用機器學習過程 > 原文： [https://machinelearningmastery.com/process-for-working-through-machine-learning-problems/](https://machinelearningmastery.com/process-for-working-through-machine-learning-problems/) ## _ _提供高于平均結果的_ _預測模型問題的系統過程__ 隨著時間的推移，在應用機器學習問題時，您需要開發一種模式或流程，以便快速獲得良好的穩健結果。開發完成后，您可以在項目之后一次又一次地使用此過程。您的流程越健壯，越發展，您獲得可靠結果的速度就越快。在這篇文章中，我想與您分享我處理機器學習問題的過程的骨架。您可以將其用作下一個項目的起點或模板。 ## 5步系統過程我喜歡使用5個步驟： 1. 定義問題 2. 準備數據 3. 抽樣檢查算法 4. 改善結果 5. 目前的結果這個過程有很多靈活性。例如，“準備數據”步驟通常分解為分析數據（匯總和圖表）并準備數據（為實驗準備樣品）。 “抽查”步驟可能涉及多個正式實驗。這是一條偉大的大型生產線，我嘗試以線性方式進行。使用自動化工具的好處在于您可以返回幾個步驟（例如從“改進結果”回到“準備數據”）并插入數據集的新變換并在中間步驟中重新運行實驗以查看有趣的結果出來了，它們與你之前執行的實驗相比如何。 [![Production Line](https://img.kancloud.cn/08/f6/08f6fb9dc5fe16f40f930916aa02bbfa_500x375.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/02/production-line.jpg) 生產線攝影： [East Capital](http://www.flickr.com/photos/eastcapital/4554220770/sizes/o/) ，部分版權所有我使用的過程是從數據庫（或KDD）中的知識發現的標準數據挖掘過程改編而來的，有關詳細信息，請參閱文章[什么是數據挖掘和KDD](http://machinelearningmastery.com/what-is-data-mining-and-kdd/ "What is Data Mining and KDD") 。 ## 1.定義問題我喜歡使用三步過程來定義問題。我喜歡快速行動，我使用這個迷你流程從幾個不同的角度很快看到問題： * **第1步：有什么問題？** 非正式地和正式地描述問題并列出假設和類似問題。 * **第2步：為什么問題需要解決？** 列出解決問題的動機，解決方案提供的好處以及解決方案的使用方法。 * **第3步：我該如何解決這個問題？** 描述如何手動解決問題以刷新領域知識。您可以在帖子中了解有關此過程的更多信息： * [如何定義機器學習問題](http://machinelearningmastery.com/how-to-define-your-machine-learning-problem/ "How to Define Your Machine Learning Problem") ## 2.準備數據我將數據準備與數據分析階段相結合，該階段涉及總結屬性并使用散點圖和直方圖對其進行可視化。我還想詳細描述屬性和屬性之間的關系。這種笨拙的工作迫使我在問題丟失之前考慮問題上下文中的數據實際的數據準備過程分為以下三個步驟： * **步驟1：數據選擇**：考慮可用的數據，缺少的數據以及可以刪除的數據。 * **步驟2：數據預處理**：通過格式化，清理和采樣來組織您選擇的數據。 * **步驟3：數據轉換**：通過使用縮放，屬性分解和屬性聚合的工程特征，轉換為機器學習做好準備的預處理數據。您可以在帖子中了解有關準備數據的此過程的更多信息： * [如何為機器學習準備數據](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning") ## 3.抽查算法我默認在測試工具中使用10倍交叉驗證。所有實驗（算法和數據集組合）重復10次，并收集和報告準確度的均值和標準偏差。我還使用統計顯著性檢驗從噪聲中清除有意義的結果。箱形圖對于總結每個算法和數據集對的準確度結果的分布非常有用。我發現了檢查算法，這意味著將一堆標準機器學習算法加載到我的測試工具中并執行正式實驗。我通常在我準備好的數據集的所有轉換和縮放版本中運行來自所有[主要算法系列](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ "A Tour of Machine Learning Algorithms")的10-20個標準算法。抽樣檢查的目標是清除擅長挑選問題結構的算法類型和數據集組合，以便通過重點實驗更詳細地研究它們。可以在該步驟中執行具有良好表現算法族的更集中的實驗，但是算法調整留待下一步驟。您可以在帖子中發現有關定義測試工具的更多信息： * [如何評估機器學習算法](http://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/ "How to Evaluate Machine Learning Algorithms") 您可以在帖子中發現抽查算法的重要性： * [為什么你應該在機器學習問題上進行抽樣檢查算法](http://machinelearningmastery.com/why-you-should-be-spot-checking-algorithms-on-your-machine-learning-problems/ "Why you should be Spot-Checking Algorithms on your Machine Learning Problems") ## 4.改善結果在現場檢查之后，是時候從鉆機中擠出最好的結果了。我這樣做是通過對最佳表現算法的參數進行自動靈敏度分析。我還使用頂級執行算法的標準集合方法設計和運行實驗。我花了很多時間思考如何從數據集或已經證明表現良好的算法族中獲得更多。同樣，結果的統計顯著性在這里至關重要。很容易關注方法并使用算法配置。結果只有在它們很重要且所有配置都已經過考慮并且實驗是批量執行時才有意義。我也想在問題上保持自己的個人排行榜。總之，改進結果的過程包括： * **算法調整**：通過模型參數空間將發現最佳模型視為搜索問題。 * **集合方法**：將多個模型的預測結合起來。 * **極限特征工程**：數據準備中看到的屬性分解和聚合被推到極限。您可以在帖子中發現有關此過程的更多信息： * [如何提高機器學習效果](http://machinelearningmastery.com/how-to-improve-machine-learning-results/ "How to Improve Machine Learning Results") ## 5.目前的結果復雜的機器學習問題的結果除非付諸實施，否則毫無意義。這通常意味著向利益相關者展示。即使這是我為自己工作的競爭或問題，我仍然會經歷呈現結果的過程。這是一個很好的練習，給了我明確的學習，我可以在下次建立。我用來呈現結果的模板如下，可以采用文本文檔，正式報告或演示幻燈片的形式。 * **上下文（為什么）**：定義問題所在的環境并設置研究問題的動機。 * **問題（問題）**：簡單地將問題描述為你出去回答的問題。 * **解決方案（答案）**：簡要描述解決方案，作為您在上一節中提出的問題的答案。請明確點。 * **調查結果**：您在觀眾感興趣的路上發現的項目符號列表。它們可能是數據中的發現，已完成或未起作用的方法，或者您在旅程中獲得的模型表現優勢。 * **限制**：考慮模型不起作用的地方或模型未回答的問題。不要回避這些問題，如果你可以定義它不擅長的地方，那么定義模型擅長的地方會更加可信。 * **結論（為什么+問題+答案）**：重新審視“為什么”，研究問題以及您在一個易于記憶并為自己和他人重復的緊湊小包裝中發現的答案。您可以在帖子中發現有關使用機器學習項目結果的更多信息： * [如何使用機器學習結果](http://machinelearningmastery.com/how-to-use-machine-learning-results/ "How to Use Machine Learning Results") ## 摘要在這篇文章中，您已經學習了我處理機器學習問題的通用模板。我使用這個過程幾乎沒有失敗，我使用它跨越平臺，從 [Weka](http://machinelearningmastery.com/what-is-the-weka-machine-learning-workbench/ "What is the Weka Machine Learning Workbench") ，R和scikit-learn甚至新平臺我一直在玩像pylearn2。您的流程是什么，發表評論并分享？您是否會復制此流程，如果是，您將對其進行哪些更改？