如何評估機器學習算法 · Machine Learning Mastery 博客文章翻譯

# 如何評估機器學習算法 > 原文： [https://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/](https://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/) 一旦[定義了您的問題](http://machinelearningmastery.com/how-to-define-your-machine-learning-problem/ "How to Define Your Machine Learning Problem")和[準備好您的數據](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning")，您需要將機器學習算法應用于數據以解決您的問題。您可以花費大量時間選擇，運行和調整算法。您希望確保有效利用時間來更接近目標。在這篇文章中，您將逐步完成一個過程，快速測試算法并發現問題中是否存在用于學習算法以及哪些算法有效的結構。 [![Test Harness](https://img.kancloud.cn/4e/e8/4ee8c8aed1bd1de28e7a835975afe18a_1024x660.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2013/12/test-harness.jpg) 測試線束照片歸屬于 [NASA Webb望遠鏡](http://www.flickr.com/photos/nasawebbtelescope/8721550190/sizes/l/)，部分版權所有 ## 測試線束您需要定義測試工具。測試工具是您將訓練和測試算法的數據，以及您將用于評估其表現的表現測量。重要的是要很好地定義測試工具，以便您可以專注于評估不同的算法并深入思考問題。測試工具的目標是能夠快速一致地測試算法，以反映正在解決的問題的公平表示。針對線束測試多種算法的結果將是對各種算法如何針對所選表現度量對問題執行的估計。您將知道哪些算法可能值得調整問題，哪些算法不應該進一步考慮。結果還將告訴您問題的可學習性。如果各種不同的學習算法大學在這個問題上表現不佳，那么可能表明缺乏可用于學習算法的結構。這可能是因為在所選數據中實際上缺乏可學習的結構，或者它可能是嘗試不同變換以將結構暴露給學習算法的機會。 ### 表現指標表現度量是您希望評估問題解決方案的方式。它是您對測試數據集上受過訓練的模型所做的預測所做的測量。表現度量通常專用于您正在使用的問題類，例如分類，回歸和聚類。許多標準表現指標將為您提供對您的問題域有意義的分數。例如，分類的分類準確性（總校正校正除以總預測數乘以100將其變為百分比）。您可能還需要更詳細的表現細分，例如，您可能想知道垃圾郵件分類問題的誤報，因為好的電子郵件將被標記為垃圾郵件并且無法讀取。有許多標準的表現指標可供選擇。您很少需要自己設計一個新的表現指標，因為您通常可以找到或調整一個能夠最好地捕獲所解決問題要求的指標。查看您發現的類似問題以及用于查看是否可以采用的表現指標。 ### 測試和訓練數據集從轉換后的數據中，您需要選擇一個測試集和一個訓練集。將在訓練數據集上訓練算法，并將針對測試集進行評估。這可能就像選擇隨機數據分割一樣簡單（66％用于訓練，34％用于測試）或者可能涉及更復雜的采樣方法。訓練期間訓練的模型不會暴露于測試數據集，并且對該數據集進行的任何預測都被設計為通常指示模型的表現。因此，您需要確保選擇數據集代表您正在解決的問題。 ### 交叉驗證比使用測試和訓練數據集更復雜的方法是使用整個變換數據集來訓練和測試給定算法。您可以在測試工具中使用的方法執行此操作稱為交叉驗證。它首先涉及將數據集分成多個大小相等的實例組（稱為折疊）。然后對所有折疊進行訓練，除了遺漏之外的所有折疊，并且在遺漏折疊處測試所準備的模型。重復該過程，以便每個折疊都有機會被遺漏并充當測試數據集。最后，在所有折疊中對表現度量進行平均，以估計算法對問題的能力。例如，3次交叉驗證將涉及3次訓練和測試模型： * ＃1：在折疊1 + 2上訓練，在折疊3上進行測試 * ＃2：在折疊1 + 3上訓練，在折疊2上進行測試 * ＃3：訓練2 + 3折疊，在折疊1上測試折疊數量可能因數據集的大小而異，但常見數字為3,5,7和10倍。目標是在訓練和測試集中的數據大小和表示之間取得良好的平衡。當您剛入門時，堅持使用簡單的訓練和測試數據（例如66％/ 34％）并在您更有信心后進行交叉驗證。 ## 測試算法當您遇到問題并定義了測試工具時，您很滿意，現在是時候檢查各種機器學習算法了。抽樣檢查很有用，因為它可以讓您快速查看數據中是否有任何可學習的結構，并估計哪些算法可能對問題有效。抽樣檢查還可以幫助您解決測試工具中的任何問題，并確保所選的表現測量是合適的。最好的第一種抽樣檢查算法是隨機的。插入隨機數生成器以生成適當范圍內的預測。這應該是您實現的最差的“算法結果”，并且將成為評估所有改進的措施。選擇適合您的問題的5-10種標準算法，并通過測試工具運行它們。通過標準算法，我的意思是流行的方法沒有特殊配置。適合您的問題意味著如果您有回歸問題，算法可以處理回歸。從我們已經審查過的算法的[分組中選擇方法。我喜歡包含多種混合，并且有多種算法類型的10-20種不同的算法。根據我使用的庫，我可能會檢查50多種流行的方法來快速清除有前景的方法。](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ "A Tour of Machine Learning Algorithms") 如果要運行許多方法，可能必須重新訪問數據準備并減小所選數據集的大小。這可能會降低您對結果的信心，因此請使用各種數據集大小進行測試。您可能希望使用較小尺寸的數據集進行算法點檢查，并使用更完整的數據集進行算法調整。 ## 摘要在這篇文章中，您了解了設置值得信賴的測試工具的重要性，該測試工具涉及選擇測試和訓練數據集以及對您的問題有意義的表現測量。您還了解了使用測試工具對您的問題進行各種機器學習算法的現場檢查策略。您發現此策略可以快速突出顯示數據集中是否存在可學習的結構（如果不是，您可以重新訪問數據準備）以及哪些算法在問題上表現良好（可能是進一步調查和調整的候選者）。 ## 資源如果您希望深入了解此主題，可以從以下資源中了解更多信息。 * [數據挖掘：實用機器學習工具和技術](http://www.amazon.com/dp/0123748569?tag=inspiredalgor-20)（會員鏈接），第5章：可信度：評估所學知識 * [機器學習：神經和統計分類](http://www.amazon.com/dp/8188689734?tag=inspiredalgor-20)（會員鏈接），第7章：比較方法