如何培養最終的機器學習模型 · Machine Learning Mastery 博客文章翻譯

# 如何培養最終的機器學習模型 > 原文： [https://machinelearningmastery.com/train-final-machine-learning-model/](https://machinelearningmastery.com/train-final-machine-learning-model/) 我們用來對新數據進行預測的機器學習模型稱為最終模型。在應用機器學習中可能會混淆如何訓練最終模型。初學者會向現場詢問此錯誤，例如： * _如何通過交叉驗證進行預測？_ * _我從交叉驗證中選擇哪種模型？_ * _我是否在訓練數據集上準備好后使用該模型？_ 這篇文章將澄清混亂。在這篇文章中，您將了解如何最終確定機器學習模型，以便對新數據進行預測。讓我們開始吧。 ![How to Train a Final Machine Learning Model](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2017/03/How-to-Train-a-Final-Machine-Learning-Model.jpg) 如何訓練最終的機器學習模型照片由[相機眼睛攝影](https://www.flickr.com/photos/camera_is_a_mirror_with_memory/16665301421/)，保留一些權利。 ## 什么是最終模型？最終機器學習模型是用于對新數據進行預測的模型。也就是說，給定輸入數據的新示例，您希望使用該模型來預測預期輸出。這可以是分類（分配標簽）或回歸（實際值）。例如，照片是_狗_還是_貓_的照片，還是明天的估計銷售數量。您的機器學習項目的目標是獲得最佳的最終模型，其中“最佳”定義為： * **數據**：您提供的歷史數據。 * **時間**：你必須在項目上花費的時間。 * **程序**：數據準備步驟，算法或算法，以及所選的算法配置。在項目中，您可以收集數據，花費時間，發現數據準備過程，要使用的算法以及如何配置它。最終的模型是這個過程的頂峰，你尋求的目的是為了開始實際做出預測。 ## 訓練/測試集的目的為什么我們使用訓練和測試裝置？創建訓練并測試數據集的分割是快速評估算法在問題上的表現的一種方法。訓練數據集用于準備模型，以進行訓練。我們假裝測試數據集是新數據，其中輸出值被保留在算法中。我們從訓練模型中收集來自測試數據集的輸入的預測，并將它們與測試集的保留輸出值進行比較。比較測試數據集上的預測和保留輸出允許我們計算測試數據集上模型的表現度量。這是在對看不見的數據進行預測時對問題進行訓練的算法的技能估計。 ### 讓我們進一步解壓縮當我們評估算法時，我們實際上正在評估過程中的所有步驟，包括如何準備訓練數據（例如縮放），算法的選擇（例如kNN）以及所選算法的配置方式（例如k = 3））。根據預測計算的績效指標是對整個程序技能的估計。我們從以下方面概括了績效指標： * “ _**測試集**_ 的程序技巧至 * “ _**看不見的數據**_ 的程序技巧。這是一個很大的飛躍，需要： * 該程序足夠強大，以至于技能估計接近我們對未見數據的實際預期。 * 表現測量的選擇準確地捕獲了我們對預測未見數據的測量感興趣。 * 數據準備的選擇對于新數據是很好理解和可重復的，并且如果需要將預測返回到其原始比例或與原始輸入值相關，則可以是可逆的。 * 算法的選擇對其預期用途和操作環境（例如復雜性或所選編程語言）有意義。很多事情都依賴于測試集上整個過程的估計技能。實際上，使用估計程序技能的訓練/測試方法對看不見的數據通常具有很大的差異（除非我們有很多數據需要分割）。這意味著當它重復時，它會產生不同的結果，通常會產生非常不同的結果。結果是我們可能完全不確定程序對看不見的數據的實際執行情況以及一個程序與另一個程序的比較。通常，在時間允許的情況下，我們更愿意使用k折交叉驗證。 ## k折交叉驗證的目的為什么我們使用k-fold交叉驗證？交叉驗證是另一種估計方法對看不見的數據的技能的方法。就像使用訓練測試一樣。交叉驗證系統地在數據集的多個子集上創建和評估多個模型。反過來，這提供了一系列績效衡量標準。 * 我們可以計算這些度量的平均值，以了解該過程的平均執行情況。 * 我們可以計算這些測量的標準偏差，以了解該過程的技能在實踐中有多大的變化。當您嘗試選擇要使用的算法和數據準備過程時，這也有助于對一個過程與另一個過程進行更細致的比較。此外，這些信息非常寶貴，因為您可以使用均值和點差來給出實際機器學習過程中預期表現的置信區間。訓練測試分裂和k倍交叉驗證都是重采樣方法的示例。 ## 為什么我們使用重采樣方法？應用機器學習的問題在于我們正在嘗試對未知數進行建模。在給定的預測建模問題上，理想模型是在對新數據進行預測時表現最佳的模型。我們沒有新數據，所以我們必須假裝統計技巧。訓練測試拆分和k折交叉驗證稱為重采樣方法。重采樣方法是對數據集進行采樣和估計未知數量的統計程序。在應用機器學習的情況下，我們感興趣的是估計機器學習過程對看不見的數據的技能。更具體地說，由機器學習過程做出的預測的技巧。一旦我們獲得了估計的技能，我們就完成了重采樣方法。 * 如果使用訓練測試拆分，則意味著您可以丟棄拆分數據集和訓練模型。 * 如果您正在使用k-fold交叉驗證，那意味著您可以丟棄所有經過訓練的模型。他們已達到目的，不再需要。您現在已準備好完成模型。 ## 如何敲定模型？通過對所有數據應用所選的機器學習過程來最終確定模型。而已。使用最終模型，您可以： * 保存模型以供以后或操作使用。 * 對新數據進行預測。交叉驗證模型或訓練測試數據集怎么樣？他們被丟棄了。他們不再需要了。他們的目的是幫助您選擇最終確定的程序。 ## 常見問題本節列出了您可能遇到的一些常見問題。 ### 為什么不在訓練數據集上訓練模型？和 ### 為什么不從交叉驗證中保留最佳模型？如果你愿意，你可以。通過重復使用技能評估期間訓練的模型，您可以節省時間和精力。如果需要數天，數周或數月來訓練模型，這可能是一件大事。在訓練所有可用數據時，您的模型可能會比僅用于估計模型表現的子集更好。這就是我們希望在所有可用數據上訓練最終模型的原因。 ### 在所有數據上訓練的模型的表現是否會有所不同？我認為這個問題引發了大多數關于模型定型的誤解。換一種方式： * 如果您在所有可用數據上訓練模型，那么您如何知道模型的表現如何？您已使用重新采樣程序回答了此問題。如果設計得很好，您使用訓練測試或k折交叉驗證計算的表現指標可以適當地描述對所有可用歷史數據進行訓練的最終模型在一般情況下的表現。如果您使用k-fold交叉驗證，您將估計模型平均的“錯誤”（或相反，“正確”），以及該錯誤或正確性的預期傳播。這就是為什么精心設計的測試裝置在應用機器學習中絕對至關重要。更強大的測試工具將使您能夠更加依賴于估計的表現。 ### 每次我訓練模型時，我都會得到不同的表現分數;我應該選擇得分最高的模特嗎？機器學習算法是隨機的，并且可以預期在相同數據上的這種不同表現的行為。重復采樣方法（例如重復訓練/測試或重復k折疊交叉驗證）將有助于了解方法中存在多少差異。如果這是一個真正的問題，您可以創建多個最終模型并從預測集合中取平均值以減少方差。我在帖子中談到了這個問題： * [在機器學習中擁抱隨機性](http://machinelearningmastery.com/randomness-in-machine-learning/) ## 摘要在這篇文章中，您了解了如何訓練最終的機器學習模型以供操作使用。您已經克服了最終確定模型的障礙，例如： * 了解重新采樣程序的目標，例如訓練測試拆分和k折交叉驗證。 * 模型定型作為訓練所有可用數據的新模型。 * 將估算績效的關注與最終確定模型分開。您是否有關于最終確定模型的其他問題或疑慮，我還沒有解決？在評論中提問，我會盡力幫助。