機器學習需要多少訓練數據？ · Machine Learning Mastery 博客文章翻譯

# 機器學習需要多少訓練數據？ > 原文： [https://machinelearningmastery.com/much-training-data-required-machine-learning/](https://machinelearningmastery.com/much-training-data-required-machine-learning/) 您需要的數據量取決于問題的復雜程度和所選算法的復雜程度。這是一個事實，但如果你處于機器學習項目的尖端，它對你沒有幫助。我被問到的一個常見問題是： **_我需要多少數據？_** 我不能直接為你或任何人回答這個問題。但我可以給你一些思考這個問題的方法。在這篇文章中，我列出了一套方法，您可以使用這些方法來考慮將機器學習應用到您的問題所需的訓練數據量。我希望這些方法中的一個或多個可以幫助您理解問題的難度以及它如何與您試圖解決的歸納問題的核心緊密結合。讓我們深入研究它。注意：您是否有自己的啟發式方法來決定機器學習需要多少數據？請在評論中分享。 ![How Much Training Data is Required for Machine Learning?](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2017/07/How-Much-Training-Data-is-Required-for-Machine-Learning.jpg) 機器學習需要多少訓練數據？ [Seabamirum](https://www.flickr.com/photos/seabamirum/2926154653/) 的照片，保留一些權利。 ## 你為什么問這個問題？重要的是要知道為什么要詢問訓練數據集所需的大小。答案可能會影響您的下一步。例如： * **你有太多的數據嗎？** 考慮開發一些學習曲線，以找出代表性樣本有多大（下圖）。或者，考慮使用大數據框架以使用所有可用數據。 * **你的數據太少了嗎？** 考慮確認你確實有太少的數據。考慮收集更多數據，或使用數據增加方法人為地增加樣本量。 * **你還沒有收集數據嗎？** 考慮收集一些數據并評估它是否足夠。或者，如果是用于研究或數據收集是昂貴的，請考慮與域專家和統計學家交談。更一般地說，您可能會有更多的行人問題，例如： * 我應該從數據庫導出多少條記錄？ * 需要多少樣品才能達到理想的表現水平？ * 訓練集必須有多大才能獲得對模型表現的充分估計？ * 需要多少數據來證明一個模型比另一個更好？ * 我應該使用訓練/測試拆分或k折交叉驗證嗎？這篇文章中的建議可能試圖解決這些后面的問題。在實踐中，我自己使用學習曲線（見下文）回答這個問題，在小數據集上使用重采樣方法（例如k折交叉驗證和自舉），并在最終結果中添加置信區間。您詢問機器學習所需樣品數量的原因是什么？請在評論中告訴我。 _那么，您需要多少數據？_ ## 它取決于;沒有人能告訴你沒有人能告訴您預測建模問題需要多少數據。這是不可知的：一個棘手的問題，你必須通過實證調查發現答案。機器學習所需的數據量取決于許多因素，例如： * **問題的復雜性**，名義上是未知的基礎函數，它最好地將輸入變量與輸出變量聯系起來。 * **學習算法**的復雜性，名義上是用于從特定示例中歸納地學習未知底層映射函數的算法。這是我們的出發點。并且“_取決于_”是大多數從業者在您第一次提出時會給您的答案。 ## 比喻的理由很多人在你面前研究過很多應用的機器學習問題。其中一些人已公布了他們的結果。也許您可以查看與您類似的問題的研究，作為對可能需要的數據量的估計。同樣，通常會對算法表現如何隨數據集大小進行擴展進行研究。也許這些研究可以告訴您使用特定算法需要多少數據。也許你可以平均多次研究。在Google， [Google Scholar](https://scholar.google.com) 和 [Arxiv](https://arxiv.org/) 上搜索論文。 ## 3.使用域專業知識您需要一個代表您要解決的問題的問題數據樣本。通常，示例必須是獨立且相同的。請記住，在機器學習中，我們正在學習將輸入數據映射到輸出數據的功能。學習的映射函數只能與您提供的數據一樣好。這意味著需要有足夠的數據來合理地捕獲輸入要素之間以及輸入要素和輸出要素之間可能存在的關系。使用您的領域知識，或找到領域專家和有關域的合理性以及可能需要合理捕獲問題中有用復雜性所需的數據規模。 ## 4.使用統計啟發式有統計啟發式方法可用于計算合適的樣本量。我見過的大部分啟發式算法都是分類問題，它是類，輸入特征或模型參數的函數。一些啟發式方法看起來很嚴謹，其他啟發式方式看起來很特別。以下是您可以考慮的一些示例： * **類別的因子**：每個類必須有x個獨立的例子，其中x可以是數十，數百或數千（例如5,50,500,5000）。 * **輸入特征數量的因子**：必須有比輸入特征多x％的例子，其中x可以是十（例如10）。 * **模型參數數量的因子**：模型中每個參數必須有x個獨立的例子，其中x可以是數十（例如10）。它們看起來都像是特殊的縮放因子給我。你使用過這些啟發式算法嗎？怎么回事？請在評論中告訴我。在關于這個主題的理論工作（不是我的專業領域！）中，分類器（例如k-最近鄰居）經常與最優貝葉斯決策規則形成對比，并且難度在維數災難的背景下表征;也就是說隨著輸入特征數量的增加，問題的難度呈指數增長。例如： * [統計模式識別中的小樣本量效應：對從業者的建議](http://sci2s.ugr.es/keel/pdf/specific/articulo/raudys91.pdf)，1991 * [模式識別實踐中的維度和樣本量考慮](http://www.sciencedirect.com/science/article/pii/S0169716182020422)，1982 結果建議避免使用局部方法（如k-最近鄰居）來處理來自高維問題的稀疏樣本（例如，少量樣本和許多輸入特征）。有關該主題的更友善的討論，請參閱： * 第2.5節高維局部方法，[統計學習的要素：數據挖掘，推理和預測](http://www.amazon.com/dp/0387848576?tag=inspiredalgor-20)，2008。 ## 5.非線性算法需要更多數據更強大的機器學習算法通常被稱為非線性算法。根據定義，他們能夠學習輸入和輸出特征之間復雜的非線性關系。您可能正在使用這些類型的算法或打算使用它們。這些算法通常更靈活，甚至是非參數的（除了這些參數的值之外，它們還可以確定模擬問題所需的參數數量）。它們也是高方差，意味著預測因用于訓練它們的特定數據而異。這種增加的靈活性和功率需要更多的訓練數據，通常需要更多的數據。實際上，一些非線性算法（如深度學習方法）可以在您為其提供更多數據時繼續提高技能。如果線性算法通過每個類的數百個示例實現了良好的表現，則每個類可能需要數千個示例用于非線性算法，如隨機森林或人工神經網絡。 ## 6.評估數據集大小與模型技能在開發新的機器學習算法時，通常會演示甚至解釋算法的表現以響應數據量或問題的復雜性。這些研究可能會或可能不會由算法的作者執行和發布，并且可能存在或可能不存在您正在使用的算法或問題類型。我建議您使用可用數據和一個表現良好的算法（如隨機森林）進行自己的研究。設計一項評估模型技能與訓練數據集大小的研究。將結果繪制為具有x軸上的訓練數據集大小和y軸上的模型技能的線圖，將使您了解數據大小如何影響模型對特定問題的技能。該圖稱為[學習曲線](https://en.wikipedia.org/wiki/Learning_curve)。從該圖中，您可以預測開發熟練模型所需的數據量，或者在達到收益遞減拐點之前實際需要的數據量。我強烈推薦這種方法，以便在全面理解問題的背景下開發健壯的模型。 ## 7.樸素的猜測在應用機器學習算法時，您需要大量數據。通常，您需要的數據超出了傳統統計中可能需要的數據。我經常回答輕率響應需要多少數據的問題： _獲取并使用盡可能多的數據。_ 如果按下問題，并且對問題的具體細節一無所知，我會說一些樸素的事情： * 你需要成千上萬的例子。 * 不下百個。 * 理想情況下，數十或數十萬的“平均”建模問題。 * 數百萬或數百萬的“硬”問題，如深度學習所解決的問題。同樣，這只是更多的臨時猜測，但如果你需要它，它就是一個起點。所以開始吧！ ## 8.獲取更多數據（無關緊要！？）大數據通常與機器學習一起討論，但您可能不需要大數據來適應您的預測模型。有些問題需要大數據，所有數據都有。例如，簡單的統計機器翻譯： * [數據的不合理有效性](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/35179.pdf)（和 [Peter Norvig的談話](https://www.youtube.com/watch?v=yvDCzhbjYWs)）如果您正在執行傳統的預測建模，那么訓練集大小的回報可能會有所減少，您應該研究您的問題和您選擇的模型以查看該點的位置。請記住，機器學習是一個歸納過程。該模型只能捕獲它所看到的內容。如果您的訓練數據不包含邊緣情況，則模型很可能不支持它們。 ## 不要拖延;入門現在，停止準備為您的問題建模并對其進行建模。不要讓訓練集大小的問題阻止您開始預測建模問題。在許多情況下，我認為這個問題是拖延的一個原因。獲取所有可用的數據，使用您擁有的數據，并查看模型對您的問題的有效性。學習一些東西，然后采取行動，通過進一步分析更好地了解您擁有的內容，通過擴充擴展您擁有的數據，或從您的域中收集更多數據。 ## 進一步閱讀如果您要深入了解，本節將提供有關該主題的更多資源。在Quora，StackOverflow和CrossValidated等Q＆amp; A網站上圍繞這個問題進行了大量討論。以下是一些可能有用的選擇示例。 * [需要多大的訓練集？](https://stats.stackexchange.com/questions/51490/how-large-a-training-set-is-needed) * [考慮維數詛咒的神經網絡訓練集大小](https://stats.stackexchange.com/questions/161982/training-set-size-for-neural-networks-considering-curse-of-dimensionality) * [如何減少訓練集大小？](https://stats.stackexchange.com/questions/22291/how-to-decrease-training-set-size) * [訓練集大小的增加是否有助于永久提高準確度或是否存在飽和點？](https://stats.stackexchange.com/questions/181573/does-increase-in-training-set-size-help-in-increasing-the-accuracy-perpetually-o) * [如何為小樣本數據選擇訓練，交叉驗證和測試集大小？](https://stats.stackexchange.com/questions/113994/how-to-choose-the-training-cross-validation-and-test-set-sizes-for-small-sampl) * [訓練神經網絡時，很少有訓練樣例太少？](https://stats.stackexchange.com/questions/226672/how-few-training-examples-is-too-few-when-training-a-neural-network) * [訓練深度神經網絡的建議最小訓練數據集大小是多少？](https://www.quora.com/What-is-the-recommended-minimum-training-dataset-size-to-train-a-deep-neural-network) 我希望對這個問題有一些很好的統計研究;這里有一些我能找到的。 * [分類模型的樣本量規劃](https://arxiv.org/abs/1211.1323)，1991 * [模式識別實踐中的維度和樣本量考慮](http://www.sciencedirect.com/science/article/pii/S0169716182020422)，1982 * [統計模式識別中的小樣本量效應：對從業者的建議](http://sci2s.ugr.es/keel/pdf/specific/articulo/raudys91.pdf)，1991 * [預測分類表現所需的樣本量](https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/1472-6947-12-8)，2012 其他相關文章。 * [您需要多少訓練數據？](https://medium.com/@malay.haldar/how-much-training-data-do-you-need-da8ec091e956) * [我們需要更多的訓練數據嗎？](http://web.mit.edu/vondrick/bigdata.pdf) * [數據的不合理效力](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/35179.pdf)，（和 [Peter Norvig的談話](https://www.youtube.com/watch?v=yvDCzhbjYWs)）如果您了解更多信息，請在下面的評論中告訴我們。 ## 摘要在這篇文章中，您發現了一套思考和推理回答常見問題的方法： **_機器學習需要多少訓練數據？_** 這些方法有幫助嗎？請在下面的評論中告訴我。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。當然，除了_你_特別需要多少數據的問題。