如何充分利用機器學習數據 · Machine Learning Mastery 博客文章翻譯

# 如何充分利用機器學習數據 > 原文： [https://machinelearningmastery.com/how-to-get-the-most-from-your-machine-learning-data/](https://machinelearningmastery.com/how-to-get-the-most-from-your-machine-learning-data/) 您使用的數據以及使用方式可能會定義預測建模問題的成功。數據和問題框架可能是您項目最大的杠桿點。為您的問題選擇錯誤的數據或錯誤的框架可能會導致模型表現不佳，或者最糟糕的是，模型無法收斂。無法分析地計算要使用的數據或如何使用它，但可以使用反復試驗過程來發現如何最好地使用您擁有的數據。在這篇文章中，您將發現從機器學習項目中的數據中獲得最大收益。閱讀這篇文章后，你會知道： * 探索預測建模問題的替代框架的重要性。 * 需要在輸入數據上開發一套“_視圖_”并對每個視圖進行系統測試。 * 功能選擇，工程和準備的概念是為您的問題創建更多視圖的方法。讓我們開始吧。 ![How to Get the Most From Your Machine Learning Data](https://img.kancloud.cn/00/6c/006c87d21e2add984eeefa9fb07acdcf_640x480.jpg) 如何充分利用機器學習數據 [Jean-Marc Bolfing](https://www.flickr.com/photos/bolfingyamauchi/34340279286/) 的照片，保留一些權利。 ## 概觀這篇文章分為8個部分;他們是： 1. 問題框架 2. 收集更多數據 3. 研究你的數據 4. 訓練數據樣本量 5. 特征選擇 6. 特色工程 7. 數據準備 8. 走得更遠 ## 1.問題框架集思廣益，以多種方式構建預測建模問題。問題的框架意味著以下組合： * 輸入 * 輸出 * 問題類型例如： * 您可以使用更多或更少的數據作為模型的輸入嗎？ * 你能預測別的東西嗎？ * 你能把問題改成回歸/分類/序列等嗎？你獲得的創意越多越好。使用來自其他項目，論文和域本身的想法。頭腦風暴。寫下所有的想法，即使它們是瘋了。我有一些框架可以幫助在這里集思廣益： * [如何定義機器學習問題](https://machinelearningmastery.com/how-to-define-your-machine-learning-problem/) 我在這篇文章中談到改變問題類型： * [機器學習中分類和回歸之間的差異](https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/) ## 2.收集更多數據獲得比您需要的更多數據，甚至是與預測結果相切的數據。我們無法知道[需要多少數據](https://machinelearningmastery.com/much-training-data-required-machine-learning/)。數據是模型開發過程中花費的貨幣。這是項目呼吸所需的氧氣。每次使用某些數據時，其他任務的可用數據就越少。您需要在以下任務上花費數據： * 模范訓練。 * 模型評估。 * 模型調整。 * 模型驗證。此外，該項目是新的。之前沒有人完成您的特定項目，建模您的特定數據。你真的不知道哪些功能還有用。你可能有想法，但你不知道。全部收集;在這個階段讓它們全部可用。 ## 3.研究你的數據使用您可以想到的每個數據可視化從各個角度查看您的數據。 * 查看原始數據有幫助。你會發現事情。 * 查看摘要統計信息有幫助。再一次，你會發現事情。 * 數據可視化就像是這兩種學習方式的完美結合。你會發現更多的東西。花費很長時間來處理原始數據和摘要統計信息。然后繼續進行可視化，因為它們可能需要更多時間來準備。使用您能想到的每個數據可視化，并從您的數據的書籍和論文中收集。 * 查看圖表。 * 保存情節。 * 注釋圖。 * 向領域專家顯示圖表。您正在尋求更深入地了解數據。您可以使用的想法，以幫助更好地選擇，設計和準備建模數據。它會得到回報。 ## 4.訓練數據樣本量使用數據樣本執行靈敏度分析，以查看實際需要的數據量（或很少）。你沒有所有的觀察結果。如果您這樣做，則無需對新數據進行預測。相反，您正在處理數據樣本。因此，對于需要多少數據來擬合模型存在一個懸而未決的問題。不要以為越多越好。測試。 * 設計實驗，了解模型技能如何隨樣本量而變化。 * 使用統計信息查看趨勢和趨勢隨樣本量變化的重要程度。如果沒有這些知識，您將無法充分了解您的測試工具，以便明智地評論模型技能。在此帖子中了解有關樣本量的更多信息： * [機器學習需要多少訓練數據？](https://machinelearningmastery.com/much-training-data-required-machine-learning/) ## 5.特征選擇創建輸入功能的許多不同視圖并測試每個視圖。您不知道哪些變量對預測建模問題有幫助或最有幫助。 * 你可以猜猜看。 * 您可以使用領域專家的建議。 * 您甚至可以使用功能選擇方法中的建議。但他們都只是猜測。每組建議的輸入功能都是您的問題的“視圖”。了解哪些特性可能對建模和預測輸出變量有用。盡可能多地集思廣益，計算和收集輸入數據的不同視圖。設計實驗并仔細測試并比較每個視圖。使用數據通知您哪些功能和哪個視圖最具預測性。有關功能選擇的更多信息，請參閱此帖子： * [特征選擇介紹](https://machinelearningmastery.com/an-introduction-to-feature-selection/) ## 6.特征工程使用要素工程為預測建模問題創建其他功能和視圖。有時您擁有可以獲得的所有數據，但是給定的功能或功能集會鎖定對于機器學習方法學習和映射到結果變量而言過于密集的知識。例子包括： * 日期/時間。 * 交易。 * 說明。將這些數據細分為更簡單的附加組件功能，例如計數，標志和其他元素。盡可能簡化建模過程。有關特征工程的更多信息，請參閱帖子： * [發現特征工程，如何設計特征以及如何獲得它](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/) ## 7.數據準備您可以通過各種方式預處理數據，以滿足算法的期望等。預處理數據（如特征選擇和特征工程）可在輸入要素上創建其他視圖。一些算法具有關于預處理的偏好，例如： * 標準化輸入功能。 * 標準化輸入功能。 * 使輸入功能固定。準備好預期這些預期的數據，然后再進一步。應用您可以想到的每種數據預處理方法。繼續為您的問題創建新視圖，并使用一個或一組模型測試它們，看看什么效果最好。您的目標是發現有關數據的視圖，該數據最好地將映射問題的未知底層結構暴露給學習算法。 ## 8.走得更遠你可以隨時走得更遠。您可以收集更多數據，可以在數據上創建更多視圖。頭腦風暴。一旦您感覺自己走在路的盡頭，一個簡單的勝利就是開始研究從建模問題的不同視角創建的模型的集合。它簡單而高效，特別是如果視圖暴露了底層映射問題的不同結構（例如模型具有不相關的錯誤）。 ## 進一步閱讀如果您希望深入了解，本節將提供有關該主題的更多資源。 * [為什么應用機器學習很難](https://machinelearningmastery.com/applied-machine-learning-is-hard/) * [應用機器學習作為搜索問題的溫和介紹](https://machinelearningmastery.com/applied-machine-learning-as-a-search-problem/) * [如何定義機器學習問題](https://machinelearningmastery.com/how-to-define-your-machine-learning-problem/) * [機器學習表現改進備忘單](https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/) * [機器學習需要多少訓練數據？](https://machinelearningmastery.com/much-training-data-required-machine-learning/) * [特征選擇介紹](https://machinelearningmastery.com/an-introduction-to-feature-selection/) * [發現特征工程，如何設計特征以及如何獲得它](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/) ## 摘要在這篇文章中，您發現了可用于充分利用預測建模問題數據的技術。具體來說，你學到了： * 探索預測建模問題的替代框架的重要性。 * 需要在輸入數據上開發一套“視圖”并系統地測試每個視圖。 * 功能選擇，工程和準備的概念是為您的問題創建更多視圖的方法。您是否有更多想法可以充分利用您的數據？你通常在一個項目上做什么？請在下面的評論中告訴我。你有任何問題嗎？在下面的評論中提出您的問題，我會盡力回答。