通過數據預處理提高模型精度 · Machine Learning Mastery 博客文章翻譯

# 通過數據預處理提高模型精度 > 原文： [https://machinelearningmastery.com/improve-model-accuracy-with-data-pre-processing/](https://machinelearningmastery.com/improve-model-accuracy-with-data-pre-processing/) 數據準備可以決定您模型的預測能力。在他們的書 [Applied Predictive Modeling](http://www.amazon.com/dp/1461468485?tag=inspiredalgor-20) 的第3章中，Kuhn和Johnson介紹了數據準備過程。他們將其稱為訓練集數據的添加，刪除或轉換。在這篇文章中，您將發現可用于提高模型預測能力的數據預處理步驟。 [![i love spreadsheets](https://img.kancloud.cn/27/b4/27b4dc689244bbf2f48a21cb87155fef_300x225.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/i-love-spreadsheets.jpg) 我喜歡電子表格照片由 [Craig Chew-Molding](https://www.flickr.com/photos/craigmoulding/8399214678) ，保留一些權利 ## 數據準備在建模問題之前，您必須預先處理原始數據。具體準備工作可能取決于您可用的數據和您要使用的機器學習算法。有時，數據的預處理可能會導致模型精度的意外改善。這可能是因為數據中的關系已被簡化或未被遮擋。 [數據準備](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning")是一個重要的步驟，您應該嘗試適合您的數據的數據預處理步驟，看看您是否能夠獲得模型精度的理想提升。您可以為數據考慮三種類型的預處理： * 為數據添加屬性 * 從數據中刪除屬性 * 轉換數據中的屬性我們將深入研究這三種預處理中的每一種，并查看您可以執行的一些特定操作示例。 ## 添加數據屬性高級模型可以從復雜屬性中提取關系，盡管某些模型要求明確說明這些關系。從訓練數據中獲取新屬性以包含在建模過程中可以提高模型表現。 * **虛擬屬性**：分類屬性可以轉換為n二進制屬性，其中n是屬性具有的類別（或級別）的數量。這些非規范化或分解的屬性稱為虛擬屬性或虛擬變量。 * **轉換后的屬性**：可以將變換后的屬性變量添加到數據集中，以便允許線性方法利用屬性之間可能的線性和非線性關系。可以使用簡單的變換，如log，square和square root。 * **缺少數據**：缺少數據的屬性可以使用可靠的方法（例如k-最近鄰居）估算丟失的數據。 ## 刪除數據屬性某些方法在冗余或重復屬性方面表現不佳。通過從數據中刪除屬性，可以提高模型的準確性。 * **投影**：訓練數據可以投影到較低維空間，但仍然表征數據中的固有關系。一種流行的方法是主成分分析（PCA），其中該方法找到的主要成分可以作為一組簡化的輸入屬性。 * **空間符號**：數據的空間符號投影將數據轉換到多維球體的表面。結果可用于突出顯示可以修改或從數據中刪除的異常值的存在。 * **相關屬性**：由于存在高度相關的屬性，某些算法的重要性會降低。可以識別具有高相關性的成對屬性，并且可以從數據中移除最相關的屬性。 ## 轉換數據屬性訓練數據的變換可以減少數據的偏度以及數據中異常值的突出性。許多模型希望在應用算法之前轉換數據。 * **居中**：轉換數據，使其平均值為零，標準差為1。這通常稱為數據標準化。 * **縮放**：標準縮放變換是將原始比例的數據映射到0到1之間的比例。這通常稱為數據規范化。 * **刪除偏斜**：偏斜數據是指分布被推送到一側或另一側（更大或更小的值）而不是正態分布的數據。某些方法假設正常分布的數據，并且如果消除了偏斜，則可以更好地執行。嘗試使用值的日志，平方根或反轉替換屬性。 * **Box-Cox** ：Box-Cox變換或變換系列可用于可靠地調整數據以消除偏斜。 * **Binning** ：通過將值分組到bin中，可以使數字數據離散。這通常稱為數據離散化。此過程可以手動執行，但如果系統地執行并使用在域中有意義的啟發式自動執行則更可靠。 ## 摘要數據預處理是準備原始數據進行建模，滿足特定機器學習算法數據期望所需的重要步驟，并且可以在模型精度方面帶來意想不到的提升。在這篇文章中，我們發現了三組數據預處理方法： * 添加屬性 * 刪除屬性 * 轉換屬性下次您希望提高模型精度時，請考慮您可以為數據設計哪些新視角，以便模型進行探索和利用。