<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                # 通過數據預處理提高模型精度 > 原文: [https://machinelearningmastery.com/improve-model-accuracy-with-data-pre-processing/](https://machinelearningmastery.com/improve-model-accuracy-with-data-pre-processing/) 數據準備可以決定您模型的預測能力。 在他們的書 [Applied Predictive Modeling](http://www.amazon.com/dp/1461468485?tag=inspiredalgor-20) 的第3章中,Kuhn和Johnson介紹了數據準備過程。他們將其稱為訓練集數據的添加,刪除或轉換。 在這篇文章中,您將發現可用于提高模型預測能力的數據預處理步驟。 [![i love spreadsheets](https://img.kancloud.cn/27/b4/27b4dc689244bbf2f48a21cb87155fef_300x225.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/i-love-spreadsheets.jpg) 我喜歡電子表格 照片由 [Craig Chew-Molding](https://www.flickr.com/photos/craigmoulding/8399214678) ,保留一些權利 ## 數據準備 在建模問題之前,您必須預先處理原始數據。具體準備工作可能取決于您可用的數據和您要使用的機器學習算法。 有時,數據的預處理可能會導致模型精度的意外改善。這可能是因為數據中的關系已被簡化或未被遮擋。 [數據準備](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning")是一個重要的步驟,您應該嘗試適合您的數據的數據預處理步驟,看看您是否能夠獲得模型精度的理想提升。 您可以為數據考慮三種類型的預處理: * 為數據添加屬性 * 從數據中刪除屬性 * 轉換數據中的屬性 我們將深入研究這三種預處理中的每一種,并查看您可以執行的一些特定操作示例。 ## 添加數據屬性 高級模型可以從復雜屬性中提取關系,盡管某些模型要求明確說明這些關系。從訓練數據中獲取新屬性以包含在建模過程中可以提高模型表現。 * **虛擬屬性**:分類屬性可以轉換為n二進制屬性,其中n是屬性具有的類別(或級別)的數量。這些非規范化或分解的屬性稱為虛擬屬性或虛擬變量。 * **轉換后的屬性**:可以將變換后的屬性變量添加到數據集中,以便允許線性方法利用屬性之間可能的線性和非線性關系。可以使用簡單的變換,如log,square和square root。 * **缺少數據**:缺少數據的屬性可以使用可靠的方法(例如k-最近鄰居)估算丟失的數據。 ## 刪除數據屬性 某些方法在冗余或重復屬性方面表現不佳。通過從數據中刪除屬性,可以提高模型的準確性。 * **投影**:訓練數據可以投影到較低維空間,但仍然表征數據中的固有關系。一種流行的方法是主成分分析(PCA),其中該方法找到的主要成分可以作為一組簡化的輸入屬性。 * **空間符號**:數據的空間符號投影將數據轉換到多維球體的表面。結果可用于突出顯示可以修改或從數據中刪除的異常值的存在。 * **相關屬性**:由于存在高度相關的屬性,某些算法的重要性會降低。可以識別具有高相關性的成對屬性,并且可以從數據中移除最相關的屬性。 ## 轉換數據屬性 訓練數據的變換可以減少數據的偏度以及數據中異常值的突出性。許多模型希望在應用算法之前轉換數據。 * **居中**:轉換數據,使其平均值為零,標準差為1。這通常稱為數據標準化。 * **縮放**:標準縮放變換是將原始比例的數據映射到0到1之間的比例。這通常稱為數據規范化。 * **刪除偏斜**:偏斜數據是指分布被推送到一側或另一側(更大或更小的值)而不是正態分布的數據。某些方法假設正常分布的數據,并且如果消除了偏斜,則可以更好地執行。嘗試使用值的日志,平方根或反轉替換屬性。 * **Box-Cox** :Box-Cox變換或變換系列可用于可靠地調整數據以消除偏斜。 * **Binning** :通過將值分組到bin中,可以使數字數據離散。這通常稱為數據離散化。此過程可以手動執行,但如果系統地執行并使用在域中有意義的啟發式自動執行則更可靠。 ## 摘要 數據預處理是準備原始數據進行建模,滿足特定機器學習算法數據期望所需的重要步驟,并且可以在模型精度方面帶來意想不到的提升。 在這篇文章中,我們發現了三組數據預處理方法: * 添加屬性 * 刪除屬性 * 轉換屬性 下次您希望提高模型精度時,請考慮您可以為數據設計哪些新視角,以便模型進行探索和利用。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看