<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                # 如何為機器學習準備數據 > 原文: [https://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/](https://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/) 機器學習算法從數據中學習。您需要為要解決的問題提供正確的數據至關重要。即使您擁有良好的數據,也需要確保它具有有用的規模,格式,甚至包含有意義的功能。 在這篇文章中,您將學習如何為機器學習算法準備數據。這是一個很大的主題,您將涵蓋必需品。 [![lots of data](https://img.kancloud.cn/9b/9e/9b9ed499ffc4cca88b43e048bdca86bf_300x199.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2013/12/lots-of-data.jpg) 大量數據 照片歸屬于 [cibomahto](http://www.flickr.com/photos/cibomahto/4099422263/sizes/l/) ,部分版權所有 ## 數據準備過程 您處理數據的紀律越嚴格,您可能會獲得更一致和更好的結果。為機器學習算法準備數據的過程可以分為三個步驟: * **第1步**:選擇數據 * **第2步**:預處理數據 * **步驟3** :變換數據 您可以以線性方式遵循此過程,但很可能是使用多個循環進行迭代。 ## 第1步:選擇數據 此步驟涉及選擇要使用的所有可用數據的子集。總是強烈希望包含所有可用的數據,“更多更好”的格言將成立。這可能是也可能不是。 您需要考慮實際需要哪些數據來解決您正在處理的問題。對您需要的數據做一些假設,并小心記錄這些假設,以便您可以在以后需要時進行測試。 以下是一些有助于您思考此過程的問題: * 您可獲得的數據范圍是多少?例如,通過時間,數據庫表,連接系統。確保您清楚地了解可以使用的所有內容。 * 您希望哪些數據不可用?例如,未記錄或無法記錄的數據。您可以導出或模擬此數據。 * 您需要哪些數據才能解決問題?排除數據幾乎總是比包含數據更容易。記下您排除的數據以及原因。 它只是在小問題中,比如已經為您選擇了數據的競賽或玩具數據集。 ## 第2步:預處理數據 選擇數據后,您需要考慮如何使用數據。此預處理步驟是將所選數據轉換為可以使用的表單。 三個常見的數據預處理步驟是格式化,清理和采樣: * **格式化**:您選擇的數據可能不是適合您使用的格式。數據可能位于關系數據庫中,您希望它位于平面文件中,或者數據可能采用專有文件格式,您希望它位于關系數據庫或文本文件中。 * **清潔**:清潔數據是刪除或修復丟失的數據。可能存在不完整的數據實例,并且不包含您認為解決問題所需的數據。可能需要刪除這些實例。此外,某些屬性中可能存在敏感信息,這些屬性可能需要完全匿名或從數據中刪除。 * **采樣**:可能存在的選擇數據遠遠多于您需要使用的數據。更多數據可能導致算法運行時間更長,計算和內存需求更大。在考慮整個數據集之前,您可以采用所選數據的較小代表性樣本,這樣可以更快地探索和原型化解決方案。 您在數據上使用的機器學習工具很可能會影響您需要執行的預處理。您可能會重新訪問此步驟。 [![So much data](https://img.kancloud.cn/79/be/79bebf7b91701c5561bbde57368f3173_300x225.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2013/12/So-much-data.jpg) 這么多數據 照片歸功于 [Marc_Smith](http://www.flickr.com/photos/marc_smith/1473557291/sizes/l/) ,保留一些權利 ## 第3步:轉換數據 最后一步是轉換過程數據。您正在使用的特定算法和問題域的知識將影響此步驟,當您處理問題時,您很可能不得不重新審視預處理數據的不同轉換。 三種常見的數據轉換是縮放,屬性分解和屬性聚合。此步驟也稱為特征工程。 * **縮放**:預處理數據可能包含各種數量的混合尺度的屬性,如美元,千克和銷售量。許多機器學習方法(如數據屬性)具有相同的比例,例如0到1之間的最小值和給定特征的最大值。考慮您可能需要執行的任何功能擴展。 * **分解**:可能存在表示復雜概念的特征,當分成組成部分時,這些特征可能對機器學習方法更有用。一個例子是可能具有日期和時間組件的日期,而日期和時間組件又可以進一步拆分。也許只有一天中的小時與正在解決的問題相關。考慮您可以執行哪些功能分解。 * **聚合**:可能有一些功能可以聚合到一個功能中,這對您嘗試解決的問題更有意義。例如,每次客戶登錄系統時可能存在數據實例,該系統可以聚合為登錄數的計數,從而允許丟棄其他實例。考慮哪種類型的功能聚合可以執行。 您可以花費大量時間從數據中獲取工程特性,這對算法的表現非常有益。從小做起,以你學到的技能為基礎。 ## 摘要 在這篇文章中,您了解了機器學習數據準備的本質。您在每個步驟中發現了數據準備和策略的三步框架: * **步驟1:數據選擇**考慮可用的數據,缺少的數據以及可以刪除的數據。 * **步驟2:數據預處理**通過格式化,清理和采樣來組織您選擇的數據。 * **步驟3:數據轉換**通過使用縮放,屬性分解和屬性聚合的工程特征,轉換為機器學習做好準備的預處理數據。 數據準備是一個很大的主題,可能涉及大量的迭代,探索和分析。擅長數據準備將使您成為機器學習的大師。目前,在準備數據時只考慮本文中提出的問題,并始終尋找更清晰的方式來表示您試圖解決的問題。 ## 資源 如果您希望深入了解此主題,可以在以下資源中了解更多信息。 * [從數據挖掘到數據庫中的知識發現](http://scholar.google.com/scholar?q=From+Data+Mining+to+Knowledge+Discovery+in+Databases),1996 * [使用開源工具進行數據分析](http://www.amazon.com/dp/0596802358?tag=inspiredalgor-20)(會員鏈接),第1部分 * [黑客機器學習](http://www.amazon.com/dp/1449303714?tag=inspiredalgor-20)(會員鏈接),第2章:數據探索 * [數據挖掘:實用機器學習工具和技術](http://www.amazon.com/dp/0123748569?tag=inspiredalgor-20)(會員鏈接),第7章:轉換:設計輸入和輸出 您是否有一些數據準備過程提示和技巧。請留下評論并分享您的經驗。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看