<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                合規國際互聯網加速 OSASE為企業客戶提供高速穩定SD-WAN國際加速解決方案。 廣告
                # 機器學習項目中常見的陷阱 > 原文: [https://machinelearningmastery.com/common-pitfalls-machine-learning-projects/](https://machinelearningmastery.com/common-pitfalls-machine-learning-projects/) 在最近的一次演講中, [Ben Hamner](https://www.linkedin.com/pub/ben-hamner/12/597/987) 描述了他和他的同事在Kaggle比賽期間觀察到的機器學習項目的常見缺陷。 這次演講名為“[機器學習小鬼](https://www.youtube.com/watch?v=tleeC-KlsKA)”,于2014年2月在Strata 的[上發表。](http://strataconf.com/strata2014/public/schedule/detail/32168) 在這篇文章中,我們來看看Ben的演講中的陷阱,它們的樣子以及如何避免它們。 ## 機器學習過程 在演講的早期,Ben介紹了端到端地處理機器學習問題的過程。 [![Machine Learning Process](https://img.kancloud.cn/f9/b0/f9b00c9d532cc8fcb756c54e2434945e_490x394.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Machine-Learning-Process.png) 機器學習過程 取自Ben Hamner的“機器學習小鬼” 此快照包括9個步驟,如下所示: 1. 從業務問題開始 2. 來源數據 3. 拆分數據 4. 選擇評估指標 5. 執行特征提取 6. 模特訓練 7. 特征選擇 8. 型號選擇 9. 生產系統 他評論說,這個過程是迭代的而不是線性的。 他還評論說,這個過程中的每一步都可能出錯,導致整個項目脫軌。 ## 辨別狗和貓 Ben提出了一個案例研究問題,用于建造一個自動貓門,可以讓貓進來并讓狗出門。這是一個有啟發性的例子,因為它涉及到處理數據問題時的一些關鍵問題。 [![Discriminating Dogs and Cats](https://img.kancloud.cn/82/ca/82ca2d7cb43b4a6694114d220d3a3a22_655x329.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Discriminating-Dogs-and-Cats.png) 辨別狗和貓 取自Ben Hamner的“機器學習小鬼” ### 樣本量 這個例子的第一個重要內容是他根據數據樣本大小研究了模型的準確性,并表明更多的樣本與更高的準確性相關。 然后他添加了更多數據,直到準確度趨于平穩。這是一個很好的例子,可以幫助您了解系統對樣本大小的敏感度并進行相應調整。 ### 錯誤的問題 這個例子的第二個很大的好處就是系統失敗了,它讓附近的所有貓都吃掉了。 這是一個聰明的例子,強調理解需要解決的問題的約束的重要性,而不是你想要解決的問題。 ## 機器學習項目中的陷阱 在繼續研究機器學習問題時,Ben繼續討論了四個常見的陷阱。 雖然這些問題很常見,但他指出可以相對容易地識別和解決這些問題。 [![Overfitting](https://img.kancloud.cn/22/b1/22b1b8e93d417c9f27f8b58a23514751_683x369.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Overfitting.png) 過度擬合 取自Ben Hamner的“機器學習小鬼” * **數據泄漏**:利用生產系統無法訪問的模型中的數據的問題。這在時間序列問題中尤為常見。也可能發生系統ID等可能表示類標簽的數據。運行模型并仔細查看有助于模型成功的屬性。理智檢查并考慮是否有意義。 (查看參考文獻“[數據挖掘漏洞](http://dstillery.com/wp-content/uploads/2014/05/Leakage-in-Data-Mining-Formulation-Detection-and-Avoidance.pdf)”PDF) * **過度擬合**:過于緊密地對訓練數據建模,使得模型還包括模型中的噪聲。結果是推廣能力差。這在更高維度中變得更成問題,具有更復雜的類邊界。 * **數據采樣和拆分**:與數據泄漏有關,您需要非常小心,訓練/測試/驗證集確實是獨立的樣本。時間序列問題需要大量的思考和工作,以確保您可以按時間順序回復數據并驗證模型的準確性。 * **數據質量**:檢查數據的一致性。 Ben給出了一些飛行數據的例子,其中一些飛機在起飛前著陸。需要識別和明確處理不一致,重復和損壞的數據。它可以直接損害建模問題和模型推廣的能力。 ## 摘要 Ben的演講“[機器學習小精靈](https://www.youtube.com/watch?v=tleeC-KlsKA)”是一個快速而實用的演講。 您將在我們在處理數據問題時容易受到的常見陷阱中獲得有用的速成課程。 &lt;iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/tleeC-KlsKA?feature=oembed" width="500"&gt;&lt;/iframe&gt;
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看