<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??碼云GVP開源項目 12k star Uniapp+ElementUI 功能強大 支持多語言、二開方便! 廣告
                # 競爭機器學習的模型選擇技巧 > 原文: [https://machinelearningmastery.com/model-selection-tips-from-competitive-machine-learning/](https://machinelearningmastery.com/model-selection-tips-from-competitive-machine-learning/) 在[對您的問題進行抽樣檢查算法](http://machinelearningmastery.com/why-you-should-be-spot-checking-algorithms-on-your-machine-learning-problems/ "Why you should be Spot-Checking Algorithms on your Machine Learning Problems")并調整好幾個之后,您最終需要選擇一個或兩個最佳模型來繼續。 這個問題被稱為模型選擇,可能很煩人,因為您需要在給定不完整信息的情況下做出選擇。這是您創建的[測試線束](http://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/ "How to Evaluate Machine Learning Algorithms")和您選擇的[測試選項](http://machinelearningmastery.com/how-to-choose-the-right-test-options-when-evaluating-machine-learning-algorithms/ "How To Choose The Right Test Options When Evaluating Machine Learning Algorithms")的關鍵所在。 在這篇文章中,您將發現模型選擇的靈感來自于競爭機器學習,以及如何將這些技巧提升到更高水平并像其他任何復雜系統一樣研究測試工具的想法。 [![Model Selection](https://img.kancloud.cn/8c/14/8c14d4d45d7f0b9fd8f9effdcb7631ad_640x480.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/Model-Selection.jpg) 型號選擇 照片由 [tami.vroma](http://www.flickr.com/photos/32314864@N02/3253876458) 拍攝,部分版權所有 ## 比賽中的模型選擇 在機器學習競賽中,您將獲得一些數據樣本,您需要從中構建模型。 您為不可見的測試數據集提交預測,并評估這些預測的一小部分,并在公共排行榜上報告準確性。在比賽結束時,您在比賽中的排名取決于您對完整測試數據集的預測。 在某些比賽中,您必須選擇一組或兩組預測(以及創建它們的模型),您認為這些預測代表您與最終排名的所有其他參與者競爭的最佳努力。選擇要求您根據自己的測試工具的估計精度和公共排行榜單獨報告的準確度來評估模型的準確性。 這是模型選擇的問題,因為您的信息不完整而具有挑戰性。更糟糕的是,公共排行榜和您自己的私人測試工具報告的準確性很可能不同意。您應該選擇哪種模式,如何在這種不確定性下做出正確的決策? ## 避免過度擬合訓練數據集 [Log0](http://www.kaggle.com/users/55046/log0) 在他的帖子“[如何在單打比賽](http://www.chioka.in/how-to-select-your-final-models-in-a-kaggle-competitio/)中選擇你的最終模特”中探討了這個問題。 他評論說他個人在以前的比賽中遇到了過度擬合訓練數據集的問題,現在努力避免這個陷阱。競賽中的癥狀是你在公共排行榜上排名很好,但是當最終分數被釋放時,你的排名會落在私人排行榜上,通常很長。 他提供了許多建議,他建議可以幫助克服這個問題。 ### 1.始終使用交叉驗證 他評論說,單個驗證數據集將對模型對未見數據的準確性給出不可靠的估計。一個小的驗證數據集就是公共排行榜。 他建議在選擇模型時始終使用交叉驗證(CV)并遵循自己的CV估計精度,即使它可以是樂觀的。 ### 2.不要相信公共排行榜 公共排行榜非常令人分心。它向所有參與者展示了與其他人相比你有多好。除此之外,它充滿了謊言。它不是對模型準確性的有意義的估計,實際上通常是對模型準確性的可怕估計。 Log0評論公共排行榜得分不穩定,特別是與您自己的離線CV測試工具相比時。他評論說,如果您的簡歷看起來不穩定,您可以增加折疊數量,如果運行緩慢,您可以對數據樣本進行操作。 這些是不使用交叉驗證的常見異議的好方法。 ### 3.選擇不同的型號 多樣化。 Log0建議如果您能夠選擇兩個或更多模型,那么您應該利用這個機會選擇不同的模型子集。 他建議您按類型或方法對模型進行分組,并從每個組中選擇最佳模型。從這個簡短的列表中,您可以選擇最終的型號。 他建議選擇類似的模型意味著如果策略很差,那么模型會一起失敗,讓你失去一點。一個反駁的觀點是,多樣性是一種在您無法做出明確決定時使用的策略,而且倍增可以帶來最大的回報。您需要仔細考慮您對模型的信任。 Log0還提醒選擇健壯的模型,即它們本身不太可能過度擬合,例如大(多參數)模型。 ## 堅固的測試線束的擴展 這是一個很棒的帖子和一些很棒的提示,但我認為你可以而且應該更進一步。 您可以像研究任何系統一樣研究測試安全帶的穩定性。 ### 研究交叉驗證線束的穩定性 您可以采用標準的穩健算法并評估交叉驗證配置中折疊數的穩定性。每次交叉驗證(CV)折疊執行30次重復,并重復CV折疊尺寸從1到10。繪制結果并考慮給定CV折疊數的擴散和CV折疊從1(您的基線)增加的準確度變化。 您可以使用給定CV折疊數上限/下限作為準確度的粗略不確定性。您還可以使用CV fold = 1與您選擇的CV折疊之間的準確度差異來糾正樂觀偏差。 ### 研究數據樣本的穩定性 采樣時可以使用類似的技巧。抽樣理論是一個龐大而復雜的主題。我們可以執行如上所述的類似過程,并獲取給定大小的n樣本并估計準確度,然后嘗試不同大小的樣本。 將結果繪制為方框圖或類似圖可以讓您了解采樣大小的穩定性(以及采樣方法,如果您正在對類進行分層或重新平衡 - 您可能應該嘗試這樣做)。 ### 小心 過度擬合潛伏在各地。 對CV參數或采樣方法的研究正在使用所有可用數據。您正在了解給定標準算法在數據集上的穩定性,但您也在使用比用于評估模型的給定折疊或樣本更多的數據來選擇配置。這可能導致過度擬合。 然而,這可能是有用的和有價值的,你需要平衡過度擬合的真正問題,提高你對問題的理解。 ## 摘要 在這篇文章中,您發現了在使用機器學習時選擇最終模型時可以使用的三個技巧。這些提示對于競爭機器學習非常有用,也可用于數據分析和生產系統,其中來自少數選定模型的預測是整體組合的。 您還學習了如何擴展這些技巧,以及如何針對給定的機器學習問題研究測試工具的配置,就像您使用任何機器學習算法的參數一樣。 通過示例數據深入了解問題的穩定性,可以讓您深入了解模型對未見數據的預期準確性。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看