如何在競爭機器學習中踢屁股 · Machine Learning Mastery 博客文章翻譯

# 如何在競爭機器學習中踢屁股 > 原文： [https://machinelearningmastery.com/how-to-kick-ass-in-competitive-machine-learning/](https://machinelearningmastery.com/how-to-kick-ass-in-competitive-machine-learning/) [David Kofoed Wind](http://www.davidwind.dk/) 在Kaggle博客No Free Hunch上發表了一篇文章，名為“ [_從最好的_](http://blog.kaggle.com/2014/08/01/learning-from-the-best/) 中學習”。在這篇文章中，大衛總結了6個與參與競爭機器學習相關的關鍵領域，以及來自表現最好的kagglers的報價。在這篇文章中，您將發現從該帖子中提取的競爭性機器學習中做得好的關鍵啟發式方法。 [![learning from the best](https://img.kancloud.cn/43/bc/43bc679f20d8cf1602d908f95745571f_300x213.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/learning-from-the-best.jpg) 從[利達](https://www.flickr.com/photos/lidarose/267681376/)的最佳照片中學習，保留一些權利 ## 向Kaggle Masters學習 David是[丹麥技術大學](http://www.dtu.dk/english)認知系統系的博士生。在此之前，他是一名碩士生，他的論文題目是“ [_預測機器學習中的概念_](http://www.davidwind.dk/wp-content/uploads/2014/07/main.pdf) ”。你會從標題中知道它，但這是一個很好的論點。在其中，大衛提煉了3名Kaggle大師 [Tim Salimans](https://www.kaggle.com/users/3375/tim-salimans) ， [Steve Donoho](https://www.kaggle.com/users/9766/breakfastpirate) 和 [Anil Thomas](https://www.kaggle.com/users/7837/anil-thomas) 的建議，并分析了10場比賽的結果。在Kaggle比賽中表現良好，然后通過參加2個案例研究比賽來測試這些課程。他的框架有5個組成部分： 1. 特征工程是預測機器學習中最重要的部分 2. 過度擬合排行榜是一個真正的問題 3. 簡單的模型可以讓你走得很遠 4. 合奏是一種成功的策略 5. 預測正確的事情很重要大衛在他的博客文章中總結了這五個方面，并增加了第六個，這是一個不適合這些類別的一般建議。 ## 預測建模競爭框架在本節中，我們將查看框架的五個部分中的每個部分的主要經驗教訓以及需要考慮的其他啟發式方法。 ### 特色工程特征工程是數據準備步驟，涉及將屬性轉換，聚合和分解為最能表征建模問題數據結構的特征。 * 數據比您應用的算法更重要。 * 將大部分時間花在功能工程上。 * 利用自動方法生成，提取，刪除和更改屬性。 * 深度學習中使用的半監督學習方法可以自動建模特征。 * 有時，對數據集進行仔細的非規范化可以勝過復雜的特征工程。 ### 過度擬合過度擬合是指創建在訓練數據上表現良好的模型，而不是在看不見的測試數據上（或遠離它）。這擴展到在排行榜上觀察到的分數，這是對用于識別競賽獲勝者的驗證數據集樣本（通常約20％）的模型的評估。 * 小而嘈雜的訓練數據集可能導致排行榜和最終結果之間更大的不匹配。 * 排行榜確實包含信息，可用于模型選擇和超參數調整。 * Kaggle使得過度擬合的危險變得非常真實。 * 在測試工具上花費大量時間來估算模型精度，甚至忽略排行榜。 * 將測試工具分數與排行榜分數相關聯，以評估您可以放在排行榜中的信任度。 ### 簡單模型使用簡單模型是指在數據集上使用經典或易于理解的算法，而不是通常更復雜的最先進方法。模型的簡單性或復雜性是指所需術語的數量和用于優化這些術語的過程。 * 最簡單的方法通常被最好的競爭者使用。 * 初學者過早轉向復雜的模型，這可能會減慢對問題的學習。 * 更簡單的模型訓練更快，更容易理解和適應，反過來提供更多的見解。 * 更簡單的模型會強制您首先處理數據，而不是調整參數。 * 簡單模型可以是基準的再現，例如按段的平均響應。 ### 合奏合奏是指將來自多個模型的預測組合成一組預測，通常是由每個貢獻模型的技能加權的混合（例如在公共排行榜上）。 * 大多數獲獎模型是多個模型的集合。 * 高度調整的模型以及平庸的模型都能提供良好的效果。 * 結合以不同方式約束的模型可以獲得更好的結果。 * 在考慮合奏之前，充分利用算法。 * 在比賽結束前，將合奏調查作為最后一步。 ### 預測正確的事情每個競賽都有一個指定的模型評估函數，用于比較模型對實際值的預測。這可以定義損失函數和數據集的結構，但它不必。 * 頭腦風暴可以使用許多不同的方式來對問題進行建模。 * 建模飛行著陸時間與預計飛行時間比率的總飛行時間的示例。 * 使用不同的損失函數（即RMSE與MAE）探索模型的準備。 ### 額外的建議本節列出了David和他的受訪者在競爭機器學習方面表現良好的其他見解。 * 盡快在排行榜上獲取一些東西 * 構建一個加載數據的管道，并可靠地評估模型，這比你想象的要困難得多。 * 擁有一個包含大量工具的工具箱，并知道何時以及如何使用它們。 * 充分利用論壇，包括給予和接受。 * 在您知道從數據集中獲得最大收益后，最后優化模型參數。 * 一個洞察力并沒有贏得比賽，但有幾個聯系在一起。 ## 摘要在這篇文章中，您發現了參與競爭機器學習時的5個問題的框架：特征工程，過度擬合，使用簡單模型，集合和預測正確的事物。在這篇文章中，我們在關鍵經驗法則中回顧了David的框架，可以用來在參加Kaggle比賽時從數據和算法中獲得最大收益。