機器學習是 Kaggle 比賽 · Machine Learning Mastery 博客文章翻譯

# 機器學習是 Kaggle 比賽 > 原文： [https://machinelearningmastery.com/machine-learning-is-kaggle-competitions/](https://machinelearningmastery.com/machine-learning-is-kaggle-competitions/) [Julia Evans](https://twitter.com/b0rk) 最近寫了一篇題為“[機器學習不是 Kaggle 比賽](http://jvns.ca/blog/2014/06/19/machine-learning-isnt-kaggle-competitions/)”的帖子。這是一篇有趣的帖子，因為它指出了一個重要的事實。如果你想用機器學習解決業務問題，那么在 [Kaggle](http://www.kaggle.com/) 比賽中表現不錯并不是這項技能的良好指標。理由是，在 Kaggle 競賽中取得好成績所需的工作只是提供商業利益所需的一部分。這是一個需要考慮的重點，特別是如果你剛剛開始并發現自己在排行榜上做得很好。在這篇文章中，我們將重點討論競爭機器學習與應用機器學習的關系。 [![racing algorithms](img/0e7de320d82cb812b3d7b3ab56bb7b4f.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/07/racing-algorithms.jpg) 競爭機器學習照片由 [tableatny](https://www.flickr.com/photos/53370644@N06/4976494944/in/photostream/) ，保留一些權利 ## 比賽與“真實世界” 朱莉婭試圖參加一場 Kaggle 比賽并且表現不佳。問題在于她將機器學習作為她在 [Stripe](https://stripe.com) 中的角色的一部分。正是這與她擅長自己的工作以及如何在機器學習競賽中取得成功所引發的這一點脫節。范圍必須限于能夠評估技能。如果你曾經在學校參加考試，你就會知道這一點。想一想求職面試。您可以讓候選人破解生產代碼庫，或者讓他們通過抽象的獨立問題來解決問題。這兩種方法都有其優點，后者的好處是它足夠簡單，可以在面試環境中解析和完成。前者可能需要數小時，數天，數周的背景。您可以純粹根據他們的考試成績聘請一名候選人，您可以根據他們在 [Top Coder](http://www.topcoder.com/) 上的排名聘請程序員，您可以根據他們的 Kaggle 分數聘請機器學習工程師，但您必須有信心他們的評估中展示的技能轉化為他們在工作中所需的任務。最后一部分很難。這就是為什么你向候選人提出實時問題以了解他們如何思考的原因。你可以在飛行中或在工作場所工程師更廣泛的期望背景下，在 ML 的比賽中表現出色并且表現糟糕。你也可以在實踐中擅長機器學習，并且在 Julia 案例中合理聲稱的競爭中表現不佳。 ## 更廣泛的問題解決過程 Julia 論證的關鍵在于競爭中所需的機器學習只是在實踐中提供結果所需的更廣泛過程的一部分。朱莉婭使用預測航班到達時間作為確定這一點的問題背景。她強調了更廣泛問題的事實如下： 1. 了解業務問題 2. 選擇要優化的指標 3. 確定要使用的數據 4. 清理您的數據 5. 建立一個模型 6. 將模型投入生產 7. 測量模型表現 Julia 指出，Kaggle 比賽只是上面列表中的第 5 點（構建模型）。這是一個很好的觀點，我完全贊同。我想指出，我確實認為我們在 Kaggle 比賽中所做的是機器學習（因此這篇文章的標題），并且更廣泛的過程被稱為其他東西。也許這就是數據挖掘，也許它是應用機器學習，也許這就是人們拋出數據科學時的意思。隨你。 ## 機器學習很難更廣泛的過程是至關重要的，我應激 [](http://machinelearningmastery.com/process-for-working-through-machine-learning-problems/ "5-Part Process for working through Machine Learning Problems")[所有](http://machinelearningmastery.com/reproducible-machine-learning-results-by-default/ "Reproducible Machine Learning Results By Default") [](http://machinelearningmastery.com/how-to-use-machine-learning-results/ "How to Use Machine Learning Results")[](http://machinelearningmastery.com/small-projects/ "Learn and Practice Applied Machine Learning")[時間](http://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/ "How to Prepare Data For Machine Learning")。現在，根據所需的技術技能和經驗，考慮流程中的步驟。數據選擇，清理和模型構建是一項艱巨的技術任務，需要很高的技能才能做好。在某種程度上，除了構建模型步驟之外，數據分析師甚至業務分析師都可以執行大部分職責。我可能會站在這里，但也許這就是為什么機器學習被置于如此高的基礎上。建立偉大的模型很難。很難。但是，由機器學習競賽定義的偉大模型（對損失函數得分）幾乎總是與業務所需的偉大模型不同。這種精細調整的模型很脆弱。它們難以投入生產，難以復制，難以理解。在大多數商業案例中，您需要一個“_ 足夠好 _”的模型來挑選域中的結構而不是最好的模型。 Julia 在參考 Netflix 獎中部署獲勝模型的[失敗時提到了這一點。](http://www.forbes.com/sites/ryanholiday/2012/04/16/what-the-failed-1m-netflix-prize-tells-us-about-business-advice/) ## 比賽很棒 Kaggle 比賽，比如他們面前的比賽，對參賽者來說非常有趣。傳統上，學術界（主要是研究生）使用它們來測試算法，發現和探索特定方法和方法的局限性。算法烘焙在研究論文中很常見，但在實踐中幾乎沒有什么好處。 [這是眾所周知的](http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.73.6198)。我相信朱莉婭打算做的關鍵點和觀點是，如果你發現自己在 Kaggle 比賽中努力做得好，就不要絕望。這很可能是因為競爭環境很艱難，而且你的技能評估不成比例偏向于在實踐中做好模型建設所需要的一個方面。