建立機器學習系統的經驗教訓 · Machine Learning Mastery 博客文章翻譯

# 建立機器學習系統的經驗教訓 > 原文： [https://machinelearningmastery.com/lessons-learned-building-machine-learning-systems/](https://machinelearningmastery.com/lessons-learned-building-machine-learning-systems/) 在 [MLConf](%20http://mlconf.com/) 最近的一次演講中， [Xavier Amatriain](https://www.linkedin.com/in/xamatriain) 描述了他在Netflix的研究/工程經理建立機器學習系統時學到的10個課程。在這里，您將從他的演講和幻燈片中總結發現這10節課。 [![Lessons Learned from Building Machine Learning Systems](https://img.kancloud.cn/11/9e/119e6a7e8277466c4dfcfa6890f406f2_300x165.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Lessons-Learned-from-Building-Machine-Learning-Systems.png) 建筑機器學習系統的經驗教訓摘自 [Xavier的演講](https://www.youtube.com/watch?v=WdzWPuazLA8) ## 10經驗教訓 Xavier提出的10個課程可歸納如下： 1. 更多數據與/和更好的模型 2. 您可能不需要所有大數據 3. 更復雜的模型不能改善事物的事實并不意味著你不需要 4. 要深思熟慮的訓練數據 5. 學會處理（詛咒）演示偏見 6. UI是算法唯一最重要的通信渠道：用戶 7. 數據和模型都很棒。你知道什么更好嗎？正確的評估方法 8. 分發算法很重要，但知道在哪個級別執行它更為重要 9. 選擇你的超參數是明智的，這是值得的 10. 有一些你可以離線做的事情，有些東西你不能......而且兩者之間的所有東西都近在咫尺我們將依次查看每個帖子的其余部分。 ## 1.更多數據與更好的模型澤維爾質疑引用的“_更多數據勝過更好的模型_”。我指向 [Anand Rajaraman的](https://www.linkedin.com/in/anandrajaraman)帖子“[更多數據通常勝過更好的算法](http://anand.typepad.com/datawocky/2008/03/more-data-usual.html)”，可以用這句話來概括： > 總而言之，如果您的資源有限，請添加更多數據，而不是微調機器學習算法的權重。他還指出 [Novig 2009年與Facebook工程部就更多數據與更好的算法進行的談話](http://machinelearningmastery.com/hands-on-big-data-by-peter-norvig/ "Hands on Big Data by Peter Norvig")。然后，他指出了一篇論文“[推薦新電影：甚至一些評級比元數據更有價值](http://anand.typepad.com/datawocky/2008/03/more-data-usual.html)”，其中明確指出，較少數據具有高預測性，而更多數據則不是。它不是，也不是。您需要更多數據和更好的算法。 ## 2.您可能不需要所有大數據在本課中，他指出，僅僅因為你擁有大數據并不意味著你應該使用它。他評論說，大數據樣本可以提供良好的結果，更智能的采樣（如分層或平衡采樣）可以帶來更好的結果。 ## 3.復雜數據可能需要復雜的模型下一課是關于[特征工程](http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It")的一個微妙但重要的提醒。他評論說，為線性模型添加更復雜的特征可能不會顯示出改進。相反，使用具有簡單特征的復雜模型也可能不會帶來改進。他的觀點是，有時需要復雜的模型來模擬復雜的特征。我還要指出，復雜的特征可以分解為簡單的特征，供簡單的線性模型使用。 ## 4.考慮你的訓練數據 Xavier評論了對用戶行為數據進行非規范化時可能存在的困難。他指出了選擇正面和負面案例的問題，在對問題進行建模之前，必須先考慮在哪里繪制線條。這是一個數據表示問題，對您可以實現的結果產生巨大影響。我建議你為許多這樣的可能線路產生想法并測試它們，或者最有希望的。他還提醒說，如果您在離線實驗中看到了很好的結果，那么您應該檢查旅行時間 - 預測決策是否使用了樣本信息，例如包含用戶未來行為的摘要。 ## 5.學會處理表達偏見第五課是關于向用戶呈現的所有可能選擇沒有統一概率的問題。用戶界面和人類用戶行為影響將選擇呈現項目的概率。那些預測但未呈現的項目可能沒有失敗，也不應該這樣建模。這是一個復雜的課程，需要對點擊行為進行建模，以便梳理模型預測的實際表現。 ## 6\. UI＆lt; =＆gt;通過用戶的算法與第5課相關，這是觀察到建模算法和用戶界面緊密耦合。對用戶界面的更改可能需要更改算法。 ## 7.使用正確的評估方法 Xavier概述了所使用的在線離線測試過程。 [![Offline Online Training Process](https://img.kancloud.cn/ee/40/ee40fce86bd0d13d0076e21eda1c91b7_609x356.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/12/Offline-Online-Training-Process.png) 離線在線訓練流程摘自 [Xavier的演講](http://www.slideshare.net/xamat/10-lessons-learned-from-building-machine-learning-systems) 該圖顯示了離線模型的反向測試，以測試假設，并在線進行A / B測試驗證這些結果。這是一張有價值的幻燈片。他指出，模型可以針對短期目標（如點擊或手表）進行優化，但用戶保留是一個真正的目標，稱為整體評估標準。他提醒我們盡可能使用長期指標，只考慮長期指標。與他們的離線在線方法相關，Xavier評論了將離線指標與在線A / B測試相關聯的公開問題。 ## 8.選擇正確的級別他指出了三個級別，可以劃分給定的實驗以測試假設，并且每個級別都有不同的要求。 * 人口子集 * 超參數的組合 * 訓練數據的子集謹慎選擇。 ## 9.選擇你的超參數是明智的，這是值得的 Xavier警告說，在調整模型時選擇正確的指標非常重要。但他也提到包括模型復雜性在內的東西也是一個重要問題。除了網格或隨機參數搜索之外，Xavier還提醒我們查看可以減少搜索時間的概率方法。 ## 10.離線，在線和近線最后的課程告誡要花時間考慮何時需要計算模型的元素并盡可能早地計算這些元素。他指出，除了離線和在線計算之外，你可以近距離接近（他稱之為近線）。 ## 摘要這是一套很棒的課程，可以應用于您自己的建模。您可以在這里查看Xavier的幻燈片：“從建筑機器學習系統中學到的10個經驗教訓” <iframe allowfullscreen="" frameborder="0" height="356" marginheight="0" marginwidth="0" scrolling="no" src="https://www.slideshare.net/slideshow/embed_code/41571741" style="border:1px solid #CCC; border-width:1px; margin-bottom:5px; max-width: 100%;" width="427"></iframe> **[10 Lessons Learned from Building Machine Learning Systems](https://www.slideshare.net/xamat/10-lessons-learned-from-building-machine-learning-systems "10 Lessons Learned from Building Machine Learning Systems")** from **[Xavier Amatriain](http://www.slideshare.net/xamat)** Xavier的演示文稿被記錄下來，您可以在這里觀看整個內容：“ [Xavier Amatriain，算法工程總監，Netflix @ MLconf SF](https://www.youtube.com/watch?v=WdzWPuazLA8) ” <iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/WdzWPuazLA8?feature=oembed" width="500"></iframe>