黑箱機器學習的誘惑陷阱 · Machine Learning Mastery 博客文章翻譯

# 黑箱機器學習的誘惑陷阱 > 原文： [https://machinelearningmastery.com/the-seductive-trap-of-black-box-machine-learning/](https://machinelearningmastery.com/the-seductive-trap-of-black-box-machine-learning/) 只要我參與數據挖掘和機器學習競賽，我就考慮過自動參與。也許它表明我想要解決構建工具的問題比我想要解決手頭的問題更多。在處理數據集時，我通常花費不成比例的時間來考慮算法調優和運行調優實驗。我傾向于進行賽后分析并對后來的時間分配感到后悔，幾乎總是認為可以將更多的時間用于特征工程，探索不同的模型和假設，以及混合。 ## 來自地獄的自動機器學習器我曾多次勾勒出“完美”系統，其中模型運行，調整和結果混合是自動化的，人類的努力專注于定義問題的不同觀點。我甚至用幾種不同語言為競賽建立了幾次不完美的系統變體。第一個版本是在十多年前的Java中。最近的版本是在R中使用make文件和bash腳本大約6個月前。 [![machine learning pipeline](https://img.kancloud.cn/03/6f/036f3aff2bf892cb384ce3fa069de3a9_1024x792.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/04/machine-learning-pipeline.jpg) 機器學習管道照片由[西雅圖市檔案館](https://www.flickr.com/photos/seattlemunicipalarchives/12504672623/sizes/l)，保留一些權利。 ### 系統設計每次它看起來像一個管道，我通過克服上一次迭代的致命錯誤使其更好。管道設計的要點如下： 1. **原始數據**：原始數據源（數據庫訪問）或文件 2. **數據視圖**：關于定義為查詢或平面文件的問題的視圖 3. **數據分區**：將數據視圖拆分為交叉驗證折疊，測試/訓練折疊以及評估模型和為競爭做出預測所需的任何其他折疊。 4. **分析報告**：使用描述性統計和圖表匯總數據視圖。 5. **模型**：機器學習算法和配置與輸入數據一起用于即時構建模型。 6. **模型輸出**：所有數據視圖的所有數據分區上的模型的原始結果。 7. **Blends** ：集合算法和配置，旨在為所有數據視圖上的所有數據分區創建模型輸出的混合。 8. **記分牌**：本地記分牌，描述所有已完成的運行及其可以分類和匯總的分數。 9. **預測**：可上報的預測，用于上傳到競賽排行榜等該系統專注于分類和回歸問題，因為我看到的大多數問題都可以簡化為這種形式的問題。使用此模型，運營商將大部分時間用于定義新數據視圖以插入“數據視圖”部分。這些是用于定義算法問題的人為定義或智能自動化方式。可以創建自動視圖，例如來自特征選擇算法的特征和諸如屬性的標準化，標準化，平方等的變換。它是數據或配置驅動的。例如，“運行”是與數據視圖組合的算法配置。如果該組合的結果不存在，則會在下次運行時創建它們。與報告，混合，預測等相同。這提供了自然的檢查指向，并且在任何時候系統的“狀態”由已經定義的配置創建的工作產品定義。我最近使用磁盤上的文件對其進行了建模，但它可以很容易地在數據庫中建模。 ### 系統優勢如上所述，管道設計旨在讓計算機專注于自動化程序，使操作員能夠專注于提出有關手頭問題的新觀點。該方法的一些好處包括： * 算法一直存在，能夠修復，調整和重新運行非常重要。 * 競爭中的限制因素通常是對問題的新觀點，而不是CPU時間或算法調整，持續集成系統可以整天重新運行主腳本尋找新的結果進行整合，使用新的配置，新的混合推廣。 * 該設計允許以新數據視圖和新模型配置文件的形式放棄添加想法。其他報告可以插入“分析報告”部分，其結果旨在激發“數據視圖”部分的更多想法。其他模型以算法和算法配置的形式添加到“模型”部分。很快就可以為算法建立標準算法和標準配置文件的語料庫。網格搜索和算法參數的隨機搜索可以添加新的配置，也可以作為搜索過程的結果。它是可插拔的，您可以看到如何繼續添加到框架中，將經驗教訓匯總到各個項目中。我的愿景是將框架作為公共開源，并在各個層面快速累積算法和報告，利用多個機器學習庫并在需要時分發計算基礎設施。 ## 徒勞無功所述系統是一個誘人的陷阱。它放棄了設計數據問題解決方案的責任。根據領域知識和專業知識智能地選擇屬性和算法。它將問題視為搜索問題并釋放CPU獵犬。我認為構建這個系統的生產級版本是徒勞的。我認為這是因為它旨在解決一個人為的問題：機器學習競賽。我大多相信這一點，比如99.99％。我一直在探討這個想法，以防萬一我錯了。這篇文章是我推動這一信念的界限的一個例子。如果我描述的這樣的系統存在，我會使用它還是我還想構建我自己的系統版本？你會怎么做？ ## 機器學習即服務（MLaaS）我認為這種系統的風格確實存在，或者我可以欺騙自己認為它存在是為了爭論。我認為這個愿景的商業友好版本已經存在，它是商品化的機器學習或機器學習即服務（MLaaS）。我上面描述的系統專注于一個問題：給定數據集，可以生成哪些最佳預測？ [谷歌預測API](https://developers.google.com/prediction/) 可能是這種類型的系統的一個例子（如果我關閉一只眼睛并與另一只眼睛斜視）。我不在乎我如何獲得最好的結果（或者足夠好的結果），只是給他們我，該死的。 [![BigML Interactive Decision Tree](https://img.kancloud.cn/aa/d6/aad6577c1b14b7050e3bf278ae7c8ee6_300x232.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/03/bigml-decision-tree.png) BigML交互式決策樹我將其與所謂的“商業友好型”MLaaS區分開來。我想到 [BigML](http://machinelearningmastery.com/bigml-review-discover-the-clever-features-in-this-machine-learning-as-a-service-platform/ "BigML Review: Discover the Clever Features in This Machine Learning as a Service Platform") 就是這類服務的一個例子。他們是我想象的這樣的服務，如果它打扮得很好，可以賣給企業。差異化的一個關鍵點是以犧牲預測精度為代價進行模型內省的能力。你不僅想要“有史以來最好的預測，該死的”，你想知道如何。這些數字需要圍繞它們進行敘述。企業需要這些信息，因此他們可以內化并將其轉移到其他問題，并在概念漂移后將來轉移到同樣的問題。知識是秘訣，而不是創造知識的模型。我認為這也說明了為什么相關企業的機器學習競賽結果有限的原因。最好的競爭結果可以為方法和流程注入新的想法，但實際的預測，甚至實際的模型都是丟失的。 ## 黑盒機器學習可能存在黑盒機器學習的地方，這就是模型無關緊要的問題。想到的一個例子是賭博（如賽馬或股票市場）。這些模型并不重要，因為它很快變得陳舊。因此，只有下一批預測和建立模型的過程才是最重要的。 [![black box machine learning](https://img.kancloud.cn/ce/fc/cefc4b7e809c6aae67274642c011878d_1024x685.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/04/black-box-machine-learning.jpg) 黑盒機學習攝影：[混亂之屋](https://www.flickr.com/photos/home_of_chaos/6332465890/sizes/l)，保留一些權利我認為黑盒機器學習就像我做自動編程一樣。自動編程可以為您提供一個解決定義明確的問題的程序，但您不知道該程序是多么丑陋，您可能不想知道。對于程序員來說，這個想法是令人厭惡的，因為一個神奇的黑匣子機器學習系統對于機器學習從業者（數據科學家？）是一種令人厭惡的想法。細節，方法，對大多數問題都很重要。 **UPDATE** ：繼續討論 [reddit](http://www.reddit.com/r/MachineLearning/comments/2483rz/the_seductive_trap_of_blackbox_machine_learning/) 和 [datatau](http://www.datatau.com/item?id=2687) 。