為什么你應該在你的機器學習問題上進行抽樣檢查算法 · Machine Learning Mastery 博客文章翻譯

# 為什么你應該在你的機器學習問題上進行抽樣檢查算法 > 原文： [https://machinelearningmastery.com/why-you-should-be-spot-checking-algorithms-on-your-machine-learning-problems/](https://machinelearningmastery.com/why-you-should-be-spot-checking-algorithms-on-your-machine-learning-problems/) 點檢算法是關于在機器學習問題上快速評估一堆不同的算法，以便您了解要關注的算法和丟棄的內容。 [![spot check machine learning algorithm](https://img.kancloud.cn/39/cf/39cfa13fc3f724537924c2afae76c4c1_1024x768.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/02/spot-check-machine-learning-algorithm.jpg) 照片來自 [withassociates](http://www.flickr.com/photos/withassociates/4385364607/sizes/l/) ，保留一些權利在這篇文章中，您將發現斑點檢查算法的3個好處，5個用于對您的下一個問題進行抽查的技巧，以及您可以在算法套件中進行抽查的十大最流行的數據挖掘算法。 ## 抽樣檢查算法 [抽樣檢查算法](http://machinelearningmastery.com/how-to-evaluate-machine-learning-algorithms/)是應用機器學習過程的一部分。在一個新問題上，您需要快速確定哪種類型或類別的算法擅長選擇問題中的結構，哪些不是。現場檢查的替代方案是，您可能會嘗試使用大量的算法和算法類型，使您最終嘗試的很少或者過去使用過的功能。這會導致浪費時間和低于標準的結果。 ## 點檢算法的好處在您的機器學習問題上，抽樣算法有三個主要優點： * **速度**：您可以花費大量時間來使用不同的算法，調整參數并考慮哪些算法可以很好地解決您的問題。我一直在那里，最后一遍又一遍地測試相同的算法因為我沒有系統化。一次抽樣實驗可以節省數小時，數天甚至數周的涂鴉時間。 * **目標**：有一種趨勢可以追溯到以前對你有用的東西。我們選擇我們最喜歡的算法（或算法）并將它們應用于我們看到的每個問題。機器學習的力量在于有很多不同的方法可以解決特定問題。通過抽樣實驗，您可以自動客觀地發現那些最佳選擇問題結構的算法，以便您可以集中注意力。 * **結果**：現場檢查算法可以快速獲得可用的結果。您可以在第一個現場實驗中發現一個足夠好的解決方案。或者，您可以快速了解到您的數據集沒有為任何主流算法提供足夠的結構以使其表現良好。抽樣檢查為您提供了決定是否繼續前進并優化給定模型或向后重新訪問問題表示所需的結果。我認為現場檢查主流算法對你的問題是一個簡單的第一步。 ## 點檢算法提示當您進行抽樣檢查算法時，您可以做一些事情，以確保您獲得有用且可操作的結果。 [![Tips for Spot-Checking Algorithms](https://img.kancloud.cn/7a/fd/7afd43a897db9a5e65e38db3944ac364_1024x1024.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/02/Tips-for-Spot-Checking-Algorithms.jpg) 點檢算法提示照 [vintagedept](http://www.flickr.com/photos/vintagedept/6358537847/sizes/l/) ，保留一些權利。以下是5個提示，以確保您從問題的現場檢查機器學習算法中獲得最大收益。 * **算法多樣性**：您需要良好的算法類型組合。我喜歡包括基于實例的方法（實時LVQ和knn），函數和內核（如神經網絡，回歸和SVM），規則系統（如決策表和RIPPER）和決策樹（如CART，ID3和C4.5）。 * **最佳足部前鋒**：每個算法都需要有機會將其發揮得最好。這并不意味著對每個算法的參數進行靈敏度分析，而是使用實驗和啟發式方法為每個算法提供公平的機會。例如，如果kNN在混合中，則給它3次機會，k值為1,5和7。 * **正式實驗**：不要玩。以非正式的方式嘗試許多不同的東西，以解決問題的算法是一種巨大的誘惑。現場檢查的想法是快速找到能夠很好地解決問題的方法。設計實驗，運行它，然后分析結果。有條不紊。我喜歡通過統計顯著的勝利（在成對比較中）對算法進行排名，并將前3-5作為調整的基礎。 * **跳躍點**：表現最佳的算法是解決問題的起點。顯示有效的算法可能不是該作業的最佳算法。它們最有可能是指向在問題上表現良好的算法類型的有用指針。例如，如果kNN表現良好，請考慮對您可以想到的所有基于實例的方法和kNN變體的后續實驗。 * **構建您的短名單**：當您學習并嘗試許多不同的算法時，您可以將新算法添加到您在抽樣實驗中使用的算法套件中。當我發現一個特別強大的算法配置時，我喜歡將它概括并將其包含在我的套件中，使我的套件對下一個問題更加健壯。開始構建用于抽查實驗的算法套件。 ## 十大算法 2008年發表了一篇題為“[數據挖掘前十大算法](http://scholar.google.com/scholar?q=Top+10+algorithms+in+data+mining)”的論文。誰可以通過這樣的頭銜？它也變成了一本書“[數據挖掘中的十大算法](http://www.amazon.com/dp/1420089641?tag=inspiredalgor-20)”，并啟發了另一個“機器學習在行動”的結構。 [![Amazon Image](https://img.kancloud.cn/8a/57/8a57f31e23fb3850bbf10f4b4bfe2cb8_102x160.jpg)](http://www.amazon.com/dp/1420089641?tag=inspiredalgor-20) 這可能是一篇很好的論文，可以幫助您快速啟動算法的簡短列表，以便對您的下一次機器學習問題進行抽查。本文列出的前10個數據挖掘算法是。 * C4.5這是一種決策樹算法，包括著名的C5.0和ID3算法等后代方法。 * K均值。轉向聚類算法。 * 支持向量機。這真是一個巨大的研究領域。 * 先驗。這是規則提取的首選算法。 * EM。隨著k-means，go-to聚類算法。 * 網頁排名。我很少接觸基于圖形的問題。 * AdaBoost的。這實際上是推動整體方法的一族。 * knn（k-最近鄰居）。簡單有效的基于實例的方法。 * 樸素貝葉斯。在數據上簡單而穩健地使用貝葉斯定理。 * CART（分類和回歸樹）另一種基于樹的方法。關于這個主題還有一個[偉大的Quora問題，你可以挖掘算法的想法來試試你的問題。](http://www.quora.com/Machine-Learning/What-are-some-Machine-Learning-algorithms-that-you-should-always-have-a-strong-understanding-of-and-why) ## 資源 * [數據挖掘中的十大算法](http://scholar.google.com/scholar?q=Top+10+algorithms+in+data+mining)（2008） * Quora：[你應該對這些機器學習算法有什么了解，為什么？](http://www.quora.com/Machine-Learning/What-are-some-Machine-Learning-algorithms-that-you-should-always-have-a-strong-understanding-of-and-why) 你喜歡哪種算法來檢查問題？你有最喜歡的嗎？