如何提高機器學習效果 · Machine Learning Mastery 博客文章翻譯

# 如何提高機器學習效果 > 原文： [https://machinelearningmastery.com/how-to-improve-machine-learning-results/](https://machinelearningmastery.com/how-to-improve-machine-learning-results/) 擁有一個或兩個在問題上表現相當好的算法是一個良好的開端，但有時您可能會受到激勵以獲得最佳結果，您可以獲得可用的時間和資源。在這篇文章中，您將了解可用于擠出額外表現的方法，并改進從機器學習算法中獲得的結果。調整算法時，您必須對測試工具給出的結果有很高的信心。這意味著您應該使用減少用于評估算法運行的表現度量方差的技術。我建議使用相當多的折疊進行交叉驗證（確切的數量取決于您的數據集）。 ![Tuning Fork](https://img.kancloud.cn/ae/47/ae47e2ccbcc90af36759b5b3caa40930_300x244.jpg) Tuning Fork 照片歸屬于 [eurok](http://www.flickr.com/photos/21025851@N00/2169196138/sizes/l/) ，保留一些權利您將在本文中了解的三個策略是： * 算法調整 * 合奏 * 極限特征工程 ## 算法調整開始的地方是從您已經知道的對您的問題表現良好的算法中獲得更好的結果。您可以通過探索和微調這些算法的配置來實現此目的。機器學習算法被參數化，并且那些參數的修改可以影響學習過程的結果。將每個算法參數視為圖形上的維度，其中給定參數的值作為沿軸的點。三個參數將是算法的可能配置的立方體，并且n參數將是算法的可能配置的n維超立方體。算法調整的目的是為您的問題找到超立方體中的最佳點。您將針對您的測試工具進行優化，因此您再也不能低估花時間構建可信測試工具的重要性。您可以通過使用自動化方法來處理此搜索問題，該方法在可能性空間和可能具有良好算法配置的示例上強加網格。然后，您可以在優化算法中使用這些點來放大最佳表現。您可以使用一些表現良好的方法重復此過程，并探索每種方法可以實現的最佳效果。我強烈建議該過程是自動化的并且合理粗糙，因為您可以快速達到可能無法轉化為生產系統的收益遞減點（表現百分比增加）。算法參數調整得越多，算法對訓練數據和測試工具的偏差就越大。這種策略可能是有效的，但它也可能導致更脆弱的模型過度使用你的測試工具并且在實踐中表現不佳。 ## 合奏集合方法涉及組合多種方法的結果以獲得改進的結果。當你有多個“足夠好”的模型專門研究問題的不同部分時，集合方法很有效。這可以通過許多方式實現。您可以探索的三種合奏策略是： * **Bagging** ：更正式地稱為Bootstrapped Aggregation，相同的算法通過訓練不同的訓練數據子集對問題有不同的觀點。 * **Boosting** ：針對相同的訓練數據訓練不同的算法。 * **混合**：更正式地稱為Stacked Aggregation或Stacking是各種模型，其預測被作為新模型的輸入，學習如何將預測結合到整體預測中。在用盡更多傳統方法之后進入合奏方法是個好主意。這有兩個很好的理由，它們通常比傳統方法更復雜，傳統方法為您提供了良好的基礎水平，您可以從中提高和繪制來創建您的合奏。 ![Ensemble Learning](https://img.kancloud.cn/3c/3a/3c3a2bda6ef9791a1afd1d619ea133e7_300x200.jpg) 合奏學習照片歸屬于 [ancasta1901](http://www.flickr.com/photos/antoniocastagna/8491556471/sizes/l/) ，部分版權所有 ## 極限特征工程前兩個策略考慮了從機器學習算法中獲得更多。這個策略是為了讓學習算法的問題暴露出更多的結構。在數據準備中學習了有關特征分解和聚合的知識，以便更好地規范機器學習算法的數據。在這個策略中，我們將這個想法推向極限。我把這種策略稱為極端特征工程，當真正的“特征工程”這個術語就足夠了。將您的數據視為嵌入其中的復雜多維結構，機器學習算法知道如何查找和利用以做出決策。您希望最好地將這些結構暴露給算法，以便算法可以做到最好。一個難點是這些結構中的一些可能太密集或太復雜而無法在沒有幫助的情況下找到算法。您可能也從您的領域專業知識中了解此類結構。獲取屬性并將它們廣泛分解為多個功能。從技術上講，您使用此策略所做的是將依賴關系和非線性關系簡化為更簡單的獨立線性關系。這可能是一個外國的想法，所以這里有三個例子： * **分類**：你有一個具有[紅色，綠色藍色]值的分類屬性，你可以將它分成紅色，綠色和藍色的3個二進制屬性，并為每個實例分別賦予1或0值。 * **Real** ：你有一個實數值，其值介于0到1000之間。你可以創建10個二進制屬性，每個屬性代表一個值的bin（bin 1為0-99，bin 2為100-199）等）并為每個實例分配二進制值（1/0）。我建議一步一步地執行此過程，并為每個修改創建一個新的測試/訓練數據集，然后在數據集上測試算法。這將開始讓您直觀了解數據庫中的屬性和功能，這些屬性和功能會向算法公開更多或更少的信息以及對表現度量的影響。您可以使用這些結果來指導進一步的極端分解或聚合。 ## 摘要在這篇文章中，您了解了三種策略，可以從您的問題中獲得機器學習算法的改進結果： * 算法調整通過模型參數空間將發現最佳模型的方式視為搜索問題。 * 組合多個模型所做預測的集合。 * 極限特征工程，其中數據準備中看到的屬性分解和聚合被推到極限。 ## 資源如果您希望深入了解此主題，請查看以下資源。 * [黑客機器學習](http://www.amazon.com/dp/1449303714?tag=inspiredalgor-20)，第12章：模型比較 * [數據挖掘：實用機器學習工具和技術](http://www.amazon.com/dp/0123748569?tag=inspiredalgor-20)，第7章：轉換：設計輸入和輸出 * [統計學習要素：數據挖掘，推理和預測](http://www.amazon.com/dp/0387848576?tag=inspiredalgor-20)，第16章：集成學習 **更新** 有關從算法中獲取更多信息的20個提示和技巧，請參閱帖子： * [如何提高深度學習效能](http://machinelearningmastery.com/improve-deep-learning-performance/)