機器學習6大算法，優勢劣勢全解析 · AI學習摘記

http://36kr.com/p/5080347.html?from=guess [TOC] 我們將機器學習中最突出、最常用的算法分為三類：線性模型、基于樹的模型、神經網絡，用一張圖表簡明地指出了每一類的優勢和劣勢。在機器學習中，我們的目標要么是預測（prediction），要么是聚類（clustering）。本文重點關注的是預測。預測是從一組輸入變量來預估輸出變量的值的過程。例如，得到有關房子的一組特征，我們可以預測它的銷售價格。預測問題可以分為兩大類：回歸問題：其中要預測的變量是數字的（例如房屋的價格）；? 分類問題：其中要預測的變量是“是/否”的答案（例如，預測某個設備是否會故障）? 了解了這點，接下來讓我們看看機器學習中最突出、最常用的算法。我們將這些算法分為3類：線性模型、基于樹的模型、神經網絡。 ![【一圖看懂】機器學習6大算法，優勢劣勢全解析](https://pic.36krcnd.com/201706/20034654/44xdgdfl6p2ak7yb!1200) ### 線性模型方法線性模型使用簡單的公式，通過一組數據點找到“最佳擬合”的行。這一方法可以追溯到200多年前，在統計學和機器學習領域都得到廣泛應用。由于它的簡單性，它對統計學很有用。你想要預測的變量（因變量）被表示為你已經知道的變量（自變量）的方程，因此預測只是一個輸入自變量，然后算出方程的答案的問題。線性回歸線性回歸，或更準確的說法“最小二乘回歸”，是線性模型的最標準形式。對于回歸問題，線性回歸是最簡單的線性模型。其缺點是模型容易過擬合，也就是說，模型完全適應已進行訓練的數據，而犧牲了推廣到新數據的能力。因此，機器學習中的線性回歸（以及我們接下來將談到的邏輯回歸）通常是“正則化”的，這意味著模型有一定的懲罰來防止過擬合。線性模型的另一個缺點是，由于它們非常簡單，所以當輸入變量不獨立時，他們不容易預測更復雜些的行為。? 邏輯回歸? 邏輯回歸是線性回歸對分類問題的適應。邏輯回歸的缺點與線性回歸相同。邏輯函數對分類問題非常好，因為它引入了閾值效應。 ### 基于樹的模型決策樹? 決策樹是使用分支方法顯示決策的每一個可能的結果的圖示。比如說，你決定要點一份沙拉，你的第一個決策是可能是生菜的種類，然后是配菜，然后是沙拉醬的種類。我們可以在一個決策樹中表示所有可能的結果。? 為了訓練決策樹，我們需要使用訓練數據集并找出那個屬性對目標最有用。例如，在欺詐檢測用例中，我們可能發現對預測欺詐風險影響最大的屬性是國家。在以第一個屬性進行分支后，我們得到兩個子集，這是假如我們只知道第一個屬性時最能夠準確預測的。接著，我們再找出可以對這兩個子集進行分支的第二好的屬性，再次進行分割，如此往復，直到使用足夠多的屬性后能滿足目標的需求。? 有關決策樹，新智元對一篇經典文章做過介紹：[【經典】機器學習可視化演示](http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2651989029&idx=3&sn=7ab15682f84c1ba51095ac1066e31e8c&chksm=f12150d4c656d9c2f7a67c3544ffa12024f1c7df7944c637386d88c6c8a39e66ed11d4af87eb&scene=21#wechat_redirect) 隨機森林? 隨機森林是許多決策樹的平均，其中每個決策樹都用隨機的數據樣本進行訓練。隨機森林中的每個樹都比一個完整的決策樹弱，但是將所有樹放在一起，由于多樣性的優勢，我們可以獲得更好的整體性能。? 隨機森林是當今機器學習中非常流行的算法。隨機森林的訓練很容易，而且表現相當好。它的缺點是相對于其他算法，隨機森林輸出預測可能會很慢，所以在需要快速預測時，可能不會選擇隨機森林。? 梯度提升? 梯度提升（GradientBoosting），像隨機森林那樣，也是由“弱”決策樹組成的。梯度提升與隨機森林最大的區別是，在梯度提升中，樹是一個接一個被訓練的。每個后面的樹主要由前面的樹識別錯誤的數據來訓練。這令梯度提升較少關注易于預測的情況，而更多地關注困難的情況。? 梯度提升的訓練也很快，表現也非常好。但是，訓練數據集的小小變化可以令模型發生根本性的變化，因此它產生的結果可能不是最可行的。 ### 神經網絡神經網絡是指大腦中彼此交換信息的相互聯系的神經元組成的生物學現象。這個想法現在被適用到機器學習領域，被稱為?ANN（人工神經網絡）。深度學習是疊在一起的多層的神經網絡。? ANN?是一系列通過學習獲取類似人類大腦的認知能力的模型。在處理非常復雜的的任務，例如圖像識別時，神經網絡表現很好。但是，正如人類大腦一樣，訓練模型非常耗時，而且需要非常多的能量（試想想我們需要吃多少食物才能保證大腦正常工作！）