http://36kr.com/p/5080347.html?from=guess
[TOC]
我們將機器學習中最突出、最常用的算法分為三類:線性模型、基于樹的模型、神經網絡,用一張圖表簡明地指出了每一類的優勢和劣勢。
在機器學習中,我們的目標要么是預測(prediction),要么是聚類(clustering)。本文重點關注的是預測。預測是從一組輸入變量來預估輸出變量的值的過程。例如,得到有關房子的一組特征,我們可以預測它的銷售價格。預測問題可以分為兩大類:
回歸問題:其中要預測的變量是數字的(例如房屋的價格);?
分類問題:其中要預測的變量是“是/否”的答案(例如,預測某個設備是否會故障)?
了解了這點,接下來讓我們看看機器學習中最突出、最常用的算法。
我們將這些算法分為3類:線性模型、基于樹的模型、神經網絡。

### 線性模型方法
線性模型使用簡單的公式,通過一組數據點找到“最佳擬合”的行。這一方法可以追溯到200多年前,在統計學和機器學習領域都得到廣泛應用。由于它的簡單性,它對統計學很有用。你想要預測的變量(因變量)被表示為你已經知道的變量(自變量)的方程,因此預測只是一個輸入自變量,然后算出方程的答案的問題。
線性回歸
線性回歸,或更準確的說法“最小二乘回歸”,是線性模型的最標準形式。對于回歸問題,線性回歸是最簡單的線性模型。其缺點是模型容易過擬合,也就是說,模型完全適應已進行訓練的數據,而犧牲了推廣到新數據的能力。因此,機器學習中的線性回歸(以及我們接下來將談到的邏輯回歸)通常是“正則化”的,這意味著模型有一定的懲罰來防止過擬合。
線性模型的另一個缺點是,由于它們非常簡單,所以當輸入變量不獨立時,他們不容易預測更復雜些的行為。?
邏輯回歸?
邏輯回歸是線性回歸對分類問題的適應。邏輯回歸的缺點與線性回歸相同。邏輯函數對分類問題非常好,因為它引入了閾值效應。
### 基于樹的模型
決策樹?
決策樹是使用分支方法顯示決策的每一個可能的結果的圖示。比如說,你決定要點一份沙拉,你的第一個決策是可能是生菜的種類,然后是配菜,然后是沙拉醬的種類。我們可以在一個決策樹中表示所有可能的結果。?
為了訓練決策樹,我們需要使用訓練數據集并找出那個屬性對目標最有用。例如,在欺詐檢測用例中,我們可能發現對預測欺詐風險影響最大的屬性是國家。在以第一個屬性進行分支后,我們得到兩個子集,這是假如我們只知道第一個屬性時最能夠準確預測的。接著,我們再找出可以對這兩個子集進行分支的第二好的屬性,再次進行分割,如此往復,直到使用足夠多的屬性后能滿足目標的需求。?
有關決策樹,新智元對一篇經典文章做過介紹:[【經典】機器學習可視化演示](http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2651989029&idx=3&sn=7ab15682f84c1ba51095ac1066e31e8c&chksm=f12150d4c656d9c2f7a67c3544ffa12024f1c7df7944c637386d88c6c8a39e66ed11d4af87eb&scene=21#wechat_redirect)
隨機森林?
隨機森林是許多決策樹的平均,其中每個決策樹都用隨機的數據樣本進行訓練。隨機森林中的每個樹都比一個完整的決策樹弱,但是將所有樹放在一起,由于多樣性的優勢,我們可以獲得更好的整體性能。?
隨機森林是當今機器學習中非常流行的算法。隨機森林的訓練很容易,而且表現相當好。它的缺點是相對于其他算法,隨機森林輸出預測可能會很慢,所以在需要快速預測時,可能不會選擇隨機森林。?
梯度提升?
梯度提升(GradientBoosting),像隨機森林那樣,也是由“弱”決策樹組成的。梯度提升與隨機森林最大的區別是,在梯度提升中,樹是一個接一個被訓練的。每個后面的樹主要由前面的樹識別錯誤的數據來訓練。這令梯度提升較少關注易于預測的情況,而更多地關注困難的情況。?
梯度提升的訓練也很快,表現也非常好。但是,訓練數據集的小小變化可以令模型發生根本性的變化,因此它產生的結果可能不是最可行的。
### 神經網絡
神經網絡是指大腦中彼此交換信息的相互聯系的神經元組成的生物學現象。這個想法現在被適用到機器學習領域,被稱為?ANN(人工神經網絡)。深度學習是疊在一起的多層的神經網絡。?
ANN?是一系列通過學習獲取類似人類大腦的認知能力的模型。在處理非常復雜的的任務,例如圖像識別時,神經網絡表現很好。但是,正如人類大腦一樣,訓練模型非常耗時,而且需要非常多的能量(試想想我們需要吃多少食物才能保證大腦正常工作!)
- 15張圖閱盡人工智能現狀
- LeCun臺大演講:AI最大缺陷是缺乏常識,無監督學習突破困境
- Google首席科學家談Google是怎么做深度學習的
- 為你的深度學習任務挑選性價比最高GPU
- 史上最全面的深度學習硬件指南
- 機器學習
- 普通程序員如何向人工智能靠攏?
- 從機器學習談起
- 普通程序員如何轉向AI方向
- 機器學習6大算法,優勢劣勢全解析
- 除了 Python ,這些語言寫的機器學習項目也很牛(二)
- 五個鮮為人知,但又不可不知的機器學習開源項目
- 機器學習入門算法:從線性模型到神經網絡
- 機器學習常見算法分類匯總
- 最實用的機器學習算法Top5
- NLP
- Lucene的原理和應用
- 理解和使用自然語言處理之終極指南(Python編碼)(經典收藏版12k字,附數據簡化籌技術人員)
- 神經網絡
- 曾經歷過兩次低谷的人工神經網絡,還會迎來下一個低谷么?
- 人工神經網絡——維基
- 深度學習——維基
- A Neural Network in 11 lines of Python (Part 1)
- 深度學習
- 基于深度學習的機器翻譯
- 谷歌研究員2萬字批駁上海交大用深度學習推斷犯罪分子
- 理解這25個概念,你的「深度學習」才算入門!
- Deep Learning(深度學習)學習筆記整理系列
- 概述、背景、人腦視覺機理
- 特征
- Deep Learning
- Deep Learning 訓練
- Deep Learning(中文)
- 第1章 引言
- 深度學習如何入門?——知乎
- 文章收錄
- 神經系統