01-基礎知識 · 20180815-機器學習和算法

## 1 算法學習目標 * 1 懂原理-算法基本原理 * 2 會用工具 * 用包解決一些工程問題 * 3 掌握語言 * 實現算法原型 * 加深對算法的理解 * 4 會優化 * 根據自己的需求 * 定制化的改進算法 ## 2 基礎知識 ### 2.1 基礎知識 * 2.1.1 課程綱要 * 機器學習幾個基本概念 * 機器學習實質 * 機器學習方法的三要素 * 經驗風險和結構風險 * 2.1.2 目標 * 了解機器學習相關概念 * 了解機器學習實質 * 了解常見損失函數 * 了解經驗風險和結構風險 * 2.1.3 機器學習方法流程 * `監督學習`為例,eg好比`比照例題做習題` * `監督`,有結果的樣本數據 * `模型`,eg女孩子購物180的包還價90 * `監督學習流程`, * `輸入數據(Raw data)`, * `特征工程(Features)`,特征加工和整理 * `模型訓練(Models)`,如果數據訓練出模型,并且評估模型 * `模型部署(Deploy in production`),放到線上做成API * `模型應用(Predictions)`,預測 * 業務和數據都是動態變量的,`模型生命周期有限`,定期去更新模型 * 2.1.4 輸入空間(Input Space)和輸出空間(Output Space) * `輸入空間`,輸入所有可能取值集合 * `輸出空間`,輸出所有可能取值集合 * eg 父親身高所有可能取值(`輸入空間`),兒子的身高所有可能取值(`輸出空間`) * eg 泰坦尼克生還,`輸出空間`生還指標;`輸入空間`除了生還指標以外的 * 2.1.5 特征空間 * `特征(Features)`,屬性 * `特征向量(Features Vector)`,多個特征組成的集合 * `特征空間(Features Space)`,特征向量所有可能的取值的集合 * eg 身高,父親身高165 `這是一條特征`;(165)`一維特征向量`; * eg 泰坦尼克號,除了survive字段以外的,就是一個`十一維的特征向量` * `特征空間`和`輸入空間`可以相同也可以不同,eg 身高就是相同的;泰坦尼克號`fare票價`,`離散為c_level`就是不一樣 * `模型`定義在`特征空間`上 * 2.1.6 假設空間(hypothesis space) * `模型`屬于從輸入空間到輸出空間的`映射集合`,這個集合就是`假設空間` * 從輸入空間到輸出空間的映射集合就是假設空間 * eg 購物 * 輸入空間 `gender 男女 credit 高中低` * 輸出空間 `buy 買不買` * 假設空間 `輸入記錄所有可能出現的可能組合` * 假設空間中的每一種可能就是一個假設 * 那么假設空間個數在這里就是2<sup>2x3</sup> * 建模就是從2<sup>2x3</sup>種假設種`挑出貼合數據的假設` * 這個`貼合的假設`作為模型對新的數據進行預測 * 尋找模型就是在`輸入`和`輸出`映射的`假設空間`中,尋找一種`當前數據匹配度最高`的`假設` ### 2.2 機器學習方法的三要素 * 2.2.1 機器學習方法的三要素 * 機器學習方法由`模型`,`策略`,`算法`構成;`方法`=`模型`+`策略`+`算法` * `模型`,輸入空間到輸出空間的映射關系 * 確定學習范圍 * `策略`,從眾多假設空間中`挑選最優模型的標準`和`規則` * 確定學習規則,去尋找最合適的假設 * `算法`,學習模型具體的`計算方法`,假設空間中找假設就是求解`最優化問題` * 按規則在范圍內學習,如何找到最優解 * 2.2.2 模型 * 分析當前問題,確定模型 * 預測分類 * 分類(classification) * eg 泰坦尼克生還 * eg 消費者購買可能性 * 預測取值 * 回歸(Regression) * eg 預測身高 * eg 預測產品價格走勢 * 發現結構 * 聚類(Clustering) * eg 分析客戶購買能力 * 發現異常數據 * 異常檢測(Anomaly Detection) * eg 電信防欺詐 * 2.2.3 策略 * 假設空間中找到最優假設(模型)的`學習標準`和`規則` * 1 評估某個模型對`單個訓練樣本`的效果 * 2 評估某個模型對`訓練集`的整體效果 * 3 評估某個模型對包括`訓練集`,`預測集`在內的所有數據的整體效果 * 需要定義指標對上述問題做衡量 * `損失函數`, * 0-1損失函數, * 平方損失函數, * 絕對損失函數, * 對數損失函數 * `風險函數`, * 經驗風險, * 期望風險, * 結構風險 * 基本策略 * `經驗風險最小(EMR,Empirical Risk Minimization)` * `結構風險最小(SMR,Structural Risk Minimization)` * 2.2.4 損失函數(Loss Function) * 度量單個樣本的預測結果和真實值差異 * 衡量預測結果和真實結果之間的差距,損失函數值越小效果越好,損失函數L(Y,f(x)) Y真實值 * `0-1損失函數(0-1 LF)`,預測值和真實值精確相等`沒有損失`記為0,`完全損失`記為1 * `絕對值損失函數(Absolute LF)`,預測值和真實結果差的絕對值 * `平方損失函數(Quadratic LF)`,預測值和真實結果差的平方 * `對數似然損失函數(log-likehood loss function)`,對數具有單調性 * `指數損失函數(Exponential LF)`,單調性,非負性, * `折頁損失函數(Hinge LF)`,對于判定邊界附近點的懲罰力度較高,常用于SVM * 不同損失函數應用場景 * `0-1`,理想狀況模型 * `對數log`,邏輯回歸,交叉熵 * `平方Squared`,線性回歸 * `指數Exponential`,AdaBoosting * `折頁Hinge`,SVM,soft margin * 2.2.5 經驗風險(Empirical Risk)和風險函數(Risk Function) * 經驗風險 * 損失函數,預測單個樣本和真實值的差異 * 衡量整個訓練集預測值和真實值的差異, * 經驗風險越小,說明模型f(x)對訓練集的擬合程度越好 * 損失函數累加/N * 風險函數(期望損失,期望風險) * 所有數據集(訓練集合測試集)損失函數的期望值 * 經驗風險VS期望風險 * 期望風險模型對`全局(所有數據集)的效果`,經驗風險是模型對`局部(訓練集)的效果` * 期望風險往往`沒法計算`,經驗風險`可以計算` * 訓練集足夠大時,經驗風險可以替代期望風險,局部最優替代全局最優 * 經驗風險問題 * `在樣本量較小時`,`僅關注`經驗風險,容易導致`過擬合` * eg 7個數據點(x,y) * 一次模型擬合直線 * 兩次模型擬合曲線 * 三次模型擬合 * 四次模型擬合 * 五次(一元五次方程)模型擬合 * 六次模型擬合完美擬合每一個點 * 2.2.6 結構風險(Structural Risk) * 在`經驗風險`基礎上,增加一個`正則化項(Regularizer)`或者叫`懲罰項(Penalty Term)` * `結構風險` = `經驗風險`+`λJ(f)`(模型f(x)的復雜度),λ大于0 * 經驗風險VS結構風險 * 經驗風險越小,模型決策函數越復雜,包含的參數越多 * 經驗風險小到一定程度就出現`過擬合現象` * 防止過擬合方式,降低決策函數的復雜度,讓懲罰項J(f)最小化 * 需要同時保證經驗風險函數和模型決策函數復雜度都達到最小化 * 把兩個式子融合到一起成為一個式子,得到結構風險函數然后對結構風險函數進行最小化 * 2.2.7 正則化項 * 選定懲罰函數項 * 計算結構風險和經驗風險 * 選擇結構風險最小的 * `λJ(f)`(模型f(x)的復雜度),λ大于0 * 2.2.8 范數 * 正則化函數λJ(f)有多種選擇 * 一般它是模型復雜度單調遞增函數 * 模型越復雜,函數值越大,懲罰力度越大 * 范數常為模型參數向量的范數 * 常用的范數有:零范數,一范數,二范數,跡范數 * `跳過` * 2.2.9 期望風險 vs 經驗風險 vs 結構風險 * 如何判斷一個模型好壞,通過`損失函數`和`風險函數`判斷 * 期望風險(需要拿到訓練數據和預測數據集),預測數據集一般不容易拿到 * 經驗風險(在訓練集)上擬合效果過好,容易產生過擬合(訓練集上表現好,預測集上表現差) * 如何避免,結構風險 = 經驗風險+懲罰項;模型過于復雜懲罰項就會變大,模型就不會被選中 * 經驗風險保證在訓練集上擬合效果好;懲罰項保證擬合效果不錯,不要基于過于復雜的模型 ## 3 總結和回顧 ### 3.1 總結 * 3.1.1 基本概念 * 輸入空間 * 輸出空間 * 假設空間 * 特征空間 * 3.1.2 機器學習實質 * 輸入空間到輸出空間中各種假設形成的假設空間中,找到對當前數據擬合情況最好 * 3.1.3 機器學習三要輸 * 模型,確定問題 * 策略,評估模型好壞規則 * 算法,如何在規則內優化得到要的假設 * 3.1.4 機器學習`策略`如何判斷模型好壞 * 經驗風險 * 期望風險 * 結構風險 = 經驗風險+懲罰項(模型不要過于復雜) ### 3.2 學習目標 * 3.2.1 基本概念 * `輸入` `輸出` `假設` `特征` * 3.2.2 機器學習實質 * 假設空間中`搜索更適合當前數據`的`假設` * 3.2.3 損失函數 * 預測結果和模型真實值的差異 * 常見的損失函數 0-1函數絕對值平方損失函數 * 平方損失函數 * 計算容易 * 結果為非負實值 * 經常回去求導,算起來容易 * 3.2.4 經驗風險和結構風險 ### 3.3 思考和練習 * 3.3.1 空間相關概念,解釋機器學習實質 * 3.3.2 經驗風險和結構風險不同,經驗風險和期望風險的不同 * 3.3.3 為什么要引入正則項,和經驗風險和結構風險的關系 * 3.3.4 損失函數的意義,常見的損失函數,說明異同;了解常用算法選用什么損失函數 * 3.3.5 泰坦尼克號生還分析,拆解案例