機器學習概念 · 機器學習

> 本課是"Google ML速成課程"-"概念"的筆記。 > 旨在對ML的基本概念有個**快速了解**，第一遍學習時，理解不透徹沒有關系，可以在以后的學習過程中經常回頭。 > [課程鏈接](https://developers.google.cn/machine-learning/crash-course/ml-intro) > [術語庫](https://developers.google.cn/machine-learning/crash-course/glossary) > 本課學習時長評估：12～24個小時。 > 針對速成課程，略過我的筆記，直接學習以上課程鏈接。 ## 問題構建 (Framing) 監督式學習、非監督式學習標簽：Label 特征：Feature 樣本：有標簽樣本（labeled example）、無標簽樣本（unlabeled example）模型：Model，模型定義了特征與標簽之間的關系訓練：Training，是指創建或學習模型推斷：Inference，是指將訓練后的模型應用于無標簽樣本回歸：Regression，回歸模型可預測連續值，比如房價、概率分類：Classifier，分類模型可預測離散值，比如是否垃圾郵件、圖像是狗、貓還是老鼠 ## 線性回歸(Linear Regression) 經驗風險最小化：檢查多個樣本并嘗試找出可最大限度地減少損失的模型，這一過程稱為“經驗風險最小化”。損失：損失是對糟糕預測的懲罰。損失是一個數值，完全準確，損失為0。訓練模型的目標是從所有樣本中找到一組平均損失“較小”的權重和變差。平方損失：一種常見的損失函數，又稱L2損失。均方誤差（MSE）：指的是每個樣本的平均平方損失。 ![](https://img.kancloud.cn/e4/cf/e4cf67b6a9ed9ebdd02898736fbe977f_1380x1290.jpg) ## 降低損失(Reducing Loss) 迭代(Iterations)方法降低損失。通常，您可以不斷迭代，直到總體損失不再變化或至少變化極其緩慢為止。這時候，我們可以說該模型已收斂。通過計算整個數據集中每個可能值的損失函數來找到收斂點這種方法效率太低。 ![](https://img.kancloud.cn/b4/2d/b42d1eec6a95c29af5a4f08507ad893e_1536x674.jpg) 對于我們一直在研究的回歸問題，損失函數是凸函數，可以用梯度下降法降低損失。梯度是偏導數的矢量。導數是函數的變化速度。梯度下降法，用梯度乘以一個稱為學習速率（有時也稱為步長）的標量，以確定下一個點的位置。超參數是編程人員在機器學習算法中用于調整的旋鈕。步長就是超參數。步長選擇太大太小都會有問題。 ![](https://img.kancloud.cn/03/12/0312eb685ef8d1339bf1ea1ae908e3e8_1212x642.jpg) ![](https://img.kancloud.cn/57/c9/57c915faa819095e949463ca782f8297_1724x752.jpg) ## 隨機梯度下降(stochastic gradient descent) ****這塊要理解一下，因為損失函數是凸函數，橫坐標是權重，縱坐標是損失，而損失是在一個批量（可以是總數據集、小批量、單個樣本）上，按照某種算法（比如就用均方誤差：MSE）計算出來的。**** **所以，批量越大，計算越慢，一個批量就用一個樣本，每次迭代最快。** SGD、小批量SGD。 ![](https://img.kancloud.cn/a0/ad/a0adbb6752ce8abdfeffe56cdf9df640_1340x948.jpg) ![](https://img.kancloud.cn/45/93/45933da3981fe79bc0c393249e927557_1722x632.jpg) ## 使用TF的基本步驟 ![](https://img.kancloud.cn/06/3e/063ed1b00d27ff908e22f09d9e35cc0a_1230x772.jpg) 安裝jupyter notebook，學習：intro\_to\_pandas、線性回歸、合成特征以及輸入離群值帶來的影響，這3個練習。關于jupyter的安裝，可以按照google介紹的pip方式。我是使用機器學習特訓營介紹的anaconda方式： 1、下載安裝anaconda； 2、source ~/.bash\_profile 或者重啟，讓anaconda增加的環境變量生效 3、conda install jupyter notebook **第一個練習：Pandas** Pandas是用于數據分析和建模的重要庫，可以進行數據存取/加載/修改/reindex/繪圖等，很多學習框架都支持將pandas數據結構作為輸入。 ![](https://img.kancloud.cn/c4/9d/c49d83d77d106c3ebb7c6ae7973b4e10_1104x600.jpg) **第二個練習：first\_steps\_with\_tensor\_flow** 演示一個用LinearRegressor構建模型，進行預測的完整例子。完整代碼包含： * 定義并配置特征列 * 定義目標 * 配置LinearRegressor及其超參數 * 定義輸入函數 * 訓練模型 * 評估模型然后練習調整模型超參數，以及嘗試使用其他feature進行預測。 **第三個練習：synthetic\_features\_and\_outliers** 合成特征以及輸入離群值帶來的影響 ## 泛化 (Generalization) 泛化是指模型很好地擬合以前未見過的新數據（從用于創建該模型的同一分布中抽取）的能力。過擬合是由于模型的復雜程度超出所需程度而造成的。機器學習的基本沖突是適當擬合我們的數據，但也要盡可能簡單地擬合數據。 **奧卡姆剃刀定律：** 機器學習模型越簡單，良好的實證結果就越有可能不僅僅基于樣本的特性。現今，我們已將奧卡姆剃刀定律正式應用于統計學習理論和計算學習理論領域。雖然理論分析在理想化假設下可提供正式保證，但在實踐中卻很難應用。機器學習速成課程則側重于實證評估，以評判模型泛化到新數據的能力。一種方法是將您的數據集分成兩個子集：訓練集、測試集。一般來說，在測試集上表現是否良好是衡量能否在新數據上表現良好的有用指標，前提是： 1、測試集足夠大。 2、您不會反復使用相同的測試集來作假。 ## 訓練集和測試集練習：拆分訓練集和測試集，調整學習速率，調整批次大小 ## 驗證（Validation）多次重復執行訓練流程可能導致我們不知不覺地擬合我們的特定測試集的特性。當進行多輪超參數調整時，僅使用兩類數據可能不太夠。 ![](https://img.kancloud.cn/40/53/4053e37b013792711d2952580f3a4008_1110x576.jpg) 更好的方法，增加驗證集： ![](https://img.kancloud.cn/bb/59/bb5995586df9cc9d06fca08984ec9b14_1348x1174.jpg) 實際生產中，可能采用更多驗證集，更多測試集。課后練習：Validation.ipynb ## 表示 (Representation)：特征工程特征工程指的是將原始數據轉換為特征矢量。進行特征工程預計需要大量時間。許多機器學習模型都必須將特征表示為實數向量，因為特征值必須與模型權重相乘。 **字符型特征的處理：通過獨熱編碼進行映射。** ![](https://img.kancloud.cn/5e/74/5e74c5f15e1071001081e58011d2dca6_1376x1118.jpg) ![](https://img.kancloud.cn/92/e5/92e5d973a57de3bdda02f291c5ae343d_1384x594.jpg) **良好特征的特點：** * 避免很少使用的離散特征值。至少出現5次以上，比如ID就不適合做特征，學習不到任何規律。 * 具有清晰明細的含義。user\_age:27 is ok. user\_age:32234 and user\_age:277 is not ok. * 實際數據內不要摻入特殊值。比如一個特征具有0~1的浮點數。如果有默認值-1，則需要解決。 * 考慮上游的不穩定性。 **清理數據：** 作為一名機器學習工程師，您將花費大量的時間挑出壞樣本并加工可以挽救的樣本。比如：縮放特征值、處理極端集群值、分箱、清查。 ![](https://img.kancloud.cn/e0/1c/e01c9b36414ffde5d53a00ef12469401_1366x762.jpg) ![](https://img.kancloud.cn/a3/67/a3671c30a4aa1d62990221f951dbdc95_1272x1020.jpg) **處理極端集群值：** * 一種辦法是取對數 * 或者限制最大值，超過的都是最大值。分箱：比如經緯度這種數字和房價沒有線性關系，我們可以分箱稱若干個分類。百分比分箱和分位數分箱。分位數分箱無需擔心離群值。清查：遺漏值、重復樣本、不良標簽、不良特征值。 ![](https://img.kancloud.cn/15/2b/152ba22bd541a5138dbbb1442335d7f8_1256x426.jpg) ## 特征組合 (Feature Crosses) Synthetic feature or feature cross **對非線性規律進行編碼：** ![](https://img.kancloud.cn/e7/96/e7966dd7e2d09f97f788259c08d8c377_1712x470.jpg) **組合獨熱矢量：** ![](https://img.kancloud.cn/a9/2b/a92b1a62c86971ae2fa50119da6175fc_1308x322.jpg) ![](https://img.kancloud.cn/6e/1f/6e1f7e03545660d4ccce1e26926e8917_1314x320.jpg) ![](https://img.kancloud.cn/79/b6/79b66d983a62ce7f053c0e7b5a028c87_1248x282.jpg) ![](https://img.kancloud.cn/71/4c/714cfc40446c6ab417d721353947dc0f_1934x1214.jpg) ![](https://img.kancloud.cn/06/1b/061b3151b42ab998f84e451f49dac9a3_1650x1080.jpg) **一定要看這個代碼演示：feature\_crosses.ipynb** ## 正則化：簡單性(Regularization of simplicty) **組合過度：** ![](https://img.kancloud.cn/69/f5/69f5f3b74c599452ba51e6ce67fe1f10_1650x964.jpg) **L2正則化：** ![](https://img.kancloud.cn/ca/e9/cae95466cd385b61b5406799cdf4da26_1726x1046.jpg) **Lambda：** ![](https://img.kancloud.cn/24/e1/24e14c0a6bbe4978f790455e00def03a_1702x498.jpg) **我們可以了解到，訓練模型的目標有二：擬合度高，復雜度小。** ## 邏輯回歸(Logistic Regression) ![](https://img.kancloud.cn/e6/d8/e6d84e123e6262d2ad7f7c0dab4de0a8_1716x238.jpg) ![](https://img.kancloud.cn/f6/c5/f6c542d28fee16d51874fffff7679bf4_1694x906.jpg) **邏輯回歸的損失函數：對數損失：** ![](https://img.kancloud.cn/cf/7e/cf7ef0c048096f70b4997362d0c72e87_1680x586.jpg) **邏輯回歸中的正則化：** ![](https://img.kancloud.cn/b0/97/b097595626677db9045b50dff1490465_1702x596.jpg) **總結：** ![](https://img.kancloud.cn/f2/f3/f2f34ebcb4b90f2c30b745be71b04013_1688x302.jpg) ## 分類(Classfication) ![](https://img.kancloud.cn/d7/49/d749deecb3bf19cfd3951341c289d3c0_1368x1156.jpg) **準確率(Accuracy)：** ![](https://img.kancloud.cn/01/f0/01f0ffa64efd9c4a7843841d34fd25b5_1354x582.jpg) 當數據不平衡時呢，比如雖然準確率很高，但是9個惡性腫瘤只預測了一個。 ![](https://img.kancloud.cn/a0/04/a00483d68512516ac71969b20e1bc19b_1290x190.jpg) **精確率(Precision):** ![](https://img.kancloud.cn/0b/bb/0bbbbd1cc9075d890e371a165e9ae58c_1330x958.jpg) **召回率(Recall):** ![](https://img.kancloud.cn/ec/3d/ec3dad8c75f6f261ea6aa41cafd689a9_1320x1014.jpg) **Precision&Recall總結：** ![](https://img.kancloud.cn/36/0a/360ae43d6bb8d9391584f72212c1d79c_1338x126.jpg) **ROC 曲線（接收者操作特征曲線）是一種顯示分類模型在所有分類閾值下的效果的圖表。** ![](https://img.kancloud.cn/13/d1/13d17f70a9f4008eec74e763b24f1653_1310x626.jpg) **預測偏差：** ![](https://img.kancloud.cn/63/ee/63eedfa80ebdfc287a1fd55c2c38f977_1288x182.jpg) ## 正則化：稀疏性(Regularization of sparsity) 臨時跳過。。。 ## 神經網絡簡介（Neural network） ![](https://img.kancloud.cn/71/1d/711d2e412121d73efd8bab71105928a5_1328x954.jpg) **常見的激活函數：S型函數、ReLU（修正線性單元）函數。** ![](https://img.kancloud.cn/6b/d3/6bd3d183c2960adaf1d6275439b81033_1352x656.jpg) ## 訓練神經網絡(Training Neural Networks) back propagation：反向傳播。dropout：丟棄。 ![](https://img.kancloud.cn/a6/0a/a60a197d7321b9352932fbe97e1452ee_1336x388.jpg) 關于反向傳播，有以下重要的事情需要了解： ![](https://img.kancloud.cn/89/b7/89b736ad62906e3d8fd72c197da41ced_928x636.jpg) ![](https://img.kancloud.cn/8e/16/8e165ef4d07ca2b09226ecba76961351_928x530.jpg) ![](https://img.kancloud.cn/5e/1f/5e1ff461dc91e8b63cdc5a7a638f31fd_806x444.jpg) ## 多類別神經網絡臨時跳過。。。 ## 嵌套 (Embedding) 臨時跳過。。。