# **數據領域通用的基本方法**
### **神經網絡的數據預處理**:使原始數據更適于用神經網絡處理
* **向量化:**
**所有**輸入和目標都必須是**浮點數張量**
**無論**處理什么數據(聲音、圖像還是文本)都必須首先將其轉換為**張量**
=》數據向量化(data vectorization)
* **值標準化:**
對每個特征分別做標準化,使其均值為 0、標準差為 1
輸入數據應該具有以下特征:
* **取值較小**:大部分值都應該在 0~1 范圍內。
* **同質性**(homogenous):所有特征的取值都應該在大致相同的范圍內。
=》更嚴格的方法:
* 將每個特征分別標準化,使其平均值為 0。
* 將每個特征分別標準化,使其標準差為 1。
```
x -= x.mean(axis=0)
x /= x.std(axis=0)
```
* **處理缺失值:**
訓練數據或測試數據將會有缺失值
* 一般來說,對于神經網絡,將缺失值設置為 0 是安全的,只要 0 不是一個有意義的值。網絡能夠從數據中學到 0 意味著**缺失數據**,并且會忽略這個值。
* 如果測試數據中可能有缺失值,而網絡是在**沒有缺失值的數據上訓練**的:
**網絡不可能學會忽略缺失值**
=》解決方法:**人為生成**有**缺失**項的訓練樣本,多次**復制**訓練樣本,**刪除**測試數據中可能缺失的某些**特征**
* **特征提取:**
* 將數據輸入模型之前,利用你自己關于數據和機器學習算法(這里指神經網絡)的**知識**對數據進行**硬編碼的變換**(不是模型學到的),以改善模型的效果。
* 用更簡單的方式表述問題,從而使問題變得更容易
=》
* 良好的特征仍然可以讓你用更少的資源更優雅地解決問題
* 良好的特征可以讓你用更少的數據解決問題
- 基礎
- 張量tensor
- 整數序列(列表)=>張量
- 張量運算
- 張量運算的幾何解釋
- 層:深度學習的基礎組件
- 模型:層構成的網絡
- 訓練循環 (training loop)
- 數據類型與層類型、keras
- Keras
- Keras 開發
- Keras使用本地數據
- fit、predict、evaluate
- K 折 交叉驗證
- 二分類問題-基于梯度的優化-訓練
- relu運算
- Dens
- 損失函數與優化器:配置學習過程的關鍵
- 損失-二分類問題
- 優化器
- 過擬合 (overfit)
- 改進
- 小結
- 多分類問題
- 回歸問題
- 章節小結
- 機械學習
- 訓練集、驗證集和測試集
- 三種經典的評估方法
- 模型評估
- 如何準備輸入數據和目標?
- 過擬合與欠擬合
- 減小網絡大小
- 添加權重正則化
- 添加 dropout 正則化
- 通用工作流程
- 計算機視覺
- 卷積神經網絡
- 卷積運算
- 卷積的工作原理
- 訓練一個卷積神經網絡
- 使用預訓練的卷積神經網絡
- VGG16
- VGG16詳細結構
- 為什么不微調整個卷積基?
- 卷積神經網絡的可視化
- 中間輸出(中間激活)
- 過濾器
- 熱力圖
- 文本和序列
- 處理文本數據
- n-gram
- one-hot 編碼 (one-hot encoding)
- 標記嵌入 (token embedding)
- 利用 Embedding 層學習詞嵌入
- 使用預訓練的詞嵌入
- 循環神經網絡
- 循環神經網絡的高級用法
- 溫度預測問題
- code
- 用卷積神經網絡處理序列
- GRU 層
- LSTM層
- 多輸入模型
- 回調函數
- ModelCheckpoint 與 EarlyStopping
- ReduceLROnPlateau
- 自定義回調函數
- TensorBoard_TensorFlow 的可視化框架
- 高級架構模式
- 殘差連接
- 批標準化
- 批再標準化
- 深度可分離卷積
- 超參數優化
- 模型集成
- LSTM
- DeepDream
- 神經風格遷移
- 變分自編碼器
- 生成式對抗網絡
- 術語表