如何準備輸入數據和目標？ · python深度學習

# **數據領域通用的基本方法** ### **神經網絡的數據預處理**：使原始數據更適于用神經網絡處理 * **向量化：** **所有**輸入和目標都必須是**浮點數張量** **無論**處理什么數據（聲音、圖像還是文本）都必須首先將其轉換為**張量** =》數據向量化（data vectorization） * **值標準化：** 對每個特征分別做標準化，使其均值為 0、標準差為 1 輸入數據應該具有以下特征： * **取值較小**：大部分值都應該在 0~1 范圍內。 * **同質性**（homogenous）：所有特征的取值都應該在大致相同的范圍內。 =》更嚴格的方法： * 將每個特征分別標準化，使其平均值為 0。 * 將每個特征分別標準化，使其標準差為 1。 ``` x -= x.mean(axis=0) x /= x.std(axis=0) ``` * **處理缺失值：** 訓練數據或測試數據將會有缺失值 * 一般來說，對于神經網絡，將缺失值設置為 0 是安全的，只要 0 不是一個有意義的值。網絡能夠從數據中學到 0 意味著**缺失數據**，并且會忽略這個值。 * 如果測試數據中可能有缺失值，而網絡是在**沒有缺失值的數據上訓練**的： **網絡不可能學會忽略缺失值** =》解決方法：**人為生成**有**缺失**項的訓練樣本，多次**復制**訓練樣本，**刪除**測試數據中可能缺失的某些**特征** * **特征提取：** * 將數據輸入模型之前，利用你自己關于數據和機器學習算法（這里指神經網絡）的**知識**對數據進行**硬編碼的變換**（不是模型學到的），以改善模型的效果。 * 用更簡單的方式表述問題，從而使問題變得更容易 =》 * 良好的特征仍然可以讓你用更少的資源更優雅地解決問題 * 良好的特征可以讓你用更少的數據解決問題