超參數優化 · python深度學習

* 應該堆疊多少層？ * 每層應該包含多少個單元或過濾器？ * 激活應該使用`relu`還是其他函數？ * 在某一層之后是否應該使用`BatchNormalization`？ * 應該使用多大的 dropout 比率？在架構層面的參數叫作**超參數**（hyperparameter），以便將其與模型參數區分開來，后者通過反向傳播進行訓練。 * [ ] 選擇一組超參數（自動選擇）。 * [ ] 構建相應的模型。 * [ ] 將模型在訓練數據上擬合，并衡量其在驗證數據上的最終性能。 * [ ] 選擇要嘗試的下一組超參數（自動選擇）。 * [ ] 重復上述過程。 * [ ] 衡量模型在測試數據上的性能。 > 貝葉斯優化、遺傳算法、簡單隨機搜索 > 更新超參數則非常具有挑戰性。我們來考慮以下兩點： * 計算反饋信號（這組超參數在這個任務上是否得到了一個高性能的模型）的**計算代價**可能非常高，它需要在數據集上創建一個新模型并從頭開始訓練。 * 超參數空間通常由許多**離散**的決定組成，因而既不是連續的，也不是可微的。因此，你通常不能在超參數空間中做梯度下降。相反，你必須依賴不使用梯度的優化方法，而這些方法的效率比梯度下降要低很多。 **隨機搜索**（隨機選擇需要評估的超參數，并重復這一過程）就是最好的解決方案，雖然這也是最簡單的解決方案 **Hyperopt** 比隨機搜索更好，是一個用于超參數優化的 Python 庫，其內部使用 Parzen 估計器的樹來預測哪組超參數可能會得到好的結果 ***** **注意**： **在進行大規模超參數自動優化時**，有一個重要的問題需要牢記，那就是**驗證集過擬合**。因為你是使用驗證數據計算出一個信號，然后根據這個信號更新超參數，所以你實際上是在**驗證數據上訓練超參數**，很快會**對驗證數據過擬合**。請始終記住這一點。