訓練集、驗證集和測試集 · python深度學習

在**訓練數據**上**訓練模型** => 在**驗證數據**上**評估模型**，一旦找到了最佳參數=>就在**測試數據**上最后**測試**一次。 ***** #### **為什么不是兩個集合：一個訓練集和一個測試集？**~~在訓練集上訓練模型，然后在測試集上評估模型~~ 因為在于開發模型時**總是需要調節**模型配置：選擇層數或每層大小（模型的超參數（hyperparameter），以便與模型參數（即權重）區分開），這個調節過程需要使用模型在驗證數據上的**性能**作為**反饋信號**。這個調節過程本質上就是一種**學習**：在某個參數空間中尋找良好的模型配置。 =》基于模型在**驗證集**上的**性能**來**調節**模型配置，會很快導致模型**在驗證集上過擬合**，即使你并沒有在驗證集上直接訓練模型也會如此。 **信息泄露**（information leak）：每次基于模型在驗證集上的性能來調節模型超參數，都會有一些**關于驗證數據的信息**泄露到模型中。最后，你得到的模型在驗證集上的性能非常好（**人為造成的**）