概率與泛化 · UCB DS100 數據科學的原理與技巧

# 概率與泛化 > 原文：[https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html](https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html) ``` # HIDDEN # Clear previously defined variables %reset -f # Set directory for data loading to work properly import os os.chdir(os.path.expanduser('~/notebooks/12')) ``` 我們介紹了一系列使用數據集創建模型的步驟： 1. 選擇一個模型。 2. 選擇損失函數。 3. 通過最小化數據集上的損失來適應模型。到目前為止，我們引入了常數模型（1）、一組損失函數（2）和梯度下降作為最小化損失（3）的一般方法。遵循這些步驟通常會生成一個模型，對它所訓練的數據集進行精確預測。不幸的是，一個只在訓練數據上表現良好的模型幾乎沒有實際的實用性。我們關心模型對**歸納**的能力。我們的模型應該對人口做出準確的預測，而不僅僅是訓練數據。這個問題似乎很難回答我們如何解釋尚未看到的數據？這里我們來看看統計的推論能力。我們首先介紹一些數學工具：隨機變量、期望和方差。使用這些工具，我們可以根據我們的人口數據，甚至是我們沒有用來訓練模型的數據，得出關于模型長期性能的結論！