# 概率與泛化
> 原文:[https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html](https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/12'))
```
我們介紹了一系列使用數據集創建模型的步驟:
1. 選擇一個模型。
2. 選擇損失函數。
3. 通過最小化數據集上的損失來適應模型。
到目前為止,我們引入了常數模型(1)、一組損失函數(2)和梯度下降作為最小化損失(3)的一般方法。遵循這些步驟通常會生成一個模型,對它所訓練的數據集進行精確預測。
不幸的是,一個只在訓練數據上表現良好的模型幾乎沒有實際的實用性。我們關心模型對**歸納**的能力。我們的模型應該對人口做出準確的預測,而不僅僅是訓練數據。這個問題似乎很難回答我們如何解釋尚未看到的數據?
這里我們來看看統計的推論能力。我們首先介紹一些數學工具:隨機變量、期望和方差。使用這些工具,我們可以根據我們的人口數據,甚至是我們沒有用來訓練模型的數據,得出關于模型長期性能的結論!
- 一、數據科學的生命周期
- 二、數據生成
- 三、處理表格數據
- 四、數據清理
- 五、探索性數據分析
- 六、數據可視化
- Web 技術
- 超文本傳輸協議
- 處理文本
- python 字符串方法
- 正則表達式
- regex 和 python
- 關系數據庫和 SQL
- 關系模型
- SQL
- SQL 連接
- 建模與估計
- 模型
- 損失函數
- 絕對損失和 Huber 損失
- 梯度下降與數值優化
- 使用程序最小化損失
- 梯度下降
- 凸性
- 隨機梯度下降法
- 概率與泛化
- 隨機變量
- 期望和方差
- 風險
- 線性模型
- 預測小費金額
- 用梯度下降擬合線性模型
- 多元線性回歸
- 最小二乘-幾何透視
- 線性回歸案例研究
- 特征工程
- 沃爾瑪數據集
- 預測冰淇淋評級
- 偏方差權衡
- 風險和損失最小化
- 模型偏差和方差
- 交叉驗證
- 正規化
- 正則化直覺
- L2 正則化:嶺回歸
- L1 正則化:LASSO 回歸
- 分類
- 概率回歸
- Logistic 模型
- Logistic 模型的損失函數
- 使用邏輯回歸
- 經驗概率分布的近似
- 擬合 Logistic 模型
- 評估 Logistic 模型
- 多類分類
- 統計推斷
- 假設檢驗和置信區間
- 置換檢驗
- 線性回歸的自舉(真系數的推斷)
- 學生化自舉
- P-HACKING
- 向量空間回顧
- 參考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn