# 建模與估計
> 原文:[https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html](https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/10'))
```
> 基本上,所有模型都是錯誤的,但有些模型是有用的。
>
> -[George Box,統計學家(1919-2013)](https://www.wikiwand.com/en/George_E._P._Box)
我們已經討論了問題制定、數據清理和探索性數據分析,這是數據科學生命周期的前三個步驟。我們還發現 EDA 經常揭示數據集中變量之間的關系。我們如何決定一段關系是真實的還是虛假的?我們如何利用這些關系對未來做出可靠的預測?為了回答這些問題,我們需要數學工具來建模和估計。
模型是系統的理想化(htg1)表示。例如,如果我們從比薩斜塔上落下一個鋼球,一個簡單的重力模型表明我們希望鋼球落在地上,以 9.8 米/秒的速度加速。這個模型也可以讓我們用拋射運動定律預測球撞擊地面需要多長時間。
這個重力模型描述了我們的系統的行為,但只是一個近似值,它忽略了空氣阻力、其他天體的重力效應和空氣浮力的影響。由于這些無意識的因素,我們的模型在現實生活中幾乎總是會做出錯誤的預測!盡管如此,簡單的重力模型在如此多的情況下仍然足夠精確,以至于今天它被廣泛使用和教授。
類似地,我們使用數據定義的任何模型都是實際過程的近似值。當近似值不太嚴格時,我們的模型具有實際應用價值。這自然會引發一些基本問題。我們如何選擇模型?我們如何知道我們是否需要一個更復雜的模型?
在本書的其余章節中,我們將開發計算工具來**設計模型并使其適合數據。我們還將介紹推理工具,使我們能夠解釋我們的模型將**歸納為感興趣的人群的能力。****
- 一、數據科學的生命周期
- 二、數據生成
- 三、處理表格數據
- 四、數據清理
- 五、探索性數據分析
- 六、數據可視化
- Web 技術
- 超文本傳輸協議
- 處理文本
- python 字符串方法
- 正則表達式
- regex 和 python
- 關系數據庫和 SQL
- 關系模型
- SQL
- SQL 連接
- 建模與估計
- 模型
- 損失函數
- 絕對損失和 Huber 損失
- 梯度下降與數值優化
- 使用程序最小化損失
- 梯度下降
- 凸性
- 隨機梯度下降法
- 概率與泛化
- 隨機變量
- 期望和方差
- 風險
- 線性模型
- 預測小費金額
- 用梯度下降擬合線性模型
- 多元線性回歸
- 最小二乘-幾何透視
- 線性回歸案例研究
- 特征工程
- 沃爾瑪數據集
- 預測冰淇淋評級
- 偏方差權衡
- 風險和損失最小化
- 模型偏差和方差
- 交叉驗證
- 正規化
- 正則化直覺
- L2 正則化:嶺回歸
- L1 正則化:LASSO 回歸
- 分類
- 概率回歸
- Logistic 模型
- Logistic 模型的損失函數
- 使用邏輯回歸
- 經驗概率分布的近似
- 擬合 Logistic 模型
- 評估 Logistic 模型
- 多類分類
- 統計推斷
- 假設檢驗和置信區間
- 置換檢驗
- 線性回歸的自舉(真系數的推斷)
- 學生化自舉
- P-HACKING
- 向量空間回顧
- 參考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn