建模與估計 · UCB DS100 數據科學的原理與技巧

# 建模與估計 > 原文：[https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html](https://www.bookbookmark.ds100.org/ch/10/modeling_intro.html) ``` # HIDDEN # Clear previously defined variables %reset -f # Set directory for data loading to work properly import os os.chdir(os.path.expanduser('~/notebooks/10')) ``` > 基本上，所有模型都是錯誤的，但有些模型是有用的。 > > -[George Box，統計學家（1919-2013）](https://www.wikiwand.com/en/George_E._P._Box) 我們已經討論了問題制定、數據清理和探索性數據分析，這是數據科學生命周期的前三個步驟。我們還發現 EDA 經常揭示數據集中變量之間的關系。我們如何決定一段關系是真實的還是虛假的？我們如何利用這些關系對未來做出可靠的預測？為了回答這些問題，我們需要數學工具來建模和估計。模型是系統的理想化（htg1）表示。例如，如果我們從比薩斜塔上落下一個鋼球，一個簡單的重力模型表明我們希望鋼球落在地上，以 9.8 米/秒的速度加速。這個模型也可以讓我們用拋射運動定律預測球撞擊地面需要多長時間。這個重力模型描述了我們的系統的行為，但只是一個近似值，它忽略了空氣阻力、其他天體的重力效應和空氣浮力的影響。由于這些無意識的因素，我們的模型在現實生活中幾乎總是會做出錯誤的預測！盡管如此，簡單的重力模型在如此多的情況下仍然足夠精確，以至于今天它被廣泛使用和教授。類似地，我們使用數據定義的任何模型都是實際過程的近似值。當近似值不太嚴格時，我們的模型具有實際應用價值。這自然會引發一些基本問題。我們如何選擇模型？我們如何知道我們是否需要一個更復雜的模型？在本書的其余章節中，我們將開發計算工具來**設計模型并使其適合數據。我們還將介紹推理工具，使我們能夠解釋我們的模型將**歸納為感興趣的人群的能力。****