# 關系數據庫和 SQL
> 原文:[Relational Databases and SQL](https://www.textbook.ds100.org/ch/09/sql_intro.html)
>
> 校驗:[Kitty Du](https://github.com/miaoxiaozui2017)
```python
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/09'))
```
到目前為止,我們已經處理了作為文本文件存儲在計算機上的數據集。雖然使用文本文件存儲數據對于分析小數據集很有用,但對許多實際用例來說卻是一個挑戰。
許多數據集是由多個人收集的,例如,一個數據科學家團隊。但是,如果數據存儲在文本文件中,那么團隊可能需要在每次更新數據時發送和下載新版本的文件。文本文件本身并不能為多個分析員提供一致的數據檢索點。這個問題,以及其他問題,使得文本文件難以用于更大的數據集或團隊。
我們經常使用關系數據庫管理系統(RDBMS)來存儲數據,如 MySQL 或 PostgreSQL。為了使用這些系統,我們使用一種稱為 SQL 的查詢語言,而不是 Python。在本章中,我們將討論關系數據庫模型并介紹 SQL。
- 一、數據科學的生命周期
- 二、數據生成
- 三、處理表格數據
- 四、數據清理
- 五、探索性數據分析
- 六、數據可視化
- Web 技術
- 超文本傳輸協議
- 處理文本
- python 字符串方法
- 正則表達式
- regex 和 python
- 關系數據庫和 SQL
- 關系模型
- SQL
- SQL 連接
- 建模與估計
- 模型
- 損失函數
- 絕對損失和 Huber 損失
- 梯度下降與數值優化
- 使用程序最小化損失
- 梯度下降
- 凸性
- 隨機梯度下降法
- 概率與泛化
- 隨機變量
- 期望和方差
- 風險
- 線性模型
- 預測小費金額
- 用梯度下降擬合線性模型
- 多元線性回歸
- 最小二乘-幾何透視
- 線性回歸案例研究
- 特征工程
- 沃爾瑪數據集
- 預測冰淇淋評級
- 偏方差權衡
- 風險和損失最小化
- 模型偏差和方差
- 交叉驗證
- 正規化
- 正則化直覺
- L2 正則化:嶺回歸
- L1 正則化:LASSO 回歸
- 分類
- 概率回歸
- Logistic 模型
- Logistic 模型的損失函數
- 使用邏輯回歸
- 經驗概率分布的近似
- 擬合 Logistic 模型
- 評估 Logistic 模型
- 多類分類
- 統計推斷
- 假設檢驗和置信區間
- 置換檢驗
- 線性回歸的自舉(真系數的推斷)
- 學生化自舉
- P-HACKING
- 向量空間回顧
- 參考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn