# 風險
> 原文:[https://www.textbook.ds100.org/ch/12/prob_risk.html](https://www.textbook.ds100.org/ch/12/prob_risk.html)
```
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/12'))
```
在上一章介紹的建模場景中,服務生收集了特定月份工作的提示數據集。我們選擇了一個常數模型,并最小化了該數據集上的均方誤差(mse)損失函數,確保我們的常數模型在該數據集和損失函數上優于所有其他常數模型。常量模型只有一個參數,$\theta$。我們發現優化參數$\hat \theta=\text mean(\textbf y)$用于 MSE 損失。
雖然這樣的模型對訓練數據做出了相對準確的預測,但我們想知道這個模型在來自人群的新數據上是否會表現良好。為了表示這個概念,我們引入了統計**風險**,也稱為**預期損失**。
### 定義[?](#Definition)
模型的風險是從人群中隨機選擇的點上模型損失的預期值。
在這種情況下,總人數包括我們的服務員在工作期間收到的所有小費百分比,包括未來的小費。我們使用隨機變量$x$表示從總體中隨機選擇的提示百分比,而通常變量$theta$表示常量模型的預測。使用這個符號,我們模型的風險$r(\theta)$是:
$$ \begin{aligned} R(\theta) = \mathbb{E}\left[(X - \theta)^2\right] \end{aligned} $$
在上面的表達式中,我們使用 MSE 損失,它給出期望值中的內部$(x-\theta)^2$。風險是$\theta$的函數,因為我們可以根據需要更改$\theta$。
與單純的損失不同,使用風險可以讓我們推斷模型對總體人口的準確性。如果我們的模型達到一個低風險,我們的模型將作出準確的預測點從人口長期。另一方面,如果我們的模型具有很高的風險,那么一般來說,它在來自人群的數據上表現不佳。
當然,我們希望選擇能使模型的風險盡可能低的$theta$值。我們使用變量$\theta^*$來表示風險最小化值$\theta$或人口的最佳模型參數。為了澄清,$\theta^*$表示風險最小化的模型參數,而$\hat \theta$表示數據集特定損失最小化的參數。
### 最小化風險
讓我們找一個能將風險降到最低的價值為\theta$以前,我們用微積分來實現這個最小化。這一次,我們將使用一個產生有意義的最終表達式的數學技巧。我們將$x-\theta$替換為$x-\mathbb e[x]+\mathbb e[x]-\theta$并展開:
$$ \begin{aligned} R(\theta) &= \mathbb{E}[(X - \theta)^2] \\ &= \mathbb{E}\left[ (X - \mathbb{E}[X] + \mathbb{E}[X] - \theta)^2 \right] \\ &= \mathbb{E}\left[ \bigl( (X - \mathbb{E}[X]) + (\mathbb{E}[X] - \theta) \bigr)^2 \right] \\ &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 + 2(X - \mathbb{E}[X])(\mathbb{E}[X] - \theta) + (\mathbb{E}[X]- \theta)^2 \right] \\ \end{aligned} $$
現在,我們應用期望的線性并簡化。我們使用標識$\mathbb e \ left[(x-\mathbb e[x])\right]=0$這大致相當于說明$\mathbb e[x]位于$x$的分布中心。
$$ \begin{aligned} R(\theta) &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 \right] + \mathbb{E}\left[ 2(X - \mathbb{E}[X])(\mathbb{E}[X] - \theta) \right] + \mathbb{E}\left[ (\mathbb{E}[X]- \theta)^2 \right] \\ &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 \right] + 2 (\mathbb{E}[X] - \theta) \underbrace{ \mathbb{E}\left[ (X - \mathbb{E}[X]) \right]}_{= 0} + (\mathbb{E}[X]- \theta)^2 \\ &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 \right] + 0 + (\mathbb{E}[X]- \theta)^2 \\ R(\theta) &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 \right] + (\mathbb{E}[X]- \theta)^2 \\ \end{aligned} $$
注意,上面表達式中的第一個術語是$x$,$var(x)$的**方差**,它不依賴于$\theta$。第二個術語給出了$\theta$與$\mathbb e[x]$的接近程度。因此,第二個術語被稱為我們模型的**偏差**。換句話說,模型的風險是模型的偏差加上我們試圖預測的數量的方差:
$$ \begin{aligned} R(\theta) &= \underbrace{(\mathbb{E}[X]- \theta)^2}_\text{bias} + \underbrace{Var(X)}_\text{variance} \end{aligned} $$
因此,當我們的模型沒有偏差時,風險最小化:$\theta^*=\mathbb e[x]$。
#### 風險分析
注意,當我們的模型沒有偏差時,風險通常是正的。這意味著即使是一個最優模型也會有預測誤差。直觀地說,這是因為一個常量模型只能預測一個數字,而$x$可能會從總體中獲取任何值。方差項捕獲誤差的大小。低方差意味著$x$可能取接近于$theta$的值,而高方差意味著$x$更可能取遠離$theta$的值。
### 經驗風險最小化
根據以上分析,我們希望設置$\theta=\mathbb e[x]$。不幸的是,計算$\mathbb e[x]$需要完整的人口知識。要了解原因,請檢查$\mathbb e[x]$的表達式:
$$ \begin{aligned} \mathbb{E}[X] = \sum_{x \in \mathbb{X}} x \cdot P(X = x) \end{aligned} $$
$P(x=x)$表示$X$從總體上接受特定值的概率。然而,要計算這個概率,我們需要知道 x$的所有可能值以及它們在人群中出現的頻率。換句話說,為了將模型對人口的風險降到最低,我們需要訪問人口。
我們可以通過記住一個大的隨機樣本中的值的分布將接近人口中的值的分布來解決這個問題。如果我們的樣本是真的,我們可以將樣本視為種群本身。
假設我們從樣本中隨機抽取點,而不是人口。由于樣本$\mathbf x=x 1,x 2,ldots,x n$中有$N$總點數,因此每個點$X i$都有出現的概率$\frac 1 n。現在我們可以為$\mathbb e[x]$創建近似值:
$$ \begin{aligned} \mathbb{E}[X] &\approx \frac{1}{n} \sum_{i=1}^n x_i = \text{mean}({\mathbf{x}}) \end{aligned} $$
因此,使用隨機樣本中捕獲的信息,我們對$\theta^*$的最佳估計是$\hat \theta=\text mean(\mathbf x)$。我們說,$\hat \theta$minimized the**experimental risk**,the risk calculated using the sample as a stand in for the population.
#### 隨機抽樣的重要性
在上述近似中,必須注意隨機抽樣的重要性。如果我們的樣本是非隨機的,我們不能假設樣本的分布與人群的分布相似。使用非隨機樣本估計$\theta^*$通常會導致有偏估計和更高的風險。
#### 損失最小化連接
回想一下,我們之前顯示的$\Hat \Theta=\Text Mean(\MathBF X)$將數據集上的 MSE 損失最小化。現在,我們邁出了有意義的一步。如果我們的培訓數據是隨機樣本,那么$\hat \theta=\text mean(\mathbf x)$不僅為其培訓數據生成最佳模型,而且根據我們樣本中的信息為總體生成最佳模型。
## 摘要[?](#Summary)
使用本章中開發的數學工具,我們了解了模型在總體上的性能。如果模型將統計風險(htg1)降到最低,它就可以做出準確的預測。我們發現全局最優模型參數為:
$$ \begin{aligned} \theta^* = \mathbb{E}[X] \end{aligned} $$
由于我們不能很容易地計算出這一點,因此我們找到了最小化**經驗風險**的模型參數。
$$ \begin{aligned} \hat \theta = \text{mean}(\mathbf x) \end{aligned} $$
如果訓練數據是從人群中隨機抽樣的,那么$\hat \theta \約\theta ^*$。因此,一個對大量隨機樣本進行訓練的常量模型也很可能在人群中表現良好。
- 一、數據科學的生命周期
- 二、數據生成
- 三、處理表格數據
- 四、數據清理
- 五、探索性數據分析
- 六、數據可視化
- Web 技術
- 超文本傳輸協議
- 處理文本
- python 字符串方法
- 正則表達式
- regex 和 python
- 關系數據庫和 SQL
- 關系模型
- SQL
- SQL 連接
- 建模與估計
- 模型
- 損失函數
- 絕對損失和 Huber 損失
- 梯度下降與數值優化
- 使用程序最小化損失
- 梯度下降
- 凸性
- 隨機梯度下降法
- 概率與泛化
- 隨機變量
- 期望和方差
- 風險
- 線性模型
- 預測小費金額
- 用梯度下降擬合線性模型
- 多元線性回歸
- 最小二乘-幾何透視
- 線性回歸案例研究
- 特征工程
- 沃爾瑪數據集
- 預測冰淇淋評級
- 偏方差權衡
- 風險和損失最小化
- 模型偏差和方差
- 交叉驗證
- 正規化
- 正則化直覺
- L2 正則化:嶺回歸
- L1 正則化:LASSO 回歸
- 分類
- 概率回歸
- Logistic 模型
- Logistic 模型的損失函數
- 使用邏輯回歸
- 經驗概率分布的近似
- 擬合 Logistic 模型
- 評估 Logistic 模型
- 多類分類
- 統計推斷
- 假設檢驗和置信區間
- 置換檢驗
- 線性回歸的自舉(真系數的推斷)
- 學生化自舉
- P-HACKING
- 向量空間回顧
- 參考表
- Pandas
- Seaborn
- Matplotlib
- Scikit Learn