? 統計推斷的基本問題有二:估計問題,和假設檢驗問題.
? 本章討論總體參數的點估計和區間估計.理解這兩種估計的思想,掌握求參數估計量的方法和評判估計量好壞的標準.
### 點估計
### 問題的提出
設燈泡壽命T~N(μ,σ2),但參數μ和σ2未知. 現在要求通過對總體抽樣得到的樣本,構造兩樣本函數分別μ和σ2作出估計,稱為估計量, 記為μ′和σ2′,代入觀察值x=(x1,…,xn),得相應估計值.在不致混淆時統稱為**估計**.
借助于總體的一個樣本,構造適當的樣本函數來估計總體S未知參數的值的問題稱為參數的點估計問題.
? 兩種常用的構造估計量的方法: 矩估計法和極大似然估計法.
### 矩估計
#### 思想與方法
設總體k階矩存在,
對于連續型總體X,它的m階原點矩為
μk:=E(Xk)=∫+∞?∞xkdF(x,θ)
若X為離散型的,則
μk:=E(Xk)=∑i=1nxkF(x,θ)
這里θ為未知參數向量. 可見μk是θ的函數,改記為μk(θ) .
設測得10個燈泡壽命(失效時間)分別為
166,185,232,242,264,268,270,275,285,312
(小時).
那么自然想到平均壽命為
(166+185+...+312)/10=249.9(小時)
即用樣本均值的觀測值xˉ來估計總體的平均壽命(期望壽命) μ
即
μ^=Xˉˉˉ=1n(X1+X2+?+Xn)
對μk(θ),k階樣本原點矩為
μk^(θ)=Mk=1n(Xk1+Xk2+?+Xkn)
這就是矩估計的思想:
用樣本的k階矩作為總體k階矩的估計量.如果未知參數有m個,則可建立m個方程
μ^k(θ1,…,θm)=Mk,k=1,…,m
(如總體μm存在). 從中解出θj=θj(X1,X2,…,Xn), 改記為θ^,并作為θj的估計量. 稱這種估計量為**矩估計量**, 相應觀察值稱為**矩估計值**.
由上一篇文章講得經驗df函數性質可以知道
樣本矩幾乎處處收斂于總體矩,

? 樣本矩的連續函數也幾乎處處收斂于總體矩的相應的連續函數,它保證:幾乎每次從容量足夠大的樣本觀測值,都可得到相應總體參數的近似值.
#### 例題1
設總體X的二階矩存在,求總體X的期望和方差的矩估計量.
解:
m=2,可得

(將μ^和σ^2當做未知量,將Xi當做已知量,解方程組)
解得

結論:不論總體有什麼樣的分布,只要它的*期望*和*方差*存在,則它們的矩估計量都分別是其樣本均值和樣本的二階中心矩.
為突出是矩估計量,也常加下標M,例如μ^M
#### 例題2
設總體X~U(0,θ), θ未知,(X1,…,Xn)是一個樣本, 試求θ的矩估計量.
解:
直接由上例結果,令解得θ的矩估計量
θ^M=2Xˉˉˉ
#### 例題3
設總體 ,即 具有概率密度

這里a,b為未知參數,(X1,X2,…,Xn)為抽自X的簡單隨機樣本
由于E(X)=a+b2,?D(X)=(b?a)212
令

由此可解得a和b的矩估計為
a^=Xˉˉˉ?3√Snb^=Xˉˉˉ+3√Sn
其中S2n=1n∑ni=1(Xi?Xˉˉˉ)2
### 極大似然估計法
#### 思想和方法
假設在一個罐中放著許多黑球和白球,并假定已知它們的數目之比為 ,但不知哪種顏色的球多。如果我們有放回地從罐中抽取 個球,則其中的黑球數 服從二項分布:
P(X=k)=Ck3pkq3?k,k=0,1,2,3
其中p=罐中黑球數目罐中全部球的數目,q=1?p,由假設知道p可能取值為14或34.
現在根據樣本中的黑球數,來估計未知參數 ,也就是說在14和34之間作一選擇。對抽樣的四種可能結果計算出相應的概率:

從表1中可見,如果樣本中的黑球數為0,那么具有X=0的樣本來自p=14的總體的可能性比來自p=34的總體的可能性大,這時應當估計p為14而不是 34。如果樣本中黑球數為2,那么具有X=2的樣本來自p=34的總體的可能性比來自p=14的總體的可能性大,這時應當估計p為34而不是14。從而可以選擇估計量:

也就是說根據樣本的具體情況來選擇估計量 p^,使得出現該樣本的可能性最大。
一般地,若總體X具有概率密度p(x,θ1,θ2,…,θk),其中θ1,θ2,…,θk為未知參數,又設(x1,x2,…,xn)是樣本的一組觀察值,那么樣本(X1,X2,…,Xn)落在點(x1,x2,…,xn)的鄰域內的概率為∏ni=1p(xi;θ1,θ2,…,θk)dxi,它是θ1,θ2,…,θk的函數。
最大似然估計的直觀想法是:既然在一次試驗中得到了觀察值(x1,x2,…,xn),那么我們認為樣本落入該觀察值(x1,x2,…,xn) 的鄰域內這一事件應具有最大的可能性,所以應選取使這一概率達到最大的參數值作為參數真值的估計。記
離散型時θ應使
L(x,θ):=L(x1,…,xn;θ)=∏i=1np(xi;θ)
最大;
連續型時θ應使
f(x1,…,xn;θ)dx1…dxn=∏i=1nf(xi;θ)dxi
也即, 使L(x,θ)=∏ni=1f(xi;θ)最大.
稱L(x,θ)為樣本的似然函數.

這樣得到的估計值, 稱為參數θ的極大似然估計值, 而相應的統計量稱為參數θ的極大似然估計量.
求θ的最大似然估計就是求似然函數L(x;θ)的最大值點的問題。
如L(x;θ)關于θ可微, 這時也可以從方程

解出. (1.12)和(1.13)都稱為**似然方程**.
由于在許多情況下,求lnL(x;θ)的最大值點比較簡單,而且lnx是x的嚴格增函數,因此在lnL(x;θ)對θi(i=1,2,…,k)的偏導數存在的情況下, 可由(1.13)式求得.
解這一方程組,若lnL(x;θ)的駐點唯一,又能驗證它是一個極大值點,則它必是lnL(x;θ)的最大值點,即為所求的最大似然估計。但若駐點不唯一,則需進一步判斷哪一個為最大值點。還需指出的是,若 lnL(x;θ)對 θi(i=1,2,…,k)的偏導數不存在,則我們無法得到方程組(1.13),這時必須根據最大似然估計的定義直接求L(x,θ)的最大值點。
有時我們需要估計g(θ1,θ2,…,θk),如果θ^1,θ^2,…,θ^k分別是θ1,θ2,…,θk 的最大似然估計,且g(θ1,θ2,…,θk)為連續函數,則g(θ^1,θ^2,…,θ^k) 是g(θ1,θ2,…,θk) 的最大似然估計。
#### 例題1
設X~N(μ,σ2), x1,…,xn 為一個樣本值求未知參數μ和σ2的極大似然估計量.
解:
似然函數為

它的對數為

解對數似然方程組(見1.13):

可得

由于對數似然方程組有唯一解,且它一定是最大值點,于是 μ和σ2的最大似然估計為

#### 例題2
求事件發生的概率 的最大似然估計。
解:
若事件A發生的概率P(A)=p,定義隨機變量

則X~B(1,p),其概率分布為
P(X=xi)=pxi(1?p)1?xi,xi=0,1
設(X1,X2,…,Xn)為抽自X的樣本,則似然函數為

由對數似然方程

解得

注意到∑ni=1xi≤n,容易驗證d2lnLdp2在xˉ處取得負值,于是xˉ是lnL的最大值點,因而p的最大似然估計為p^=Xˉˉˉ
于是我們有結論:頻率是概率的最大似然估計。
#### 例題3
設總體 X~U[a,b],(X1,X2,…,Xn) 為抽自X的樣本,求未知參數a,b的最大似然估計。
解:
由于X的密度函數為

因此似然函數為

顯然,作為a,b的二元函數,L是不連續的。這時我們不能用方程組(1.13)來求最大似然估計,而必須從最大似然估計的定義出發來求L的最大值點。
為使L達到最大,b-a應盡量地小,但b又不能小于max{x1,x2,…,x3},否則L(x1,x2,…,x3;a,b)=0 ;類似地,a 又不能大于min{x1,x2,…,x3}。因此a,b的最大似然估計為

## 估計的優良性準則
同一個未知參數,可以有幾種不同的估計,這時就存在采用哪一種估計的問題。另一方面,對同一個參數,用矩估計法和最大似然估計法,即使得到同一個估計,也存在衡量該估計量優劣的問題。設θ為未知參數, θ^是θ的估計,直觀上講,θ^與θ越接近越好,為了度量θ^與θ的接近程度,我們可以采用|θ^?θ|作為衡量的標準,但由于θ^(X1,X2,…,Xn)依賴于樣本,它本身是隨機變量,而θ又是未知的,因此很難采用。下面我們從不同的角度,提出幾種衡量估計優劣的標準。
### 一致性
#### **定義1:**
設θ^(X1,X2,…,Xn)是總體X分布的未知參數θ的估計量,若θ^依概率收斂于θ,即對任意的ε>0,
limn→∞P(|θ^?θ|<ε)=1
則稱θ^是θ的一致估計。
滿足一致性的估計量 θ^,當樣本容量n 不斷增大時, θ^觀察值能越來越接近參數真值 。這很容易理解,當樣本容量n越大時,信息越多,當然估計就越準確。
由大數定律知,樣本均值Xˉˉˉ是總體均值 μ(即 E(X))的一致估計。還有,樣本修正方差S2是總體方差σ2(即D(X))的一致估計。
#### 例題1
若總體X服從正態分布N(μ,σ2), (X1,X2,…,Xn)是來自總體 X的容量為n的樣本,EXi=μ ,DXi=σ2 ,i=1,2,…,n ,則由大數定律知,Xˉˉˉ依概率收斂于μ,即
limn→∞P(|Xˉˉˉ?μ|<ε)=1
也即未知參數μ的最大似然估計或矩估計μ^=Xˉˉˉ是μ的一致估計。
#### 例題2
若總體X服從泊松分布P(λ),(X1,X2,…,Xn) 是從總體X中抽取的容量為n的樣本,且EXi=λ ,DXi=λ ,i=1,2,…,n,則 Xˉˉˉ依概率收斂于 λ,故未知參數λ 的最大似然估計或矩估計 λ^=Xˉˉˉ是 λ的一致估計。
#### 例題3
若總體X服從0-1分布,P(X=1)=p,0<p<1, (X1,X2,…,Xn) 是從X中抽取的容量為n的樣本EXi=p ,DXi=p(1?p) ,i=1,2,…,n則 Xˉˉˉ依概率收斂于 p,故未知參數p 的最大似然估計或矩估計 p^=Xˉˉˉ是 p的一致估計。
### 無偏性
設θ為總體分布的未知參數,θ^(X1,X2,…,Xn) 是θ的一個估計,它是一個統計量。對于不同的樣本 (X1,X2,…,Xn),θ^(X1,X2,…,Xn) 取不同的值。
#### 定義2
如果θ^(X1,X2,…,Xn)的均值等于未知參數θ ,即E[θ^(X1,X2,…,Xn)]=θ 對一切可能的θ成立 ————(3)
則稱θ^(X1,X2,…,Xn)為θ 的無偏估計 。
無偏估計的意義是:用θ^(X1,X2,…,Xn)去估計未知參數 θ,有時候可能偏高,有時候可能偏低,但是平均說來等于未知參數 θ。
在(3)式中,對一切可能的θ ,是指在每個具體的參數估計問題中,參數θ取值范圍內的一切可能的值。例如,若θ是正態總體N(μ,σ2)的均值μ,那么它的一切可能取值范圍是 (?∞,+∞)。若θ是方差 σ2,則它的取值范圍為(0,+∞)。我們之所以要求(3)對一切可能的θ 都成立,是因為在參數估計中,我們并不知道參數的真值。因此,當我們要求一個估計量具有無偏性時,自然要求它在參數的一切可能取值范圍內處處都是無偏的。
#### 例題1
設(X1,X2,…,Xn) 是抽自均值為μ的總體的樣本,考慮μ的如下估計量:
μ^1=X1μ^2=X1+X22μ^3=X1+X2+Xn?1+Xn4
假設n≥4
因為EXi=μ,容易驗證Eμ^i=μ,i=1,2,3 ,所以μ都是 的的無偏估計,但是
μ^4=2X1μ^5=X1+X23
都不是μ的的無偏估計。
對于任一總體 X,由于EXˉˉˉ=μ,所以Xˉˉˉ 是μ的的無偏估計,但由于 ES2n=E[1n∑ni=1(Xi?Xˉˉˉ)2]=n?1nσ2,故S2n不是總體方差σ2的無偏估計,而修正的樣本方差 是總體方差 S2n=1n?1∑ni=1(Xi?Xˉˉˉ)2的無偏估計。
若 θ^是 θ的估計, g(θ)為θ 的實函數,通常我們總是用g(θ^) 去估計g(θ) ,但是值得注意的是,即使 Eθ^=θ,也不一定有E(g(θ^))=g(θ) 。
#### 例題2
修正樣本方差的標準差S不是總體標準差σ的無偏估計。
事實上,由于 σ2=E(S2)=DS2+[ES]2≥[ES]2,從而σ≥ES ,即 S不是σ的無偏估計。
若θ的估計θ^不是無偏的,但當n→∞ 時,Eθ^→θ ,則稱θ^ 是θ的**漸近無偏估計**。顯然,樣本方差S2n是總體方差的一個漸近無偏估計。
無偏性對估計量而言是很基本的要求,它的直觀意義是沒有系統誤差。由上例知,對于一個未知參數,它的無偏估計可以不止一個。那么,怎么來比較它們的好壞呢?我們很自然地想到,一個好的估計量應該方差比較小,只有這樣才能得到比較穩定的估計值。
### 有效性
#### 定義3
設θ^1(X1,X2,…,Xn)和θ^2(X1,X2,…,Xn)均為參數θ的無偏估計,如果
Dθ^1<Dθ^2
則稱**θ^1較θ^2有效**。當θ^(X1,X2,…,Xn)是所有無偏估計中方差最小時,稱θ^(X1,X2,…,Xn)
為最小方差無偏估計。
#### 例題
設(X1,X2,…,Xn) 是來自總體X的容量為n的樣本,證明總體均值μ (即 EX)的估計量μ^1=Xˉˉˉ比μ^2=∑ni=1aiXi有效,其中ai≥0,i=1,2,…,n且∑ni=1ai=1 。
證明
由于 Eμ^1=μ,Eμ^2=E(∑ni=1aiXi)=μ∑ni=1ai=μ ,所以μ^1,μ^2均是μ的無偏估計。
又

從而

所以Xˉˉˉ比∑ni=1aiXi有效。
由上例和一致性知,樣本均值Xˉˉˉ是總體均值 μ(即EX)的一致最小方差無偏估計。同樣還可以證明,樣本修正方差S2是總體方差σ2 (即DX )的一致最小方差無偏估計。