\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
最小方差无偏估计 Minimum Variance Unbias Estimator (MVUE)
我们希望由数据构造出一个参数估计, 用符号的形式表达就是:
由随机采样的数据 \(X=(X_1,\cdots, X_n)^T;\ X_1,\cdots,X_n \sim f(X, \theta)\) , 构造 \(\hat{\theta}(X_1,\cdots,X_n)\to\theta\)
一般地, 评估这个逼近准确度的标准就是均方误差 (Mean Square Error, MSE).
\[
MSE=E(\hat{\theta}-\theta)^2
\]
可是, 如何凭空构造出一个好的 \(\hat{\theta}\) 呢? 我们来逐步剖析一下.
- 首先, 介绍一种很差的 \(\hat{\theta}\) : 跟 \(\theta\) 毫无关联的 \(\hat{\theta}\) ! 这样的构造是 Ancillary, 多余的. 举个例子:
\[
X_1, X_2 \overset{i.i.d.}{\sim} N(\theta,1);\ \hat{\theta}=X_1-X_2\sim N(0,2)
\]
-
再介绍一种极端好的估计, 若无论 \(\theta\) 是多少, 我们做的估计 \(\hat{\theta}\) 都是最优的, 即 Uniformly Optimal. 然而, 这么好的估计根本不可能做到, 除非开了上帝视角, 把标准答案填上去.
-
综合上面来看, 我们做的估计既不能是 Ancillary 的, 也不能苛刻地要求是 Uniformly Optimal 的. 于是, 我们暂时先在 "无偏估计" 的范畴里讨论, 比较各种估计的优劣. 也就是限定了一个基本要求: \(E(\hat\theta)=\theta\) . 此时,
\[
MSE(\hat{\theta})=E(\hat{\theta}-\theta)^2=E(\hat{\theta}-E(\hat\theta))^2=Var(\hat{\theta})
\]
当然, 如果最小方差还是 Uniformly 成立的就更好了, 即 Uniformly Minimum Variance Unbias Estimator, UMVUE
充分性 Sufficiency
充分性是指: 该估计包含了与 \(\theta\) 有关的所有信息. 用符号语言来表述则是:
\(s\) 是一个充分统计 \(\Leftrightarrow\) \(f(X,\theta\ |\ s=t)\) is independent of \(\theta\) . 此处的 \(f(X,\theta\ |\ s=t)\) 是指条件住一个统计 \(s=t\) 后的概率分布函数
举个例子: 设 $X_1, \cdots, X_n\overset{i.i.d.}{\sim} Ber(p);\ X_k\sim\begin{pmatrix} 1&0 \ p&{1-p} \end{pmatrix} $, 则
\[
f(X_1,\cdots,X_n)=P(X_1=x_1,\cdots, X_n=x_n)=\prod_{k=1}^n P(X_k=x_k)=p^{\sum_{k=1}^nx_k}\cdot (1-p)^{n-\sum_{k=1}^nx_k}
\]
假设我们做了这样的估计: \(s=\sum_{k=1}^nx_k=t\), 则:
\[
\begin{aligned}
&P(X_1=x_1,\cdots,X_n=x_n|\sum_{k=1}^nx_k=t)\\
=&\ P(X_1=x_1,\cdots,X_n=x_n,\ \sum_{k=1}^nx_k=t)/P(\sum_{k=1}^nx_k=t)\\
=&\ p^t\cdot(1-t)^{n-t}/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr) p^t\cdot(1-p)^{n-t}\\
=& 1/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr)
\end{aligned}
\]
这样, \(s\) 就是一个充分统计量. 把上面这一通抽象的玩意直观表述就是, 只要给定取1的个数 \(s=t\) , 便可以确定取1的可能性 \(p\). 也即, 用 \(s\) 充分地表示了 \(p\), 使得代入估计后算出的概率分布函数与 \(p\) 无关了.
不过按照上述方法只能找到极其少量的充分统计, 何况两点分布这么简单的情况都这么麻烦了. 那么, 有没有什么方法能帮帮忙?
Nayman Factorization
Theorem: \(s\) is sufficient \(\Leftrightarrow\) \(f(X,\theta)=g(s(X),\theta)\cdot h(X)\), 所有的 \(\theta\) 都去和我们的统计 \(s\) 配对了
举三个例子:
- Bernoulli 分布:
\[
\begin{aligned}
s(X) &=\sum_{k=1}^n X_k,\\
f(x,\theta) &=p^s\cdot(1-p)^{n-s}
\end{aligned}
\]
其中, \(p^s\cdot(1-p)^{n-s}\) 就是 \(g(s(X),\theta)\), \(h(X)=1\).
- Poisson 分布:
\[
\begin{aligned}
X_k &\sim_{i.i.d.} Poi(\lambda).\\
P(X_k=x_k) &=\frac{\lambda^{x_k}}{(x_k)!}\cdot e^{-\lambda}\\
f(X,\lambda) &=\prod_{k=1}^n \frac{\lambda^{X_k}}{(X_k)!}\cdot e^{-\lambda}\\
& =\lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda}\prod_{k=1}^n\frac{1}{(X_k)!}
\end{aligned}
\]
其中,
\[
\begin{aligned}
s(X) &=\sum_{k=1}^nX_k,\ \\
\lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda} &=\lambda^{s(X)}\cdot e^{-n\lambda}=g(s(X),\ \lambda)
\end{aligned}
\]
- Gaussian 分布:
考虑第一种情况: \(\theta=\{\mu\}\), \(\sigma^2\) 已知.
\[
\begin{aligned}
f(X,\mu) &= (\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^n(X_k-\mu)^2)\\
&=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}(\sum_{k=1}^nX_k^2-2\mu\sum_{k=1}^nX_k+n\mu^2))\\
&=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{n\mu^2}{2\sigma^2})\cdot\exp(\frac{\mu}{\sigma^2}\sum_{k=1}^nX_k)\cdot\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^nX_k^2)
\end{aligned}
\]
只要设
\[
s(X)=\sum_{k=1}^n X_k
\]
即可. 这无疑加深了我们对奈曼分解的理解: \(X\) 只要跟参数 \(\theta\) 只以一种形态产生关系就好, 其他的部分里, \(X\) 自己爱怎么玩就怎么玩.
考虑第二种情况: \(\theta=\{\mu,\sigma\}\)
吔, 既然参数都是两个了, 那我的充分统计也应该有两个口牙! 也即, \(s(X)=\left\{\sum_{k=1}^n X_k,\ \sum_{k=1}^nX_k^2\right\}\)
Rao-Blackwell Procedure
这是一种改进估计, 降低 MSE 的过程.
Theorem: 设一个无偏估计 \(\hat{\theta}(X),\ E(\hat{\theta})=\theta\) , 对 \(\forall s, s\) is sufficient, 得到 \(\hat{\theta}^\prime=E(\theta|s)\), 有\(Var(\hat{\theta}^\prime)\leq Var(\hat{\theta})\)
Proof:
\[
\begin{aligned}
MSE&=E(\hat{\theta}-\theta)^2=Var(\hat{\theta})\\&=Var(E(\hat{\theta}|s))+E(Var(\hat{\theta}|s))\\&= Var(\hat{\theta}^\prime)+E(Var(\hat{\theta}|s))\\&=E(\hat{\theta}^\prime-\theta)^2+E(Var(\hat{\theta}|s))\\&=MSE^\prime +E(Var(\hat{\theta}|s))
\end{aligned}
\]
可是这里牵扯到一个问题, 上述的证明过程有用到 \(s\) 充分性的定义吗? 也就是说, 上述证明对任意的统计都成立耶! 事实上, 要求 \(s\) 的充分性, 是为了保证对统计做完改进后得到的结果 只依赖于统计数据 \(X\) , 而与 \(\theta\) 在表面上无关. 这只有使 \(s\) 包含所有与 \(\theta\) 有关的信息才能做到. 统计里有 \(\theta\) 的话岂不跟原地 tp 一样.
举个例子体会一下: 设 \(X_1,\cdots, X_n\sim N(\mu,\ \sigma^2),\ \sigma\) is known. 取一个充分统计 \(s=\sum_{k=1}^nX_k\), 对于一个朴素的无偏估计 \(\hat{\theta}(X)=X_1\) :
\[
\hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k)
\]
因为有:
\[
E(X_i|\sum_{k=1}^nX_k)=E(X_j|\sum_{k=1}^nX_k)
\]
我们就可以直接加起来喽! 即,
\[
\hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k)=\frac{1}{n}E(\sum_{k=1}^nX_k|\sum_{k=1}^nX_k)=\frac{1}{n}\sum_{k=1}^nX_k
\]
来比较一下改进前后的 MSE 吧:
\[
\begin{aligned}
MSE(\hat{\theta}) &=MSE(X_1)=\sigma^2 \\
MSE(\hat{\theta}^\prime) &=MSE\left(\frac{1}{n}\sum_{k=1}^nX_k\right)=\frac{\sigma^2}{n}
\end{aligned}
\]
这可优化得太多太多了.
## 完备 Complete
Def: For data \(X\sim f(X,\theta)\), 对于统计 \(T=T(X)\) , 若由 \(E(g(T))=0\) 对 \(\forall \theta\) 都成立, 就能得到 \(g(T)=0\) , 或以概率形式记作 \(P(g(T)=0)=1\), 那么称 \(T\) 是完备的 (complete).
解释一下: \(g(T)\) 可以视为对统计 \(T\) 进行了一些处理, 而 \(E(g(T))=0\) 意味着经过 \(g\) 处理后的 \(T\) 表现出了与 \(\theta\) 无关的性质, 即 ancillary. 这也就意味着 \(T\) 仍有一些 improve 的空间, 使得它无论怎么被处理都不会成为 ancillary 的. 如果 \(E(g(T))=0\) implies \(g(T)=0\), 那么在与 \(\theta\) 相关性上, 或者说在 ancillary 的意义上, \(T\) 绝对就是个好得没法再好的统计了.
总得来讲, 充分性保证了统计包含了所有与 \(\theta\) 有关的信息, 完备性保证了统计不包含冗杂的与 \(\theta\) 无关的信息.
Prop (Lehmann-Scheffé): 若\(T\) 既充分又完备, 并且能找到一个 \(h, s.t. E(h(T))=\theta\), 那么 \(h(T)\) 就是 MVUE.
Proof: 即证 \(\forall \hat{\theta}, E(\hat{\theta}=\theta) \Rightarrow MSE(\hat{\theta})\geq MSE(h(T))\). 首先, 依据充分性, 对 \(\hat{\theta}\) 做一个 Rao-Blackwell:
\[
\hat{\theta}^\prime (T) = E(\hat{\theta}|T) \Rightarrow MSE(\hat{\theta})\geq MSE(\hat{\theta}^\prime(T))
\]
吔, 你看噢, \(h(T)\) 和 \(\hat{\theta}^\prime(T)\) 都是 \(T\) 的函数, 且都是无偏估计. 那么就有这样的冲动!
\[
E(h(T)-\hat{\theta}^\prime(T))=\theta-\theta=0
\]
由 \(T\) 是完备的, 可以得出: \(\hat{\theta}^\prime(T)=h(T)\). 也就是说: 用 Rao-Blackwell 改进后的结果, 改进到最好也只能是 \(h(T)\) 了.