跳转至
\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

最小方差无偏估计 Minimum Variance Unbias Estimator (MVUE)

我们希望由数据构造出一个参数估计, 用符号的形式表达就是:

由随机采样的数据 \(X=(X_1,\cdots, X_n)^T;\ X_1,\cdots,X_n \sim f(X, \theta)\) , 构造 \(\hat{\theta}(X_1,\cdots,X_n)\to\theta\)

一般地, 评估这个逼近准确度的标准就是均方误差 (Mean Square Error, MSE).

\[ MSE=E(\hat{\theta}-\theta)^2 \]

可是, 如何凭空构造出一个好的 \(\hat{\theta}\) 呢? 我们来逐步剖析一下.

  1. 首先, 介绍一种很差的 \(\hat{\theta}\) : 跟 \(\theta\) 毫无关联的 \(\hat{\theta}\) ! 这样的构造是 Ancillary, 多余的. 举个例子:
\[ X_1, X_2 \overset{i.i.d.}{\sim} N(\theta,1);\ \hat{\theta}=X_1-X_2\sim N(0,2) \]
  1. 再介绍一种极端好的估计, 若无论 \(\theta\) 是多少, 我们做的估计 \(\hat{\theta}\) 都是最优的, 即 Uniformly Optimal. 然而, 这么好的估计根本不可能做到, 除非开了上帝视角, 把标准答案填上去.

  2. 综合上面来看, 我们做的估计既不能是 Ancillary 的, 也不能苛刻地要求是 Uniformly Optimal 的. 于是, 我们暂时先在 "无偏估计" 的范畴里讨论, 比较各种估计的优劣. 也就是限定了一个基本要求: \(E(\hat\theta)=\theta\) . 此时,

\[ MSE(\hat{\theta})=E(\hat{\theta}-\theta)^2=E(\hat{\theta}-E(\hat\theta))^2=Var(\hat{\theta}) \]

当然, 如果最小方差还是 Uniformly 成立的就更好了, 即 Uniformly Minimum Variance Unbias Estimator, UMVUE

充分性 Sufficiency

充分性是指: 该估计包含了与 \(\theta\) 有关的所有信息. 用符号语言来表述则是:

\(s\) 是一个充分统计 \(\Leftrightarrow\) \(f(X,\theta\ |\ s=t)\) is independent of \(\theta\) . 此处的 \(f(X,\theta\ |\ s=t)\) 是指条件住一个统计 \(s=t\)​ 后的概率分布函数

举个例子: 设 $X_1, \cdots, X_n\overset{i.i.d.}{\sim} Ber(p);\ X_k\sim\begin{pmatrix} 1&0 \ p&{1-p} \end{pmatrix} $, 则

\[ f(X_1,\cdots,X_n)=P(X_1=x_1,\cdots, X_n=x_n)=\prod_{k=1}^n P(X_k=x_k)=p^{\sum_{k=1}^nx_k}\cdot (1-p)^{n-\sum_{k=1}^nx_k} \]

假设我们做了这样的估计: \(s=\sum_{k=1}^nx_k=t\), 则:

\[ \begin{aligned} &P(X_1=x_1,\cdots,X_n=x_n|\sum_{k=1}^nx_k=t)\\ =&\ P(X_1=x_1,\cdots,X_n=x_n,\ \sum_{k=1}^nx_k=t)/P(\sum_{k=1}^nx_k=t)\\ =&\ p^t\cdot(1-t)^{n-t}/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr) p^t\cdot(1-p)^{n-t}\\ =& 1/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr) \end{aligned} \]

这样, \(s\) 就是一个充分统计量. 把上面这一通抽象的玩意直观表述就是, 只要给定取1的个数 \(s=t\) , 便可以确定取1的可能性 \(p\). 也即, 用 \(s\) 充分地表示了 \(p\), 使得代入估计后算出的概率分布函数与 \(p\)​ 无关了.

不过按照上述方法只能找到极其少量的充分统计, 何况两点分布这么简单的情况都这么麻烦了. 那么, 有没有什么方法能帮帮忙?

Nayman Factorization

Theorem: \(s\) is sufficient \(\Leftrightarrow\) \(f(X,\theta)=g(s(X),\theta)\cdot h(X)\), 所有的 \(\theta\) 都去和我们的统计 \(s\) 配对了

举三个例子:

  1. Bernoulli 分布:
\[ \begin{aligned} s(X) &=\sum_{k=1}^n X_k,\\ f(x,\theta) &=p^s\cdot(1-p)^{n-s} \end{aligned} \]

其中, \(p^s\cdot(1-p)^{n-s}\) 就是 \(g(s(X),\theta)\), \(h(X)=1\).

  1. Poisson 分布:
\[ \begin{aligned} X_k &\sim_{i.i.d.} Poi(\lambda).\\ P(X_k=x_k) &=\frac{\lambda^{x_k}}{(x_k)!}\cdot e^{-\lambda}\\ f(X,\lambda) &=\prod_{k=1}^n \frac{\lambda^{X_k}}{(X_k)!}\cdot e^{-\lambda}\\ & =\lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda}\prod_{k=1}^n\frac{1}{(X_k)!} \end{aligned} \]

其中,

\[ \begin{aligned} s(X) &=\sum_{k=1}^nX_k,\ \\ \lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda} &=\lambda^{s(X)}\cdot e^{-n\lambda}=g(s(X),\ \lambda) \end{aligned} \]
  1. Gaussian 分布:

考虑第一种情况: \(\theta=\{\mu\}\), \(\sigma^2\)​ 已知.

\[ \begin{aligned} f(X,\mu) &= (\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^n(X_k-\mu)^2)\\ &=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}(\sum_{k=1}^nX_k^2-2\mu\sum_{k=1}^nX_k+n\mu^2))\\ &=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{n\mu^2}{2\sigma^2})\cdot\exp(\frac{\mu}{\sigma^2}\sum_{k=1}^nX_k)\cdot\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^nX_k^2) \end{aligned} \]

只要设

\[ s(X)=\sum_{k=1}^n X_k \]

即可. 这无疑加深了我们对奈曼分解的理解: \(X\) 只要跟参数 \(\theta\) 只以一种形态产生关系就好, 其他的部分里, \(X\) 自己爱怎么玩就怎么玩.

考虑第二种情况: \(\theta=\{\mu,\sigma\}\)

吔, 既然参数都是两个了, 那我的充分统计也应该有两个口牙! 也即, \(s(X)=\left\{\sum_{k=1}^n X_k,\ \sum_{k=1}^nX_k^2\right\}\)

Rao-Blackwell Procedure

这是一种改进估计, 降低 MSE 的过程.

Theorem: 设一个无偏估计 \(\hat{\theta}(X),\ E(\hat{\theta})=\theta\) , 对 \(\forall s, s\) is sufficient, 得到 \(\hat{\theta}^\prime=E(\theta|s)\), 有\(Var(\hat{\theta}^\prime)\leq Var(\hat{\theta})\)

Proof:

\[ \begin{aligned} MSE&=E(\hat{\theta}-\theta)^2=Var(\hat{\theta})\\&=Var(E(\hat{\theta}|s))+E(Var(\hat{\theta}|s))\\&= Var(\hat{\theta}^\prime)+E(Var(\hat{\theta}|s))\\&=E(\hat{\theta}^\prime-\theta)^2+E(Var(\hat{\theta}|s))\\&=MSE^\prime +E(Var(\hat{\theta}|s)) \end{aligned} \]

可是这里牵扯到一个问题, 上述的证明过程有用到 \(s\) 充分性的定义吗? 也就是说, 上述证明对任意的统计都成立耶! 事实上, 要求 \(s\) 的充分性, 是为了保证对统计做完改进后得到的结果 只依赖于统计数据 \(X\) , 而与 \(\theta\) 在表面上无关. 这只有使 \(s\) 包含所有与 \(\theta\) 有关的信息才能做到. 统计里有 \(\theta\) 的话岂不跟原地 tp 一样.

举个例子体会一下: 设 \(X_1,\cdots, X_n\sim N(\mu,\ \sigma^2),\ \sigma\) is known. 取一个充分统计 \(s=\sum_{k=1}^nX_k\), 对于一个朴素的无偏估计 \(\hat{\theta}(X)=X_1\) :

\[ \hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k) \]

因为有:

\[ E(X_i|\sum_{k=1}^nX_k)=E(X_j|\sum_{k=1}^nX_k) \]

我们就可以直接加起来喽! 即,

\[ \hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k)=\frac{1}{n}E(\sum_{k=1}^nX_k|\sum_{k=1}^nX_k)=\frac{1}{n}\sum_{k=1}^nX_k \]

来比较一下改进前后的 MSE 吧:

\[ \begin{aligned} MSE(\hat{\theta}) &=MSE(X_1)=\sigma^2 \\ MSE(\hat{\theta}^\prime) &=MSE\left(\frac{1}{n}\sum_{k=1}^nX_k\right)=\frac{\sigma^2}{n} \end{aligned} \]

这可优化得太多太多了.

## 完备 Complete

Def: For data \(X\sim f(X,\theta)\), 对于统计 \(T=T(X)\) , 若由 \(E(g(T))=0\)\(\forall \theta\) 都成立, 就能得到 \(g(T)=0\) , 或以概率形式记作 \(P(g(T)=0)=1\), 那么称 \(T\)​ 是完备的 (complete).

解释一下: \(g(T)\) 可以视为对统计 \(T\) 进行了一些处理, 而 \(E(g(T))=0\) 意味着经过 \(g\) 处理后的 \(T\) 表现出了与 \(\theta\) 无关的性质, 即 ancillary. 这也就意味着 \(T\) 仍有一些 improve 的空间, 使得它无论怎么被处理都不会成为 ancillary 的. 如果 \(E(g(T))=0\) implies \(g(T)=0\), 那么在与 \(\theta\) 相关性上, 或者说在 ancillary 的意义上, \(T\)​ 绝对就是个好得没法再好的统计了.

总得来讲, 充分性保证了统计包含了所有与 \(\theta\) 有关的信息, 完备性保证了统计不包含冗杂的与 \(\theta\) 无关的信息.

Prop (Lehmann-Scheffé):\(T\) 既充分又完备, 并且能找到一个 \(h, s.t. E(h(T))=\theta\), 那么 \(h(T)\)​ 就是 MVUE.

​ Proof: 即证 \(\forall \hat{\theta}, E(\hat{\theta}=\theta) \Rightarrow MSE(\hat{\theta})\geq MSE(h(T))\). 首先, 依据充分性, 对 \(\hat{\theta}\) 做一个 Rao-Blackwell:

\[ \hat{\theta}^\prime (T) = E(\hat{\theta}|T) \Rightarrow MSE(\hat{\theta})\geq MSE(\hat{\theta}^\prime(T)) \]

​ 吔, 你看噢, \(h(T)\)\(\hat{\theta}^\prime(T)\) 都是 \(T\)​ 的函数, 且都是无偏估计. 那么就有这样的冲动!

\[ E(h(T)-\hat{\theta}^\prime(T))=\theta-\theta=0 \]

​ 由 \(T\) 是完备的, 可以得出: \(\hat{\theta}^\prime(T)=h(T)\). 也就是说: 用 Rao-Blackwell 改进后的结果, 改进到最好也只能是 \(h(T)\) 了.