\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

最小方差无偏估计 Minimum Variance Unbias Estimator (MVUE)

我们希望由数据构造出一个参数估计, 用符号的形式表达就是:

由随机采样的数据 $X=(X_1,\cdots, X_n)^T;\ X_1,\cdots,X_n \sim f(X, \theta)$ , 构造 $\hat{\theta}(X_1,\cdots,X_n)\to\theta$

一般地, 评估这个逼近准确度的标准就是均方误差 (Mean Square Error, MSE).

\[ MSE=E(\hat{\theta}-\theta)^2 \]

可是, 如何凭空构造出一个好的 $\hat{\theta}$ 呢? 我们来逐步剖析一下.

首先, 介绍一种很差的 $\hat{\theta}$ : 跟 $\theta$ 毫无关联的 $\hat{\theta}$ ! 这样的构造是 Ancillary, 多余的. 举个例子:

\[ X_1, X_2 \overset{i.i.d.}{\sim} N(\theta,1);\ \hat{\theta}=X_1-X_2\sim N(0,2) \]

再介绍一种极端好的估计, 若无论 $\theta$ 是多少, 我们做的估计 $\hat{\theta}$ 都是最优的, 即 Uniformly Optimal. 然而, 这么好的估计根本不可能做到, 除非开了上帝视角, 把标准答案填上去.
综合上面来看, 我们做的估计既不能是 Ancillary 的, 也不能苛刻地要求是 Uniformly Optimal 的. 于是, 我们暂时先在 "无偏估计" 的范畴里讨论, 比较各种估计的优劣. 也就是限定了一个基本要求: $E(\hat\theta)=\theta$ . 此时,

\[ MSE(\hat{\theta})=E(\hat{\theta}-\theta)^2=E(\hat{\theta}-E(\hat\theta))^2=Var(\hat{\theta}) \]

当然, 如果最小方差还是 Uniformly 成立的就更好了, 即 Uniformly Minimum Variance Unbias Estimator, UMVUE

充分性 Sufficiency

充分性是指: 该估计包含了与 $\theta$ 有关的所有信息. 用符号语言来表述则是:

$s$ 是一个充分统计 $\Leftrightarrow$ $f(X,\theta\ |\ s=t)$ is independent of $\theta$ . 此处的 $f(X,\theta\ |\ s=t)$ 是指条件住一个统计 $s=t$ 后的概率分布函数

举个例子: 设 $X_1, \cdots, X_n\overset{i.i.d.}{\sim} Ber(p);\ X_k\sim\begin{pmatrix} 1&0 \ p&{1-p} \end{pmatrix} $, 则

\[ f(X_1,\cdots,X_n)=P(X_1=x_1,\cdots, X_n=x_n)=\prod_{k=1}^n P(X_k=x_k)=p^{\sum_{k=1}^nx_k}\cdot (1-p)^{n-\sum_{k=1}^nx_k} \]

假设我们做了这样的估计: $s=\sum_{k=1}^nx_k=t$, 则:

\[ \begin{aligned} &P(X_1=x_1,\cdots,X_n=x_n|\sum_{k=1}^nx_k=t)\\ =&\ P(X_1=x_1,\cdots,X_n=x_n,\ \sum_{k=1}^nx_k=t)/P(\sum_{k=1}^nx_k=t)\\ =&\ p^t\cdot(1-t)^{n-t}/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr) p^t\cdot(1-p)^{n-t}\\ =& 1/\bigl(\begin{smallmatrix}n\\t\end{smallmatrix}\bigr) \end{aligned} \]

这样, $s$ 就是一个充分统计量. 把上面这一通抽象的玩意直观表述就是, 只要给定取1的个数 $s=t$ , 便可以确定取1的可能性 $p$. 也即, 用 $s$ 充分地表示了 $p$, 使得代入估计后算出的概率分布函数与 $p$ 无关了.

不过按照上述方法只能找到极其少量的充分统计, 何况两点分布这么简单的情况都这么麻烦了. 那么, 有没有什么方法能帮帮忙?

Nayman Factorization

Theorem: $s$ is sufficient $\Leftrightarrow$ $f(X,\theta)=g(s(X),\theta)\cdot h(X)$, 所有的 $\theta$ 都去和我们的统计 $s$ 配对了

举三个例子:

Bernoulli 分布:

\[ \begin{aligned} s(X) &=\sum_{k=1}^n X_k,\\ f(x,\theta) &=p^s\cdot(1-p)^{n-s} \end{aligned} \]

其中, $p^s\cdot(1-p)^{n-s}$ 就是 $g(s(X),\theta)$, $h(X)=1$.

Poisson 分布:

\[ \begin{aligned} X_k &\sim_{i.i.d.} Poi(\lambda).\\ P(X_k=x_k) &=\frac{\lambda^{x_k}}{(x_k)!}\cdot e^{-\lambda}\\ f(X,\lambda) &=\prod_{k=1}^n \frac{\lambda^{X_k}}{(X_k)!}\cdot e^{-\lambda}\\ & =\lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda}\prod_{k=1}^n\frac{1}{(X_k)!} \end{aligned} \]

其中,

\[ \begin{aligned} s(X) &=\sum_{k=1}^nX_k,\ \\ \lambda^{\sum_{k=1}^nX_k}\cdot e^{-n\lambda} &=\lambda^{s(X)}\cdot e^{-n\lambda}=g(s(X),\ \lambda) \end{aligned} \]

Gaussian 分布:

考虑第一种情况: $\theta=\{\mu\}$, $\sigma^2$ 已知.

\[ \begin{aligned} f(X,\mu) &= (\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^n(X_k-\mu)^2)\\ &=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{1}{2\sigma^2}(\sum_{k=1}^nX_k^2-2\mu\sum_{k=1}^nX_k+n\mu^2))\\ &=(\frac{1}{\sqrt{2\pi}\sigma})^n\exp(-\frac{n\mu^2}{2\sigma^2})\cdot\exp(\frac{\mu}{\sigma^2}\sum_{k=1}^nX_k)\cdot\exp(-\frac{1}{2\sigma^2}\sum_{k=1}^nX_k^2) \end{aligned} \]

只要设

\[ s(X)=\sum_{k=1}^n X_k \]

即可. 这无疑加深了我们对奈曼分解的理解: $X$ 只要跟参数 $\theta$ 只以一种形态产生关系就好, 其他的部分里, $X$ 自己爱怎么玩就怎么玩.

考虑第二种情况: $\theta=\{\mu,\sigma\}$

吔, 既然参数都是两个了, 那我的充分统计也应该有两个口牙! 也即, $s(X)=\left\{\sum_{k=1}^n X_k,\ \sum_{k=1}^nX_k^2\right\}$

Rao-Blackwell Procedure

这是一种改进估计, 降低 MSE 的过程.

Theorem: 设一个无偏估计 $\hat{\theta}(X),\ E(\hat{\theta})=\theta$ , 对 $\forall s, s$ is sufficient, 得到 $\hat{\theta}^\prime=E(\theta|s)$, 有$Var(\hat{\theta}^\prime)\leq Var(\hat{\theta})$

Proof:

\[ \begin{aligned} MSE&=E(\hat{\theta}-\theta)^2=Var(\hat{\theta})\\&=Var(E(\hat{\theta}|s))+E(Var(\hat{\theta}|s))\\&= Var(\hat{\theta}^\prime)+E(Var(\hat{\theta}|s))\\&=E(\hat{\theta}^\prime-\theta)^2+E(Var(\hat{\theta}|s))\\&=MSE^\prime +E(Var(\hat{\theta}|s)) \end{aligned} \]

可是这里牵扯到一个问题, 上述的证明过程有用到 $s$ 充分性的定义吗? 也就是说, 上述证明对任意的统计都成立耶! 事实上, 要求 $s$ 的充分性, 是为了保证对统计做完改进后得到的结果 只依赖于统计数据 $X$ , 而与 $\theta$ 在表面上无关. 这只有使 $s$ 包含所有与 $\theta$ 有关的信息才能做到. 统计里有 $\theta$ 的话岂不跟原地 tp 一样.

举个例子体会一下: 设 $X_1,\cdots, X_n\sim N(\mu,\ \sigma^2),\ \sigma$ is known. 取一个充分统计 $s=\sum_{k=1}^nX_k$, 对于一个朴素的无偏估计 $\hat{\theta}(X)=X_1$ :

\[ \hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k) \]

因为有:

\[ E(X_i|\sum_{k=1}^nX_k)=E(X_j|\sum_{k=1}^nX_k) \]

我们就可以直接加起来喽! 即,

\[ \hat{\theta}^\prime(X)=E(X_1|\sum_{k=1}^nX_k)=\frac{1}{n}E(\sum_{k=1}^nX_k|\sum_{k=1}^nX_k)=\frac{1}{n}\sum_{k=1}^nX_k \]

来比较一下改进前后的 MSE 吧:

\[ \begin{aligned} MSE(\hat{\theta}) &=MSE(X_1)=\sigma^2 \\ MSE(\hat{\theta}^\prime) &=MSE\left(\frac{1}{n}\sum_{k=1}^nX_k\right)=\frac{\sigma^2}{n} \end{aligned} \]

这可优化得太多太多了.

## 完备 Complete

Def: For data $X\sim f(X,\theta)$, 对于统计 $T=T(X)$ , 若由 $E(g(T))=0$ 对 $\forall \theta$ 都成立, 就能得到 $g(T)=0$ , 或以概率形式记作 $P(g(T)=0)=1$, 那么称 $T$ 是完备的 (complete).

解释一下: $g(T)$ 可以视为对统计 $T$ 进行了一些处理, 而 $E(g(T))=0$ 意味着经过 $g$ 处理后的 $T$ 表现出了与 $\theta$ 无关的性质, 即 ancillary. 这也就意味着 $T$ 仍有一些 improve 的空间, 使得它无论怎么被处理都不会成为 ancillary 的. 如果 $E(g(T))=0$ implies $g(T)=0$, 那么在与 $\theta$ 相关性上, 或者说在 ancillary 的意义上, $T$ 绝对就是个好得没法再好的统计了.

总得来讲, 充分性保证了统计包含了所有与 $\theta$ 有关的信息, 完备性保证了统计不包含冗杂的与 $\theta$ 无关的信息.

Prop (Lehmann-Scheffé): 若$T$ 既充分又完备, 并且能找到一个 $h, s.t. E(h(T))=\theta$, 那么 $h(T)$ 就是 MVUE.

Proof: 即证 $\forall \hat{\theta}, E(\hat{\theta}=\theta) \Rightarrow MSE(\hat{\theta})\geq MSE(h(T))$. 首先, 依据充分性, 对 $\hat{\theta}$ 做一个 Rao-Blackwell:

\[ \hat{\theta}^\prime (T) = E(\hat{\theta}|T) \Rightarrow MSE(\hat{\theta})\geq MSE(\hat{\theta}^\prime(T)) \]

吔, 你看噢, $h(T)$ 和 $\hat{\theta}^\prime(T)$ 都是 $T$ 的函数, 且都是无偏估计. 那么就有这样的冲动!

\[ E(h(T)-\hat{\theta}^\prime(T))=\theta-\theta=0 \]

由 $T$ 是完备的, 可以得出: $\hat{\theta}^\prime(T)=h(T)$. 也就是说: 用 Rao-Blackwell 改进后的结果, 改进到最好也只能是 $h(T)$ 了.