\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

从不同的角度看 Cramer - Rao 界 / Fisher 信息量

从 Cauchy - Schwarz 不等式引入

在得出 Cramer - Rao 下界的过程中, Cauchy - Schwarz 不等式发挥了重要作用. 接下来, 我们看看该著名不等式的另一种生效方式.

对于统计数据 \(X=(X_1,\cdots,X_n)\), 有估计 \(\hat\theta(X)\). 假设还有一个函数 \(\phi(X)\), 那么, 由 Cauchy - Schwarz 不等式, 有:

\[ \begin{aligned} Cov(\hat\theta,\phi) &\leq\sqrt{Var(\hat\theta)\cdot Var(\phi)}\\ \Rightarrow Var(\hat\theta) &\geq [Cov(\hat\theta,\phi)]^2/Var(\phi) \end{aligned} \]

这里, 我们给出了一个长得像 "下界" 的东西. 然而, 这个 "下界" 里竟然包含估计 \(\hat\theta\), 按理说下界应该不依赖于估计的, 因此需要改进. 这时候, 就需要 \(\phi\) 出手了. 即, 通过适当地取 \(\phi\) 来让右边这一坨与 \(\hat\theta\) 无关.

取

\[ \phi(x)=\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1 \]

那么, 计算协方差

\[ \begin{aligned} Cov(\hat\theta,\phi)&=E[(\hat\theta-E(\hat\theta))(\phi-E(\phi))]\\ &=E\left[(\theta-\theta)\left(\phi-\int_{-\infty}^{+\infty}\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)\cdot f(x,\theta)\ dx\right)\right]\\ &=E\left[(\hat\theta-\theta)\left(\phi-\left(\int_{-\infty}^{+\infty}f(x,\theta+\Delta)-\int_{-\infty}^{+\infty}f(x,\theta)\right)dx\right)\right]\\ &=E\left[(\hat\theta-\theta)\left(\phi-0\right)\right]\\ &=\int_{-\infty}^{+\infty}(\hat\theta-\theta)\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)f(x,\theta)\ dx\\ &=\int_{-\infty}^{+\infty}(\hat\theta-\theta)(f(x,\theta+\Delta)-f(x,\theta))\ dx\\ &=\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta+\Delta)\ dx-\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta)\ dx \end{aligned} \]

这里, 要进行一步非常炸裂的思考. 我们的估计 \(\hat\theta\) 既然是无偏的, 那么无论 \(f(x,\theta)\) 中的 \(\theta\) 取成多少, \(E(\hat\theta)=0\) 恒成立. 那么, 当被估计的参数 \(\theta\) 取为 \(\theta+\Delta\) 时, \(E(\hat\theta)\) 就等于 \(\theta+\Delta\) 了. 于是,

\[ \begin{aligned} Cov(\hat\theta,\phi)&=\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta+\Delta)\ dx-\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta)\ dx\\ &=(\theta+\Delta-\theta)-(\theta-\theta)\\ &=\Delta \end{aligned} \]

这样, 协方差 \(Cov(\hat\theta,\phi)\) 就彻底与估计 \(\hat\theta\) 无关了.

进一步地, 计算 \(Var(\phi)\):

\[ \begin{aligned} Var(\phi)&=E(\phi-E(\phi))^2=E(\phi-0)^2=E\phi^2\\ &=E\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)^2\\ &=\Delta^2\cdot E\left(\frac{f(x,\theta+\Delta)-f(x,\theta)}{\Delta}\cdot\frac{1}{f(x,\theta)}\right)^2 \end{aligned} \]

当 \(\Delta\to0\) 时,

\[ \begin{aligned} Var(\phi) &=\Delta^2\cdot E\left(\frac{\partial}{\partial\theta}f(x,\theta)\cdot\frac{1}{f(x,\theta)}\right)^2\\ &=\Delta^2\cdot E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2 \end{aligned} \]

于是,

\[ Var(\hat\theta)\geq [Cov(\hat\theta,\phi)]^2/Var(\phi)=\frac{1}{E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2}=I^{-1}(\theta) \]

极大似然估计 Maximum Likelihood Estimators

极大似然估计的优异性是有理论依据的, 根据下述分析, 能够发现其与 Fisher 信息量之间的关系.

首先, 简单复习一下极大似然估计: 假设 \(X_1,\cdots X_n \overset{i.i.d.}{\sim} f(x,\theta)\Rightarrow\) \(f(X_1,\cdots, X_n)=\prod_{k=1}^n f(X_k,\theta)\), 那么,

\[ \hat\theta_{ML}=\underset{\theta}{\arg\max}\prod_{k=1}^n f(X_k,\theta)\Leftrightarrow \underset{\theta}{\arg\max}\log(\prod_{k=1}^n f(X_k,\theta))\Leftrightarrow \underset{\theta}{\arg\max} \sum_{k=1}^n\log f(X_k,\theta) \]

为了方便, 设

\[ l(x,\theta)=\log f(x,\theta)\ , \ L(X,\theta)=\frac{1}{n}\sum_{k=1}^n l(X_k,\theta)\Rightarrow L^\prime(X,\hat\theta_{ML})=0 \]

这里, \(L(X,\theta)\) 中的 \(\frac{1}{n}\) 是为了后面步骤方便而加上的, 实际加与不加对于讨论 \(\hat\theta_{ML}\) 而言无伤大雅.

利用拉格朗日中值, 计算

\[ \begin{aligned} L^\prime(X,\theta)&=L^{\prime}(X,\hat\theta_{ML})+L^{\prime\prime}(X,\xi)(\theta-\hat\theta_{ML}),\ \xi\in(\theta,\hat\theta_{ML})\\ &=0+L^{\prime\prime}(X,\xi)(\theta-\hat\theta_{ML}) \end{aligned} \]

于是,

\[ \hat\theta_{ML}-\theta=-\frac{L^{\prime}(X,\theta)}{L^{\prime\prime}(X,\xi)} \]

考虑到 \(L^\prime(X,\theta)\) 的形式是一系列独立同分布随机变量的加和, 我们考虑应用 中心极限定理:

假设随机变量独立同分布 \(X_1,\cdots,X_n\overset{i.i.d.}{\sim} f(x,\theta),\ E(X)=\mu,\ Var(X)=\sigma^2\) , 则有

\[ \lim_{n\to\infty}\frac{1}{\sqrt{n}}\sum_{k=1}^nX_k\sim N(\mu,\sigma^2) \]

另外, 当 \(\sqrt{n}\) 变成 \(n\) 时 (半阶变成一阶), 取极限的结果就变成期望了, 此即 大数定律

借由这一动机, 我们考察,

\[ \sqrt{n}\cdot (\hat\theta_{ML}-\theta)\cdot L^{\prime\prime}(X,\xi)=-\sqrt{n}\cdot L^\prime (X,\theta)=-\frac{1}{\sqrt{n}}\sum_{k=1}^{n}l^\prime(X_k,\theta) \]

首先计算期望

\[ E[l^\prime(X,\theta)]=\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)\cdot f(x,\theta)\ dx=\int_{-\infty}^{+\infty}\frac{\partial}{\partial\theta}f(x,\theta)\ dx=\frac{\partial}{\partial\theta}\int_{-\infty}^{+\infty}f(x,\theta)\ dx=\frac{\partial}{\partial\theta}1=0 \]

再计算方差:

\[ Var[l^\prime(X,\theta)]=E[l^\prime(X,\theta)]^2-0^2=E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^2=I(\theta) \]

吔?! 这里又出现了 Fisher 信息量. 怀着激动的心情继续往下写吧! 就剩下拉格朗日余项待解决了. 不难发现, 这里可以应用大数定律:

\[ -L(X,\xi)=-\frac{1}{n}\sum_{k=1}^nl^{\prime\prime}(X,\xi)=-E[l^{\prime\prime}(X,\xi)]=-E\left(\frac{\partial^2}{\partial\theta^2}\log f(X,\xi)\right) \]

吔?! 这里又出来了类似 Fisher 信息量的东西, 只差一个 \(\xi\in(\theta,\hat\theta_{ML})\). 只需要证明, 当 \(n\to\infty\) 时, \(\theta\to\hat\theta_{ML}\). 但这一证明是相当麻烦的, 我们只需要接受这个结果就好.

将上述结果总结, 当 \(n\to \infty\) 时,

\[ \sqrt{n}\cdot(\hat\theta_{ML}-\theta)=-\frac{\sqrt{n}\cdot L^\prime(X,\theta)}{L^{\prime\prime}(X,\theta)}\sim \frac{1}{I(\theta)}\cdot N(0,I(\theta))=N(0,I^{-1}(\theta)) \]

因此说, 极大似然估计的渐近方差就是 Cramer-Rao 下界. 如果说最开始利用 Cauchy-Schwarz 不等式和 \(\phi\) 的例子还颇具技巧性, 极大似然估计得出 Cramer-Rao 下界与 Fisher 信息量的过程就显得自然许多. 尽管引入拉格朗日中值这步还是 tricky 的.