\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
从不同的角度看 Cramer - Rao 界 / Fisher 信息量
从 Cauchy - Schwarz 不等式引入
在得出 Cramer - Rao 下界的过程中, Cauchy - Schwarz 不等式发挥了重要作用. 接下来, 我们看看该著名不等式的另一种生效方式.
对于统计数据 \(X=(X_1,\cdots,X_n)\), 有估计 \(\hat\theta(X)\). 假设还有一个函数 \(\phi(X)\), 那么, 由 Cauchy - Schwarz 不等式, 有:
\[
\begin{aligned}
Cov(\hat\theta,\phi) &\leq\sqrt{Var(\hat\theta)\cdot Var(\phi)}\\
\Rightarrow Var(\hat\theta) &\geq [Cov(\hat\theta,\phi)]^2/Var(\phi)
\end{aligned}
\]
这里, 我们给出了一个长得像 "下界" 的东西. 然而, 这个 "下界" 里竟然包含估计 \(\hat\theta\), 按理说下界应该不依赖于估计的, 因此需要改进. 这时候, 就需要 \(\phi\) 出手了. 即, 通过适当地取 \(\phi\) 来让右边这一坨与 \(\hat\theta\) 无关.
取
\[
\phi(x)=\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1
\]
那么, 计算协方差
\[
\begin{aligned}
Cov(\hat\theta,\phi)&=E[(\hat\theta-E(\hat\theta))(\phi-E(\phi))]\\
&=E\left[(\theta-\theta)\left(\phi-\int_{-\infty}^{+\infty}\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)\cdot f(x,\theta)\ dx\right)\right]\\
&=E\left[(\hat\theta-\theta)\left(\phi-\left(\int_{-\infty}^{+\infty}f(x,\theta+\Delta)-\int_{-\infty}^{+\infty}f(x,\theta)\right)dx\right)\right]\\
&=E\left[(\hat\theta-\theta)\left(\phi-0\right)\right]\\
&=\int_{-\infty}^{+\infty}(\hat\theta-\theta)\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)f(x,\theta)\ dx\\
&=\int_{-\infty}^{+\infty}(\hat\theta-\theta)(f(x,\theta+\Delta)-f(x,\theta))\ dx\\
&=\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta+\Delta)\ dx-\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta)\ dx
\end{aligned}
\]
这里, 要进行一步非常炸裂的思考. 我们的估计 \(\hat\theta\) 既然是无偏的, 那么无论 \(f(x,\theta)\) 中的 \(\theta\) 取成多少, \(E(\hat\theta)=0\) 恒成立. 那么, 当被估计的参数 \(\theta\) 取为 \(\theta+\Delta\) 时, \(E(\hat\theta)\) 就等于 \(\theta+\Delta\) 了. 于是,
\[
\begin{aligned}
Cov(\hat\theta,\phi)&=\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta+\Delta)\ dx-\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta)\ dx\\
&=(\theta+\Delta-\theta)-(\theta-\theta)\\
&=\Delta
\end{aligned}
\]
这样, 协方差 \(Cov(\hat\theta,\phi)\) 就彻底与估计 \(\hat\theta\) 无关了.
进一步地, 计算 \(Var(\phi)\):
\[
\begin{aligned}
Var(\phi)&=E(\phi-E(\phi))^2=E(\phi-0)^2=E\phi^2\\
&=E\left(\frac{f(x,\theta+\Delta)}{f(x,\theta)}-1\right)^2\\
&=\Delta^2\cdot E\left(\frac{f(x,\theta+\Delta)-f(x,\theta)}{\Delta}\cdot\frac{1}{f(x,\theta)}\right)^2
\end{aligned}
\]
当 \(\Delta\to0\) 时,
\[
\begin{aligned}
Var(\phi)
&=\Delta^2\cdot E\left(\frac{\partial}{\partial\theta}f(x,\theta)\cdot\frac{1}{f(x,\theta)}\right)^2\\
&=\Delta^2\cdot E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2
\end{aligned}
\]
于是,
\[
Var(\hat\theta)\geq [Cov(\hat\theta,\phi)]^2/Var(\phi)=\frac{1}{E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2}=I^{-1}(\theta)
\]
极大似然估计 Maximum Likelihood Estimators
极大似然估计的优异性是有理论依据的, 根据下述分析, 能够发现其与 Fisher 信息量之间的关系.
首先, 简单复习一下极大似然估计: 假设 \(X_1,\cdots X_n \overset{i.i.d.}{\sim} f(x,\theta)\Rightarrow\) \(f(X_1,\cdots, X_n)=\prod_{k=1}^n f(X_k,\theta)\), 那么,
\[
\hat\theta_{ML}=\underset{\theta}{\arg\max}\prod_{k=1}^n f(X_k,\theta)\Leftrightarrow \underset{\theta}{\arg\max}\log(\prod_{k=1}^n f(X_k,\theta))\Leftrightarrow \underset{\theta}{\arg\max} \sum_{k=1}^n\log f(X_k,\theta)
\]
为了方便, 设
\[
l(x,\theta)=\log f(x,\theta)\ , \ L(X,\theta)=\frac{1}{n}\sum_{k=1}^n l(X_k,\theta)\Rightarrow L^\prime(X,\hat\theta_{ML})=0
\]
这里, \(L(X,\theta)\) 中的 \(\frac{1}{n}\) 是为了后面步骤方便而加上的, 实际加与不加对于讨论 \(\hat\theta_{ML}\) 而言无伤大雅.
利用拉格朗日中值, 计算
\[
\begin{aligned}
L^\prime(X,\theta)&=L^{\prime}(X,\hat\theta_{ML})+L^{\prime\prime}(X,\xi)(\theta-\hat\theta_{ML}),\
\xi\in(\theta,\hat\theta_{ML})\\
&=0+L^{\prime\prime}(X,\xi)(\theta-\hat\theta_{ML})
\end{aligned}
\]
于是,
\[
\hat\theta_{ML}-\theta=-\frac{L^{\prime}(X,\theta)}{L^{\prime\prime}(X,\xi)}
\]
考虑到 \(L^\prime(X,\theta)\) 的形式是一系列独立同分布随机变量的加和, 我们考虑应用 中心极限定理:
假设随机变量独立同分布 \(X_1,\cdots,X_n\overset{i.i.d.}{\sim} f(x,\theta),\ E(X)=\mu,\ Var(X)=\sigma^2\) , 则有
\[
\lim_{n\to\infty}\frac{1}{\sqrt{n}}\sum_{k=1}^nX_k\sim N(\mu,\sigma^2)
\]
另外, 当 \(\sqrt{n}\) 变成 \(n\) 时 (半阶变成一阶), 取极限的结果就变成期望了, 此即 大数定律
借由这一动机, 我们考察,
\[
\sqrt{n}\cdot (\hat\theta_{ML}-\theta)\cdot L^{\prime\prime}(X,\xi)=-\sqrt{n}\cdot L^\prime (X,\theta)=-\frac{1}{\sqrt{n}}\sum_{k=1}^{n}l^\prime(X_k,\theta)
\]
首先计算期望
\[
E[l^\prime(X,\theta)]=\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)\cdot f(x,\theta)\ dx=\int_{-\infty}^{+\infty}\frac{\partial}{\partial\theta}f(x,\theta)\ dx=\frac{\partial}{\partial\theta}\int_{-\infty}^{+\infty}f(x,\theta)\ dx=\frac{\partial}{\partial\theta}1=0
\]
再计算方差:
\[
Var[l^\prime(X,\theta)]=E[l^\prime(X,\theta)]^2-0^2=E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^2=I(\theta)
\]
吔?! 这里又出现了 Fisher 信息量. 怀着激动的心情继续往下写吧! 就剩下拉格朗日余项待解决了. 不难发现, 这里可以应用大数定律:
\[
-L(X,\xi)=-\frac{1}{n}\sum_{k=1}^nl^{\prime\prime}(X,\xi)=-E[l^{\prime\prime}(X,\xi)]=-E\left(\frac{\partial^2}{\partial\theta^2}\log f(X,\xi)\right)
\]
吔?! 这里又出来了类似 Fisher 信息量的东西, 只差一个 \(\xi\in(\theta,\hat\theta_{ML})\). 只需要证明, 当 \(n\to\infty\) 时, \(\theta\to\hat\theta_{ML}\). 但这一证明是相当麻烦的, 我们只需要接受这个结果就好.
将上述结果总结, 当 \(n\to \infty\) 时,
\[
\sqrt{n}\cdot(\hat\theta_{ML}-\theta)=-\frac{\sqrt{n}\cdot L^\prime(X,\theta)}{L^{\prime\prime}(X,\theta)}\sim \frac{1}{I(\theta)}\cdot N(0,I(\theta))=N(0,I^{-1}(\theta))
\]
因此说, 极大似然估计的渐近方差就是 Cramer-Rao 下界. 如果说最开始利用 Cauchy-Schwarz 不等式和 \(\phi\) 的例子还颇具技巧性, 极大似然估计得出 Cramer-Rao 下界与 Fisher 信息量的过程就显得自然许多. 尽管引入拉格朗日中值这步还是 tricky 的.