\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Cramer-Rao Lower Bound (CRLB)
这是科学研究的另一种思路. 一些人利用各种优化过程由一个估计的构造不断寻找 MVUE, 一些人在寻求一个不依赖于具体的估计构造的下界. 这样就把底托住了, 或者说勾勒出我们讨论范围的轮廓, 这当然是非常 fundamental 的.
CRLB 是对估计的方差划定了一个下界, 且这个下界不依赖于具体的估计构造, 仅依赖于模型本身, 记为 \(I^{-1}(\theta)\). 也即:
\[
\forall \hat{\theta}, E(\hat{\theta})=\theta \Rightarrow Var(\hat{\theta})\geq I^{-1}(\theta)
\]
该不等式称为 Cramer-Rao 不等式, \(I^{-1}(\theta)\) 就是 Cramer-Rao 下界. 其中 \(I(\theta)\) 称为 Fisher Information.
\[
I(\theta)=E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^{2}=-E\left( \frac{\partial^2}{\partial\theta^2}\log f(X,\theta) \right)
\]
注意, 这里我没写 \(x\), 而是写 \(X\), 也即把随机变量代入到分布模型里, 使得括号里那一坨依然是个随机变量, 从而取期望这件事才有意义.
来解释一下. 首先, 为了将 MSE 与 \(\frac{\partial}{\partial\theta} f(x,\theta)\) 这两者联系起来, 我们需要在一个式子里同时纳入 \((\hat{\theta}-\theta)\) 和 \(\frac{\partial}{\partial\theta} f(x,\theta)\) . 于是, 对:
\[
f(x,\theta)\geq0, \ \int_{-\infty}^{+\infty}f(x,\theta)dx=1
\]
两边求导, 有:
\[
\frac{\partial}{\partial\theta}\int_{-\infty}^{+\infty}f(x,\theta)dx=0
\]
根据工科思维, 不严谨地交换积分微分次序:
\[
\int_{-\infty}^{+\infty}\frac{\partial}{\partial\theta}f(x,\theta)dx=0 \tag{1}
\]
其次,
根据无偏估计:
\[
E(\hat{\theta})=\int_{-\infty}^{+\infty}\hat{\theta}\cdot f(x,\theta)dx=\theta
\]
两边求导, 再交换一下次序, 于是有:
\[
\int_{-\infty}^{+\infty}\hat{\theta}\cdot\frac{\partial}{\partial\theta} f(x,\theta)dx=1 \tag{2}
\]
比较 \((1)\) 式和 \((2)\) 式, 我们做这样的操作, 给 \((1)\) 式两端都乘上 \(\theta\) :
\[
\int_{-\infty}^{+\infty}\theta\cdot\frac{\partial}{\partial\theta} f(x,\theta)dx=0 \tag{3}
\]
这样就对齐了! 于是 \((2)-(3)\) 立刻得出:
\[
\int_{-\infty}^{+\infty}(\hat{\theta}-\theta)\cdot\frac{\partial}{\partial\theta} f(x,\theta)dx=1
\]
Fisher 天才的地方就在这里了, 做一个 \(\log\) 的变换, 把 \(f(x,\theta)\) 从微分里解救出来, 从而构造出求期望的形式.
\[
\int_{-\infty}^{+\infty}(\hat{\theta}-\theta)\cdot f(x,\theta)\cdot\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)dx=1
\]
利用 Cauchy-Schwarz 不等式,
\[
\begin{aligned}
1=&\int_{-\infty}^{+\infty}(\hat{\theta}-\theta)\cdot f(x,\theta)\cdot\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)dx\\
=& \int_{-\infty}^{+\infty}(\hat{\theta}-\theta)\sqrt{f(x,\theta)}\cdot\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)\sqrt{f(x,\theta)}\ dx \\
\leq& \left( \int_{-\infty}^{+\infty}(\hat{\theta}-\theta)^2f(x,\theta)\ dx\cdot\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2f(x,\theta)\ dx\right)^{\frac{1}{2}}
\end{aligned}
\]
平方消掉开根:
\[
\begin{aligned}
1\leq& \int_{-\infty}^{+\infty}(\hat{\theta}-\theta)^2f(x,\theta)\ dx\cdot\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2 f(x,\theta)\ dx\\
=& E(\hat{\theta}-\theta)^2 \cdot E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^2
\end{aligned}
\]
因此有!
\[
MSE=Var(\hat{\theta})=E(\hat{\theta}-\theta)^2\geq 1/E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^{2} = I^{-1}(\theta)
\]
其中,
\[
I(\theta)=E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^{2}
\]
进一步地,
\[
1=\int_{-\infty}^{+\infty} f(x,\theta)dx \Rightarrow 0
=\int_{-\infty}^{+\infty} \frac{\partial}{\partial\theta}f(x,\theta)dx
=\int_{-\infty}^{+\infty} \left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)\cdot f(x,\theta)\ dx
\]
再求导, 则有:
\[
\begin{aligned}
0=&\int_{-\infty}^{+\infty}
\frac{\partial}{\partial\theta}
\left(\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)\cdot f(x,\theta)\right) dx\\
=&\int_{-\infty}^{+\infty}\left(\frac{\partial^2}{\partial\theta^2}
\log f(x,\theta)\right)\cdot f(x,\theta)\ dx
+\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}
\log f(x,\theta)\right)\left(\frac{\partial}{\partial\theta}f(x,\theta)\right)dx\\
=& E\left( \frac{\partial^2}{\partial\theta^2}\log f(X,\theta) \right)
+\int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2 f(x,\theta)\ dx\\
=& E\left( \frac{\partial^2}{\partial\theta^2}\log f(X,\theta) \right)
+ E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^2
\end{aligned}
\]
从而这两坨互为相反数, 即:
\[
I(\theta)=E\left(\frac{\partial}{\partial\theta}\log f(X,\theta)\right)^{2}=-E\left( \frac{\partial^2}{\partial\theta^2}\log f(X,\theta) \right)
\]
回顾一下刚才使用的柯西不等式, 注意等号成立的条件是两项只差一个常数倍. 即:
\[
\frac{\partial}{\partial\theta}\log f(x,\theta)=K\cdot(\hat\theta-\theta)
\]
其中, \(K\) 不依赖于 \(X\). 吔, 但是 \(K\) 依赖于 \(\theta\) 是一点问题没有的! 毕竟 \(\theta\) 也是一个常数. 并且实践中, 我们也更多地写成这样:
\[
\frac{\partial}{\partial\theta}\log f(x,\theta)=K(\theta)\cdot(\hat\theta-\theta)
\]
此时, Cramer-Rao 下界可以达到. 这就是最好的估计了.
先举个例子体验一下吧:
假设有高斯分布, \(\sigma^2\) 已知:
\[
f(x,\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\theta)^2}{2\sigma^2})
\]
一般来讲, 我们当然希望 \(\sigma\) 越小越好, 因为这样只需要取样距离 \(\theta\) 有微小的变化, 就会使结果有很大不同, 这对于统计过程来说当然是有利的. 也即, 我们希望曲率 (curvature) 大一点. 基于这一动机, 我们来算算二阶导. 为了方便, 取对数计算一下:
\[
\begin{aligned}
\log (\sqrt{2\pi}\sigma\cdot f(x,\theta)) &=-\frac{(x-\theta)^2}{2\sigma^2}\\
\frac{\partial}{\partial\theta}\left(-\frac{(x-\theta)^2}{2\sigma^2}\right) &=\frac{1}{\sigma^2}(x-\theta)\\
\frac{\partial^2}{\partial\theta^2}\left(-\frac{(x-\theta)^2}{2\sigma^2}\right) &=-\frac{1}{\sigma^2}
\end{aligned}
\]
首先来看一阶导的结果, 容易发现, 这压根就是刚才讨论的柯西不等式取等条件的结果: \(\frac{\partial}{\partial\theta}\log f(x,\theta)=K(\theta)\cdot(\hat\theta-\theta)\). 这样来看, \(x\) 本身就已经是 \(\theta\) 最好的估计了, 这当然非常符合我们的直观.
进一步地, 很容易得出高斯分布的 Fisher Information
\[
I(\theta)=-E\left(\frac{\partial^2}{\partial\theta^2}\log f(x,\theta)\right)=\frac{1}{\sigma^2}
\]
Cramer-Rao 界自然就是 \(\sigma^2\) 了.
诶, 等等! 很巧的是, 刚才算出的 \(K(\theta)\) 在高斯分布的例子中等于 \(I(\theta)\). 这难道是恒成立的? 事实上确实如此: 对取等条件式
\[
\frac{\partial}{\partial\theta}\log f(x,\theta)=K(\theta)\cdot(\hat\theta-\theta)
\]
两边平方, 再取期望:
\[
\begin{aligned}
\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2 & =K^2(\theta)\cdot(\hat\theta-\theta)^2\\
E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2 &=E\left(K^2(\theta)\cdot(\hat\theta-\theta)^2\right)\\
&=K^2(\theta)\cdot E(\hat\theta-\theta)^2\\
\end{aligned}
\]
而取等条件满足时, 方差就是\(I^{-1}(\theta)\), 即:
\[
I(\theta)=K^2(\theta)\cdot I^{-1}(\theta)
\]
这个巧妙, 这样 \(K(\theta)\) 压根就是 \(I(\theta)\) 了.
接着再考虑一个例子:
假设随机变量\(X_1,\cdots,X_n\sim_{i.d.d.} N(\theta,\sigma^2)\). 对于
\[
f(x_1,\cdots,x_n)=\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n\cdot\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\right)
\]
我们来算算它的 Cramer-Rao 下界:
\[
\begin{aligned}
\log f(x_1,\cdots,x_n) &=-n\log(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\\
\frac{\partial}{\partial\theta}\log f(x_1,\cdots,x_n) &=\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\theta)
=\frac{n}{\sigma^2}\left({\frac{\sum_{i=1}^nx_i}{n}}-\theta\right)
\end{aligned}
\]
写出来这个形式, 就足够说明样本均值就是此例的 MVUE, 而且 Fisher Information 和 Cramer-Rao 下界也出来了.
进一步延伸, 当估计并非无偏:
如果 \(E(\hat\theta)=g(\theta)\), Cramer-Rao 界会有什么变化?
\[
\begin{aligned}
g(\theta) &=\int_{-\infty}^{+\infty}{\hat\theta}(x)f(x,\theta)dx\\
\Rightarrow g\prime(\theta) &=\int_{-\infty}^{+\infty}\hat\theta(x)\frac{\partial}{\partial\theta}f(x,\theta)dx
\end{aligned}
\]
比较一下之前得到的 (1) 式和 (2) 式, 容易发现:
\[
g\prime(\theta)=\int_{-\infty}^{+\infty}(\hat\theta-\theta)\frac{\partial}{\partial\theta}f(x,\theta)dx
=\int_{-\infty}^{+\infty}(\hat\theta-\theta)f(x,\theta)\frac{\partial}{\partial\theta}\log f(x,\theta)dx
\]
从而有
\[
\begin{aligned}
g^\prime(\theta) &=E\left( (\hat\theta-\theta)\frac{\partial}{\partial\theta}\log f(x,\theta) \right)\\
\Rightarrow (g^{\prime}(\theta))^2 &\leq E(\hat\theta-\theta)^2\cdot E\left(\frac{\partial}{\partial\theta}\log f(x,\theta)\right)^2
\end{aligned}
\]
这样, 就有了新的 Cramer-Rao 下界喽.
\[
E(\hat\theta-\theta)^2 \geq (g^{\prime}(\theta))^2\cdot I^{-1}(\theta)
\]
再一个延伸, 当参数变多了以后:
首先有个问题, 当参数变多了, 我们该如何理解 MSE? 很自然地, 可以把它写成向量形式, 在多维空间里考虑. 也即 \(\boldsymbol\theta,\boldsymbol{\hat\theta}\in \mathbb{R}^m\).
一个自然的考虑是, 把期望写成 \(\sum_{i=1}^m(\hat\theta_i-\theta_i)^2\), 但这样有个重要的问题, 就是无法反映各个 \(\hat\theta_i-\theta\) 之间的关系. 因此, 我们考虑用矩阵这一手段表现其丰富的内涵.
定义 协方差矩阵:
\[
C(\boldsymbol{\hat\theta}-\boldsymbol\theta)=E(\boldsymbol{\hat\theta}-\boldsymbol\theta)(\boldsymbol{\hat\theta}-\boldsymbol\theta)^\mathrm T
\]
其中:
\[
\boldsymbol{\hat\theta}-\boldsymbol\theta=(\hat\theta_1-\theta_1,\cdots,\hat\theta_m-\theta_m)^\mathrm T
\]
有些地方会写作 \(C(\boldsymbol{\hat\theta})=E(\boldsymbol{\hat\theta}-E(\boldsymbol{\hat\theta}))(\boldsymbol{\hat\theta}-E(\boldsymbol{\hat\theta}))^\text T\), 其实都一样的.
但随之而来又有一个问题, 所谓 "界" 是要比大小的, 一个矩阵如何比大小咧? 试图回忆一下, 有个叫 "正定性" 的东西:
对于 \(A \in \mathbb{R}^{m\times m}\), 若任取非零向量 \(\boldsymbol x\in \mathbb{R}^m\), \(\boldsymbol x^\mathrm TA\boldsymbol x\geq0\), 则称矩阵 \(A\) 是正定的. 一般记作 \(A\geq0\). 那么, 通过正定性就能跟0 "比大小", 从而能让两个矩阵 "比大小" 了.
由此引入 Fisher Information Matrix:
\[
\exist\ I(\boldsymbol\theta)\in\mathbb{R}^{m\times m}, s.t. C(\boldsymbol{\hat\theta}-\boldsymbol\theta)-I^{-1}(\boldsymbol\theta)\geq0
\]
约定俗成地, 一般记作
\[
C(\boldsymbol{\hat\theta}-\boldsymbol{\theta})\geq I^{-1}(\boldsymbol\theta)
\]
自然地, 想到对 \(\log f(\boldsymbol x,\boldsymbol\theta)\in \mathbb{R}^m\) 的每一维求导, 也即求梯度:
\[
\nabla_\theta\ \log f(\boldsymbol x,\boldsymbol\theta)=(\frac{\partial}{\partial\theta_1}\log f,\cdots,\frac{\partial}{\partial\theta_m}\log f)^\mathrm T
\]
接着自然地猜到,
\[
I(\boldsymbol\theta)=E(\nabla_\boldsymbol\theta\ \log f)(\nabla_\boldsymbol\theta\ \log f)^\mathrm T=-E(\nabla_\boldsymbol\theta^2\ \log f(\boldsymbol x,\boldsymbol\theta))
\]
这里, \(\nabla_\theta^2\ \log f(\boldsymbol x,\boldsymbol \theta)\) 是个 Hessian Matrix.
\[
\nabla^2_\boldsymbol\theta\ g=\left(\frac{\partial^2}{\partial\theta_i\cdot\partial\theta_j}g\ \right)_{i,j}
\]
现在开始尝试证明!
Lemma: \(\forall \boldsymbol X\in \mathbb{R}^n\), \(E(\boldsymbol X\boldsymbol X^\mathrm T)\geq 0\). 即, 任何的相关矩阵都是正定的.
Proof: 只需证: \(\forall \boldsymbol\alpha\in \mathbb{R}^n\), \(\boldsymbol\alpha^\mathrm T E(\boldsymbol X\boldsymbol X^\mathrm T)\boldsymbol\alpha=0\).
\[
\boldsymbol\alpha^T E(\boldsymbol X\boldsymbol X^T)\boldsymbol\alpha=E(\boldsymbol\alpha^T\boldsymbol X\boldsymbol X^T\boldsymbol\alpha)=E((\boldsymbol\alpha^T\boldsymbol X)(\boldsymbol X^T\boldsymbol\alpha))=E(\boldsymbol\alpha^T\boldsymbol X)^2\geq0
\]
注意, 因为 \(\boldsymbol\alpha\) 不具有随机性, 所以能随意地放到期望里.
接下来, 对于 \(\boldsymbol\theta\in\mathbb{R}^m\), 作估计 \(\boldsymbol{\hat\theta}=(\hat\theta_1,\cdots,\hat\theta_m)^T\in\mathbb{R}^m\). 另有 \(\nabla_\boldsymbol\theta\ \log f(\boldsymbol x,\boldsymbol\theta)=(\frac{\partial}{\partial\theta_1}\log f,\cdots,\frac{\partial}{\partial\theta_m}\log f)^\mathrm T\). Rao 有个好主意, 构造:
\[
X=(\hat\theta_1-\theta_1,\cdots,\hat\theta_m-\theta_m,\frac{\partial}{\partial\theta_1}\log f,\cdots,\frac{\partial}{\partial\theta_m}\log f)^T\in \mathbb{R}^{2m}
\]
来算它的相关阵:
\[
E(XX^T)=
\begin{bmatrix}
C(\hat\theta,\theta) & H \\
H^T & I(\theta)
\end{bmatrix}
\]
计算一下 \(H\) 到底是个啥:
\[
\begin{aligned}
H_{ij}&=E\left((\hat\theta_i-\theta_i)\frac{\partial}{\partial\theta_j}\log f(x,\theta)\right)\\
&=\int_{-\infty}^{+\infty}(\hat\theta_i-\theta_i)\frac{\partial}{\partial\theta_j}\log f(x,\theta)\cdot f(x,\theta)\ dx\\
&=\int_{-\infty}^{+\infty}(\hat\theta_i-\theta_i)\frac{\partial}{\partial\theta_j}f(x,\theta)\ dx\\
&=\int_{-\infty}^{+\infty}\hat\theta_i\frac{\partial}{\partial\theta_j}f(x,\theta)\ dx-\theta_i\cdot\frac{\partial}{\partial\theta_j}\int_{-\infty}^{+\infty}f(x,\theta)\ dx\\
&=\int_{-\infty}^{+\infty}\hat\theta_i\frac{\partial}{\partial\theta_j}f(x,\theta)\ dx-\theta_i\cdot\frac{\partial}{\partial\theta_j}1\\
&=\int_{-\infty}^{+\infty}\hat\theta_i\frac{\partial}{\partial\theta_j}f(x,\theta)\ dx\\
&=\frac{\partial}{\partial\theta_j}\int_{-\infty}^{+\infty}\hat\theta_i\cdot f(x,\theta)\ dx
\end{aligned}
\]
记
\[
g_i(\theta)=\int_{-\infty}^{+\infty}\hat\theta_i\cdot f(x,\theta)\ dx
\]
则有
\[
E(\hat\theta)=g(\theta)=(g_1(\theta),\cdots,g_m(\theta))
\]
因此,
\[
H_{ij}=\frac{\partial}{\partial\theta_j}g_i(\theta)
\]
tips: 当估计无偏时, \(H\) 就是个单位矩阵了.
回到原来的那个大矩阵
\[
E(XX^T)=
\begin{bmatrix}
C(\hat\theta,\theta) & H \\
H^T & I(\theta)
\end{bmatrix}\\
\]
构造一个矩阵 ( \(A\) 待定 )
\[
\begin{bmatrix}
I & A\\
0 & I
\end{bmatrix}
\]
我们希望通过调整 \(A\) 的结构, 使得该矩阵和 \(E(XX^T)\) 相乘后, 可以让第一象限变成 0. 于是计算:
\[
H+A\cdot I(\theta)=0\Rightarrow A=-HI^{-1}(\theta)
\]
这样, 相乘后的结果就是:
\[
\begin{bmatrix}
I & A\\
0 & I
\end{bmatrix}
\begin{bmatrix}
C(\hat\theta,\theta) & H \\
H^T & I(\theta)
\end{bmatrix}
=
\begin{bmatrix}
C(\hat\theta-\theta)-HI^{-1}(\theta)H^T & 0\\
H^T & I(\theta)
\end{bmatrix}
\]
再构造一个矩阵 ( \(B\) 待定 ), 让刚得到的大矩阵被右乘后, 第三象限也变成 0.
\[
\begin{bmatrix}
I & 0\\
B & I
\end{bmatrix}
\]
\[
H^T+I(\theta)\cdot B=0 \Rightarrow B=-I^{-1}(\theta)H^T
\]
于是有:
\[
\begin{bmatrix}
I & -HI^{-1}(\theta)\\
0 & I
\end{bmatrix}
\begin{bmatrix}
C(\hat\theta,\theta) & H \\
H^T & I(\theta)
\end{bmatrix}
\begin{bmatrix}
I & 0\\
-I^{-1}(\theta)H^T & I
\end{bmatrix}=
\begin{bmatrix}
C(\hat\theta-\theta)-HI^{-1}(\theta)H^T & 0\\
0 & I(\theta)
\end{bmatrix}
\]
通过向量乘法的概念, 可以发现, 两边的矩阵互为转置, 这也就意味着对中间的矩阵进行了一次合同变换. 而这并不会对正定性有影响. 由于等号左侧中间的矩阵是正定的, 因此等号右边的分块对角矩阵也是正定的. 又: 分块对角矩阵正定 \(\Leftrightarrow\) 每个对角块正定. 因此:
\[
C(\hat\theta-\theta)-HI^{-1}(\theta)H^T \geq 0
\]
假如估计是无偏的, \(H\) 就是单位矩阵, 此时自然就有
\[
C(\hat\theta-\theta)\geq I^{-1}(\theta)
\]
该证明由 Rao 精妙地给出, 不仅给出了无偏情况的证明, 还更扩展地给出了非无偏的结果.