\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Best Linear Unbiased Estimator (BLUE)

最优线性无偏估计

首先, 回忆一下 Bias-Variance Trade-off:

\[ ||\hat\theta-\theta||=||\hat\theta-E(\hat\theta)+E(\hat\theta)-\theta||\leq||\hat\theta-E(\hat\theta)||+||E(\hat\theta)-\theta|| \]

若 $||\cdot||=E(\cdot)^2$, 即将度量选作均方度量, 则:

\[ \begin{aligned} ||\hat\theta-\theta||&=E(\hat\theta-E(\hat\theta)+E(\hat\theta)-\theta)^2\\ &=E(\hat\theta-E(\hat\theta))^2+E(E(\hat\theta)-\theta)^2+2E[(\hat\theta-E(\hat\theta))(E(\hat\theta)-\theta)]\\ &=E(\hat\theta-E(\hat\theta))^2+E(E(\hat\theta)-\theta)^2+0 \end{aligned} \]

注: 交叉项中, $E(\hat\theta),\theta$ 都是确定的, 因此 $E(\hat\theta)-\theta$ 可以提出来, 而$E(\hat\theta-E(\hat\theta))$ 就很自然地是 0 了.

其中, 我们将 $E(\hat\theta-E(\hat\theta))$ 称为 "方差", $E(E(\hat\theta-\theta))$ 称为 "偏差". 那么, 假如说我们不得不在方差和偏差之间做取舍 (Bias-Variance Trade-off), 我们很自然地会希望方差变小, 因为偏差是容易被修正的. 进一步说, 我们希望将难以处理的因素控制住, 而容易处理的因素就宽松对待.

接下来, 我们看 $||\hat\theta-\theta||$ 的另外一种分解方式:

\[ \begin{aligned} ||\hat\theta-\theta||&=||\hat\theta-\hat\theta_{ERM}+\hat\theta_{ERM}-\hat\theta_{ERM,O}+\hat\theta_{ERM,O}-\theta||\\ &\leq||\hat\theta-\hat\theta_{ERM}||+||\hat\theta_{ERM}-\hat\theta_{ERM,O}||+||\hat\theta_{ERM,O}-\theta|| \end{aligned} \]

其中,

\[ \hat\theta_{ERM}=\underset{\hat\theta\in A}{\arg\min}\ \frac{1}{n}||\hat\theta(X_1,\cdots,X_n)-\theta|| \]

ERM, for Experience Risk Minimization, 经验风险极小化. 集合 $A$ 是先验的, 比较适合作为估计的一堆函数. 也就是说, $\hat\theta_{ERM}$ 是在已知的一堆比较好使的估计中, 结合实际拿到的数据 $X_1,\cdots X_n$ 考虑, 最优的那一个. $||\hat\theta-\hat\theta_{ERM}||$ 则是当前估计与经验中最好的估计的偏差.

\[ \hat\theta_{ERM,O}=\underset{\hat\theta\in A}{\arg\min}\ E||\hat\theta(X_1,\cdots,X_n)-\theta|| \]

O for Optimal. 这里, 我们取了期望, 这就意味着这是个很理论的东西, 式子里面的 $X_1,\cdots,X_n$ 也是抽象的所谓的 "随机变量", 而不是本次采样拿到的数据. $||\hat\theta_{ERM}-\hat\theta_{ERM,O}||$ 则刻画了单次采样与理论的差距, 可以理解为采样的有效性, 而与我们在 $\hat\theta$ 中选取的函数无关. $||\hat\theta_{ERM,O}-\theta||$ 则刻画了先验的集合 $A$ 与实际的差距.

这一不等式可以大体理解成一个从具象到抽象, 从已知到未知的过程:

最具象的 $\hat\theta$ 既包含了单次采样数据, 也包含了我们决定使用的某个特定函数. 两者都写得清清楚楚.
$\hat\theta_{ERM}$ 保留了单次采样数据提供的信息, 不过要从若干个先验较优的几个函数里挑出最好的那个.
$\hat\theta_{ERM,O}$ 则要求挑选的函数不仅仅对片面的, 单次采样的数据最优, 还要在理论上对于抽象的随机变量也是最优, 即期望最优.
最抽象的 $\theta$ 则是充满着未知, 不受集合 $A$ 与采样的束缚, 且与上述的三个估计都有着不可逾越的鸿沟: Cramer-Rao 界.

同时, 用机器学习的语言来讲, 这三项分别是: 算法带来的误差, 数据带来的误差, 算法的局限性与理论上的限制.

线性估计

线性是人类的本能 (确信), 因此, 我们先来看线性估计的优化.

做一个线性估计: $\hat\theta(X_1,\cdots,X_n)=\sum_{k=1}^{n}\alpha_kX_k$, 按理说应该还有个常数项, 但毕竟只差个常数在统计学上无足轻重, 因此省去. 同理, 我们也希望它有无偏性 $E(\hat\theta)=\theta$, 甚至宽泛一点讲, $E(\hat\theta)=\theta+a$, 只差个常数. 那么, 最好的线性估计就是

\[ \hat\theta_{BLUE}=\underset{\hat\theta\ is\ linear}{\arg\min}\ E(\hat\theta-\theta)^2 \]

BLUE for Best Linear Unbiased Estimators, 最优线性无偏估计. 它满足三点: 1. 线性性 2.无偏性 3. 最优性.

由无偏性:

\[ \begin{aligned} &\theta=E(\hat\theta_{BLUE})=\sum_{k=1}^nE(\alpha_k X_k)=\sum_{k=1}^n\alpha_kE(X_k)=\sum_{k=1}^n\alpha_k\cdot\theta\\ \Rightarrow\quad &\sum_{k=1}^n \alpha_k=1 \end{aligned} \]

不过更严谨地说, $E(X_k)$ 应该是关于 $\theta$ 的一个线性函数: $E(X_k)=s_k\theta$ , 这样

\[ \begin{aligned} &\theta=E(\hat\theta_{BLUE})=\sum_{k=1}^nE(\alpha_kX_k)= \sum_{k=1}^n a_ks_k\theta=\theta\cdot\sum_{k=1}^n\alpha_ks_k\\ \Rightarrow\quad & \sum_{k=1}^n\alpha_ks_k=1 \end{aligned} \]

由最优性:

\[ \begin{aligned} &\min_{\alpha_1,\cdots,\alpha_n}E(\hat\theta-\theta)=E(\sum_{k=1}^n\alpha_kX_K-\theta)^2=E(\sum_{k=1}^n\alpha_kX_k-\sum_{k=1}^n\alpha_ks_k\theta)^2\\ \Leftrightarrow \quad &\min_{\alpha_1,\cdots,\alpha_n}E(\sum_{k=1}^n\alpha_k(X_k-s_k\theta))^2 \end{aligned} \]

为了方便, 我们引入矩阵和向量. 事实上, 我们以后也要习惯于使用矩阵和向量. (至少这比写一堆 $\sum$ 要方便多了.)

设$\boldsymbol\alpha=(\alpha_1,\cdots,\alpha_k)^\text T,\ \boldsymbol X=(X_1,\cdots,X_n)^\text T,\ \boldsymbol s=(s_1,\cdots,s_n)^\text T$. 则,

\[ \begin{aligned} &\Leftrightarrow \min_{\boldsymbol\alpha}E(\boldsymbol\alpha^\text T(\boldsymbol X-\boldsymbol s\cdot\theta))^2\\ &\Leftrightarrow \min_{\boldsymbol\alpha}E(\boldsymbol\alpha^\text T(\boldsymbol X-\boldsymbol s\cdot\theta)(\boldsymbol X-\boldsymbol s\cdot\theta)^\text T\boldsymbol\alpha)\\ &\Leftrightarrow \min_{\boldsymbol\alpha}\boldsymbol\alpha^\text T E((\boldsymbol X-\boldsymbol s\cdot\theta)(\boldsymbol X-\boldsymbol s\cdot\theta)^\text T)\boldsymbol \alpha\\ &\Leftrightarrow\min_{\boldsymbol\alpha}\boldsymbol\alpha^\text T C \boldsymbol\alpha \end{aligned} \]

这里得到了一个二次型. 显然 $C$ 是个对称的正定矩阵, 因此问题变成了, 在 $\boldsymbol\alpha^\text T \boldsymbol s=1$, 即无偏的情况下, 求该二次型的最小值.

\[ L(\boldsymbol\alpha,\lambda)=\frac{1}{2}\boldsymbol\alpha^\text TC\boldsymbol\alpha-\lambda(\boldsymbol\alpha^\text T \boldsymbol s-1) \]

这里, 是为了后面方便加上的 $\frac{1}{2}$

\[ \begin{aligned} \nabla_{\boldsymbol\alpha}L &=\frac{1}{2}(C+C^T)\boldsymbol\alpha-\lambda\boldsymbol s=C\boldsymbol\alpha-\lambda\boldsymbol s=0\\ \Rightarrow \quad \boldsymbol\alpha &=\lambda C^{-1} \boldsymbol s \end{aligned} \]

约束条件代入 $\boldsymbol\alpha$ 计算 $\lambda$ :

\[ \begin{aligned} &&1&=\boldsymbol\alpha^\text T\boldsymbol s=(\lambda C^{-1}\boldsymbol s)^\text T\boldsymbol s=\lambda\boldsymbol s^\text TC^{-1}\boldsymbol s\\ &\Rightarrow &\lambda&=\frac{1}{\boldsymbol s^\text TC^{-1}\boldsymbol s}\\ &\Rightarrow &\boldsymbol\alpha&=\frac{C^{-1}\boldsymbol s}{\boldsymbol s^\text TC^{-1}\boldsymbol s} \end{aligned} \]

这样, 我们找到了基于数据的, 线性情况下的最好估计, 即 $\hat\theta_{ERM}$, 也是 BLUE

でも! 现在的讨论还仅仅局限在一维. 当 $\boldsymbol\theta\in\mathbb R^m$ 时呢?

首先要解决的问题是, 此时什么叫最优? 根据之前的经验, 应该引入协方差矩阵作差看正定性. 不过这样, 上面的求导等步骤就完全失效了. 于是引入一个新策略. 想必该策略一定是富有启发性的!

先重新思索 "什么是最优".

Lemma 1.1: 对$\hat\theta\in\mathbb R^1$ 且 $E(\hat\theta)=\theta$, 有: $\hat\theta$ is MVUE $\Leftrightarrow$ 对 $\forall u\in\mathbb R^1,\ E(u)=0$, 有 $\text{Cov}(u,\hat\theta)=0$

Proof:

先证 "$\Rightarrow$": 对 $\hat\theta_1=\hat\theta+\lambda u,\ E(\hat\theta_1)=\theta$. 由于 $\hat\theta$ 是 MUVE, 则:

\[ \begin{aligned} \text{MSE}(\hat\theta)&\leq \text{MSE}(\hat\theta_1)\\ &=\text{Var}(\hat\theta+\lambda u)\\ &=\text{MSE}(\hat\theta)+\lambda^2\text{Var}(u)+2\lambda\ \text{Cov}(\hat\theta,u) \end{aligned} \]

那么, 对于 $\forall\lambda$, $\lambda^2\text{Var}(u)+2\lambda\ \text{Cov}(\hat\theta,u)$ 必须恒 $\geq$0. 把它当成二次曲线看, 容易发现, $\text{Cov}(\hat\theta,u)$ 必须等于 0.

再证 "$\Leftarrow$": $\forall \hat\theta_1$, 且 $E(\hat\theta_1)=\theta$,

\[ \begin{aligned} \text{MSE}(\hat\theta_1)&=\text{Var}(\hat\theta_1-\hat\theta+\hat\theta)\\ &=\text{Var}(\hat\theta)+\text{Var}(\hat\theta_1-\hat\theta)+\text{Cov}(\hat\theta,\hat\theta_1-\hat\theta)\\ &=\text{MSE}(\hat\theta)+\text{Var}(\hat\theta_1-\hat\theta)+0 \end{aligned} \]

显然, 对 $\forall\hat\theta_1$, $\text{MSE}(\hat\theta_1)\leq \text{MSE}(\hat\theta)$, 即 $\hat\theta$ 是 MVUE.

将上述结论推广至 $m$ 维.

Lemma 1.2: 对$\boldsymbol{\hat\theta}\in\mathbb R^m$ 且 $E(\boldsymbol{\hat\theta})=\boldsymbol\theta$, 有: $\boldsymbol{\hat\theta}$ is MVUE $\Leftrightarrow$ 对 $\forall \boldsymbol U\in\mathbb R^m,\ E(\boldsymbol U)=\boldsymbol 0$, 有 $\text{Cov}(\boldsymbol U,\boldsymbol{\hat\theta})=0$

它的证明用到了下述结论:

Lemma 2: $\boldsymbol\theta(\theta_1,\cdots,\theta_m)^\text{T}\in \mathbb R^m,\ \boldsymbol{\hat\theta}(\hat\theta_1,\cdots,\hat\theta_m)$, $\forall k, \hat\theta_k$ is MVUE of $\theta_k\ \Rightarrow \hat\theta$ is MVUE

Proof:

只需证 $\forall\boldsymbol{\hat\theta}^\prime(\hat\theta^\prime_1,\cdots,\hat\theta^\prime_m)\in\mathbb R^m$, $\forall \boldsymbol\alpha\in\mathbb R^m$ , 有 $\boldsymbol\alpha^\text{T}(C_\boldsymbol{\hat\theta}-C_{\boldsymbol{\hat\theta^\prime}})\boldsymbol\alpha\leq0$.

\[ \begin{aligned} \boldsymbol\alpha^\text{T}C_{\boldsymbol{\hat\theta}}\boldsymbol\alpha &=\boldsymbol\alpha^\text{T}E(\boldsymbol{\hat\theta}-\boldsymbol{\theta})(\boldsymbol{\hat\theta}-\boldsymbol{\theta})^\text{T}\boldsymbol\alpha\\ &=E(\boldsymbol\alpha^\text{T}(\boldsymbol{\hat\theta}-\boldsymbol{\theta})(\boldsymbol{\hat\theta}-\boldsymbol{\theta})^\text{T}\boldsymbol\alpha)\\ &=E(\boldsymbol\alpha^\text{T}(\boldsymbol{\hat\theta}-\boldsymbol{\theta}))^2\\ &=E(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}-\boldsymbol\alpha^\text{T}\boldsymbol{\theta})^2\\ &=E(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}-E(\boldsymbol{\boldsymbol\alpha^\text{T}\hat\theta}))^2\\ &=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}) \end{aligned} \]

同理, $\boldsymbol\alpha^\text{T}C_{\boldsymbol{\hat\theta}^\prime}\boldsymbol\alpha=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}^\prime)$. 那么 $\boldsymbol\alpha^\text{T}(C_\boldsymbol{\hat\theta}-C_{\boldsymbol{\hat\theta^\prime}})\boldsymbol\alpha=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta})-\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}^\prime)\leq 0$

这样, 采取逐个击破的思路, 容易证明 $m$ 维时的 Lemma 1 仍是正确的.

接下来, 终于可以进一步探索了:

对于数据 $\boldsymbol X=(X_1,\cdots,X_m)^\text{T}$, 设 $\boldsymbol{\hat\theta}(\boldsymbol X)=B\boldsymbol{X},\ B\in\mathbb R^{m\times n}$, $\boldsymbol X=A\boldsymbol\theta+\boldsymbol\epsilon$, 其中 $\boldsymbol\epsilon$ 为震荡, $E(\boldsymbol\epsilon)=0$

\[ \begin{aligned} &\boldsymbol\theta=E(\boldsymbol{\hat\theta})=E(B\boldsymbol X)=BE(\boldsymbol X)=BA\boldsymbol\theta\\ \Rightarrow\quad & BA=I \end{aligned} \]

接下来, 引入任意的 $\boldsymbol U=C\boldsymbol X$, 且满足 $E(\boldsymbol U)=0$. 则 $E(\boldsymbol U)=CE(\boldsymbol X)=CA\boldsymbol\theta\equiv\boldsymbol{0}\Rightarrow CA=\boldsymbol{0}$

这也就意味着 $C$ 的每个行矢量都正交于 $A$ 的列矢量, 即 $C$ 的行空间正交于 $A$ 的列空间. 那么就有 $C^\text{T}\subseteq(\text{span}(A))^{\perp}$. 其中, $(\text{span}(A))^{\perp}$ 是指 $A$ 张成空间的正交空间. (张成空间一般都是说列向量张成的空间.)

为了方便, 记 $D=C^\text{T}$, $E=(\text{span}(A))^\perp$, 则 $C=D^\text{T}=(E\cdot F)^\text{T}=F^\text{T}E^\text{T}$. 即 $U=F^\text{T}E^\text{T}\boldsymbol X$. 于是,

\[ \begin{aligned} \text{Cov}(\boldsymbol{\hat\theta},\boldsymbol U) &=\mathrm{Cov}(B\boldsymbol X,F^\text{T}E^\text{T}\boldsymbol X)\\ &=E([B\boldsymbol X-BE(\boldsymbol X)][F^\text{T}E^\text{T}\boldsymbol X-F^\text{T}E^\text{T}E(\boldsymbol X)])\\ &=E(B[\boldsymbol X-E(\boldsymbol X)]F^\text{T}E^\text{T}[\boldsymbol X-E(\boldsymbol X)])\\ &=E(B[\boldsymbol X-E(\boldsymbol X)][\boldsymbol X-E(\boldsymbol X)]^{\text T}EF)\\ &=E(B\boldsymbol\epsilon\boldsymbol\epsilon^\text TEF) \end{aligned} \]

如果是最简单的情况, $\boldsymbol\epsilon\boldsymbol\epsilon^\text T=\sigma^2 I$ , 那么:

\[ 0\equiv\text{Cov}(\boldsymbol{\hat\theta},\boldsymbol U)=\sigma^2E(BEF) \]

其中, $B$ 跟 $\boldsymbol{\hat\theta}$ 有关; $E$ 跟 $A$ 有关, 从而与 $\boldsymbol\theta $ 有关; 而 $F$ 是用来表达 $C$ 的, 与任意给定的 $\boldsymbol U$ 有关, 这意味着 $F$ 也是任意的. 于是, 上式可以表述为, 对于任意的 $F$, $BEF=0$, 从而: $BE=0$

\[ \Rightarrow B^\mathrm{T}\subseteq (\mathrm{span}(E))^\perp=\mathrm{span}(A)\Rightarrow B^\text T=AH^\text T\Rightarrow B=HA^\text T \]

又因为 $BA=I$, 则:

\[ \begin{aligned} &A^{-1}=HA^\text T\\ \Rightarrow \quad & H=A^{-1}(A^\text T)^{-1}=(A^\text TA)^{-1}\\ \Rightarrow \quad & B=HA^\text T=(A^\text TA)^{-1}A^\text T\\ \Rightarrow \quad & \boldsymbol{\hat\theta}(\boldsymbol X)=B\boldsymbol{X}=(A^\text TA)^{-1}A^\text T\boldsymbol{X} \end{aligned} \]

这就是大名鼎鼎的最小二乘 (Least Square). 而最小二乘解就是 BLUE. 该定理称为 Gauss-Markov 定理.

另外, 即使 $\boldsymbol\epsilon\boldsymbol\epsilon^\text T$ 不是简单的 $\sigma^2 I$ 也毫无关系, 只要令 $B^\prime=B\boldsymbol\epsilon\boldsymbol\epsilon^\text T$, 后面发生的事都一样.

该证明由 Rao 给出. 最具亮点的思路是将协方差矩阵等于 0 与矩阵相乘得 0 而产生的几何直觉联系起来, 从而借助协方差矩阵为 0 的条件得出若干矩阵之间的关系, 进而将这些矩阵所关联的向量联系起来.

补充说明, 不要把这里的 $\boldsymbol X$ 和 $y=kx+b$ 的 $x$ 当成一码事了. 我们从机器学习的角度去看, 矩阵 $A$ 是我们的 input, 向量 $\boldsymbol X$ 是output, 这样就好理解了!