跳转至
\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Best Linear Unbiased Estimator (BLUE)

最优线性无偏估计

首先, 回忆一下 Bias-Variance Trade-off:

\[ ||\hat\theta-\theta||=||\hat\theta-E(\hat\theta)+E(\hat\theta)-\theta||\leq||\hat\theta-E(\hat\theta)||+||E(\hat\theta)-\theta|| \]

\(||\cdot||=E(\cdot)^2\), 即将度量选作均方度量, 则:

\[ \begin{aligned} ||\hat\theta-\theta||&=E(\hat\theta-E(\hat\theta)+E(\hat\theta)-\theta)^2\\ &=E(\hat\theta-E(\hat\theta))^2+E(E(\hat\theta)-\theta)^2+2E[(\hat\theta-E(\hat\theta))(E(\hat\theta)-\theta)]\\ &=E(\hat\theta-E(\hat\theta))^2+E(E(\hat\theta)-\theta)^2+0 \end{aligned} \]

注: 交叉项中, \(E(\hat\theta),\theta\) 都是确定的, 因此 \(E(\hat\theta)-\theta\) 可以提出来, 而\(E(\hat\theta-E(\hat\theta))\) 就很自然地是 0 了.

其中, 我们将 \(E(\hat\theta-E(\hat\theta))\) 称为 "方差", \(E(E(\hat\theta-\theta))\) 称为 "偏差". 那么, 假如说我们不得不在方差和偏差之间做取舍 (Bias-Variance Trade-off), 我们很自然地会希望方差变小, 因为偏差是容易被修正的. 进一步说, 我们希望将难以处理的因素控制住, 而容易处理的因素就宽松对待.

接下来, 我们看 \(||\hat\theta-\theta||\) 的另外一种分解方式:

\[ \begin{aligned} ||\hat\theta-\theta||&=||\hat\theta-\hat\theta_{ERM}+\hat\theta_{ERM}-\hat\theta_{ERM,O}+\hat\theta_{ERM,O}-\theta||\\ &\leq||\hat\theta-\hat\theta_{ERM}||+||\hat\theta_{ERM}-\hat\theta_{ERM,O}||+||\hat\theta_{ERM,O}-\theta|| \end{aligned} \]

其中,

\[ \hat\theta_{ERM}=\underset{\hat\theta\in A}{\arg\min}\ \frac{1}{n}||\hat\theta(X_1,\cdots,X_n)-\theta|| \]

ERM, for Experience Risk Minimization, 经验风险极小化. 集合 \(A\) 是先验的, 比较适合作为估计的一堆函数. 也就是说, \(\hat\theta_{ERM}\) 是在已知的一堆比较好使的估计中, 结合实际拿到的数据 \(X_1,\cdots X_n\) 考虑, 最优的那一个. \(||\hat\theta-\hat\theta_{ERM}||\) 则是当前估计与经验中最好的估计的偏差.

\[ \hat\theta_{ERM,O}=\underset{\hat\theta\in A}{\arg\min}\ E||\hat\theta(X_1,\cdots,X_n)-\theta|| \]

O for Optimal. 这里, 我们取了期望, 这就意味着这是个很理论的东西, 式子里面的 \(X_1,\cdots,X_n\) 也是抽象的所谓的 "随机变量", 而不是本次采样拿到的数据. \(||\hat\theta_{ERM}-\hat\theta_{ERM,O}||\) 则刻画了单次采样与理论的差距, 可以理解为采样的有效性, 而与我们在 \(\hat\theta\) 中选取的函数无关. \(||\hat\theta_{ERM,O}-\theta||\) 则刻画了先验的集合 \(A\) 与实际的差距.

这一不等式可以大体理解成一个从具象到抽象, 从已知到未知的过程:

  1. 最具象的 \(\hat\theta\) 既包含了单次采样数据, 也包含了我们决定使用的某个特定函数. 两者都写得清清楚楚.
  2. \(\hat\theta_{ERM}\) 保留了单次采样数据提供的信息, 不过要从若干个先验较优的几个函数里挑出最好的那个.
  3. \(\hat\theta_{ERM,O}\) 则要求挑选的函数不仅仅对片面的, 单次采样的数据最优, 还要在理论上对于抽象的随机变量也是最优, 即期望最优.
  4. 最抽象的 \(\theta\) 则是充满着未知, 不受集合 \(A\) 与采样的束缚, 且与上述的三个估计都有着不可逾越的鸿沟: Cramer-Rao 界.

同时, 用机器学习的语言来讲, 这三项分别是: 算法带来的误差, 数据带来的误差, 算法的局限性与理论上的限制.

线性估计

线性是人类的本能 (确信), 因此, 我们先来看线性估计的优化.

做一个线性估计: \(\hat\theta(X_1,\cdots,X_n)=\sum_{k=1}^{n}\alpha_kX_k\), 按理说应该还有个常数项, 但毕竟只差个常数在统计学上无足轻重, 因此省去. 同理, 我们也希望它有无偏性 \(E(\hat\theta)=\theta\), 甚至宽泛一点讲, \(E(\hat\theta)=\theta+a\), 只差个常数. 那么, 最好的线性估计就是

\[ \hat\theta_{BLUE}=\underset{\hat\theta\ is\ linear}{\arg\min}\ E(\hat\theta-\theta)^2 \]

BLUE for Best Linear Unbiased Estimators, 最优线性无偏估计. 它满足三点: 1. 线性性 2.无偏性 3. 最优性.

由无偏性:

\[ \begin{aligned} &\theta=E(\hat\theta_{BLUE})=\sum_{k=1}^nE(\alpha_k X_k)=\sum_{k=1}^n\alpha_kE(X_k)=\sum_{k=1}^n\alpha_k\cdot\theta\\ \Rightarrow\quad &\sum_{k=1}^n \alpha_k=1 \end{aligned} \]

不过更严谨地说, \(E(X_k)\) 应该是关于 \(\theta\) 的一个线性函数: \(E(X_k)=s_k\theta\) , 这样

\[ \begin{aligned} &\theta=E(\hat\theta_{BLUE})=\sum_{k=1}^nE(\alpha_kX_k)= \sum_{k=1}^n a_ks_k\theta=\theta\cdot\sum_{k=1}^n\alpha_ks_k\\ \Rightarrow\quad & \sum_{k=1}^n\alpha_ks_k=1 \end{aligned} \]

由最优性:

\[ \begin{aligned} &\min_{\alpha_1,\cdots,\alpha_n}E(\hat\theta-\theta)=E(\sum_{k=1}^n\alpha_kX_K-\theta)^2=E(\sum_{k=1}^n\alpha_kX_k-\sum_{k=1}^n\alpha_ks_k\theta)^2\\ \Leftrightarrow \quad &\min_{\alpha_1,\cdots,\alpha_n}E(\sum_{k=1}^n\alpha_k(X_k-s_k\theta))^2 \end{aligned} \]

为了方便, 我们引入矩阵和向量. 事实上, 我们以后也要习惯于使用矩阵和向量. (至少这比写一堆 \(\sum\) 要方便多了.)

\(\boldsymbol\alpha=(\alpha_1,\cdots,\alpha_k)^\text T,\ \boldsymbol X=(X_1,\cdots,X_n)^\text T,\ \boldsymbol s=(s_1,\cdots,s_n)^\text T\). 则,

\[ \begin{aligned} &\Leftrightarrow \min_{\boldsymbol\alpha}E(\boldsymbol\alpha^\text T(\boldsymbol X-\boldsymbol s\cdot\theta))^2\\ &\Leftrightarrow \min_{\boldsymbol\alpha}E(\boldsymbol\alpha^\text T(\boldsymbol X-\boldsymbol s\cdot\theta)(\boldsymbol X-\boldsymbol s\cdot\theta)^\text T\boldsymbol\alpha)\\ &\Leftrightarrow \min_{\boldsymbol\alpha}\boldsymbol\alpha^\text T E((\boldsymbol X-\boldsymbol s\cdot\theta)(\boldsymbol X-\boldsymbol s\cdot\theta)^\text T)\boldsymbol \alpha\\ &\Leftrightarrow\min_{\boldsymbol\alpha}\boldsymbol\alpha^\text T C \boldsymbol\alpha \end{aligned} \]

这里得到了一个二次型. 显然 \(C\) 是个对称的正定矩阵, 因此问题变成了, 在 \(\boldsymbol\alpha^\text T \boldsymbol s=1\), 即无偏的情况下, 求该二次型的最小值.

\[ L(\boldsymbol\alpha,\lambda)=\frac{1}{2}\boldsymbol\alpha^\text TC\boldsymbol\alpha-\lambda(\boldsymbol\alpha^\text T \boldsymbol s-1) \]

这里, 是为了后面方便加上的 \(\frac{1}{2}\)

\[ \begin{aligned} \nabla_{\boldsymbol\alpha}L &=\frac{1}{2}(C+C^T)\boldsymbol\alpha-\lambda\boldsymbol s=C\boldsymbol\alpha-\lambda\boldsymbol s=0\\ \Rightarrow \quad \boldsymbol\alpha &=\lambda C^{-1} \boldsymbol s \end{aligned} \]

约束条件代入 \(\boldsymbol\alpha\) 计算 \(\lambda\) :

\[ \begin{aligned} &&1&=\boldsymbol\alpha^\text T\boldsymbol s=(\lambda C^{-1}\boldsymbol s)^\text T\boldsymbol s=\lambda\boldsymbol s^\text TC^{-1}\boldsymbol s\\ &\Rightarrow &\lambda&=\frac{1}{\boldsymbol s^\text TC^{-1}\boldsymbol s}\\ &\Rightarrow &\boldsymbol\alpha&=\frac{C^{-1}\boldsymbol s}{\boldsymbol s^\text TC^{-1}\boldsymbol s} \end{aligned} \]

这样, 我们找到了基于数据的, 线性情况下的最好估计, 即 \(\hat\theta_{ERM}\), 也是 BLUE

でも! 现在的讨论还仅仅局限在一维. 当 \(\boldsymbol\theta\in\mathbb R^m\) 时呢?

首先要解决的问题是, 此时什么叫最优? 根据之前的经验, 应该引入协方差矩阵作差看正定性. 不过这样, 上面的求导等步骤就完全失效了. 于是引入一个新策略. 想必该策略一定是富有启发性的!

先重新思索 "什么是最优".

Lemma 1.1: 对\(\hat\theta\in\mathbb R^1\)\(E(\hat\theta)=\theta\), 有: \(\hat\theta\) is MVUE \(\Leftrightarrow\)\(\forall u\in\mathbb R^1,\ E(u)=0\), 有 \(\text{Cov}(u,\hat\theta)=0\)

Proof:

​ 先证 "\(\Rightarrow\)": 对 \(\hat\theta_1=\hat\theta+\lambda u,\ E(\hat\theta_1)=\theta\). 由于 \(\hat\theta\) 是 MUVE, 则:

\[ \begin{aligned} \text{MSE}(\hat\theta)&\leq \text{MSE}(\hat\theta_1)\\ &=\text{Var}(\hat\theta+\lambda u)\\ &=\text{MSE}(\hat\theta)+\lambda^2\text{Var}(u)+2\lambda\ \text{Cov}(\hat\theta,u) \end{aligned} \]

​ 那么, 对于 \(\forall\lambda\), \(\lambda^2\text{Var}(u)+2\lambda\ \text{Cov}(\hat\theta,u)\) 必须恒 \(\geq\)0. 把它当成二次曲线看, 容易发现, \(\text{Cov}(\hat\theta,u)\) 必须等于 0.

​ 再证 "\(\Leftarrow\)": \(\forall \hat\theta_1\), 且 \(E(\hat\theta_1)=\theta\),

\[ \begin{aligned} \text{MSE}(\hat\theta_1)&=\text{Var}(\hat\theta_1-\hat\theta+\hat\theta)\\ &=\text{Var}(\hat\theta)+\text{Var}(\hat\theta_1-\hat\theta)+\text{Cov}(\hat\theta,\hat\theta_1-\hat\theta)\\ &=\text{MSE}(\hat\theta)+\text{Var}(\hat\theta_1-\hat\theta)+0 \end{aligned} \]

​ 显然, 对 \(\forall\hat\theta_1\), \(\text{MSE}(\hat\theta_1)\leq \text{MSE}(\hat\theta)\), 即 \(\hat\theta\) 是 MVUE.

将上述结论推广至 \(m\) 维.

Lemma 1.2: 对\(\boldsymbol{\hat\theta}\in\mathbb R^m\)\(E(\boldsymbol{\hat\theta})=\boldsymbol\theta\), 有: \(\boldsymbol{\hat\theta}\) is MVUE \(\Leftrightarrow\)\(\forall \boldsymbol U\in\mathbb R^m,\ E(\boldsymbol U)=\boldsymbol 0\), 有 \(\text{Cov}(\boldsymbol U,\boldsymbol{\hat\theta})=0\)

它的证明用到了下述结论:

Lemma 2: \(\boldsymbol\theta(\theta_1,\cdots,\theta_m)^\text{T}\in \mathbb R^m,\ \boldsymbol{\hat\theta}(\hat\theta_1,\cdots,\hat\theta_m)\), \(\forall k, \hat\theta_k\) is MVUE of \(\theta_k\ \Rightarrow \hat\theta\) is MVUE

Proof:

​ 只需证 \(\forall\boldsymbol{\hat\theta}^\prime(\hat\theta^\prime_1,\cdots,\hat\theta^\prime_m)\in\mathbb R^m\), \(\forall \boldsymbol\alpha\in\mathbb R^m\) , 有 \(\boldsymbol\alpha^\text{T}(C_\boldsymbol{\hat\theta}-C_{\boldsymbol{\hat\theta^\prime}})\boldsymbol\alpha\leq0\).

\[ \begin{aligned} \boldsymbol\alpha^\text{T}C_{\boldsymbol{\hat\theta}}\boldsymbol\alpha &=\boldsymbol\alpha^\text{T}E(\boldsymbol{\hat\theta}-\boldsymbol{\theta})(\boldsymbol{\hat\theta}-\boldsymbol{\theta})^\text{T}\boldsymbol\alpha\\ &=E(\boldsymbol\alpha^\text{T}(\boldsymbol{\hat\theta}-\boldsymbol{\theta})(\boldsymbol{\hat\theta}-\boldsymbol{\theta})^\text{T}\boldsymbol\alpha)\\ &=E(\boldsymbol\alpha^\text{T}(\boldsymbol{\hat\theta}-\boldsymbol{\theta}))^2\\ &=E(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}-\boldsymbol\alpha^\text{T}\boldsymbol{\theta})^2\\ &=E(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}-E(\boldsymbol{\boldsymbol\alpha^\text{T}\hat\theta}))^2\\ &=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}) \end{aligned} \]

​ 同理, \(\boldsymbol\alpha^\text{T}C_{\boldsymbol{\hat\theta}^\prime}\boldsymbol\alpha=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}^\prime)\). 那么 \(\boldsymbol\alpha^\text{T}(C_\boldsymbol{\hat\theta}-C_{\boldsymbol{\hat\theta^\prime}})\boldsymbol\alpha=\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta})-\text{MSE}(\boldsymbol\alpha^\text{T}\boldsymbol{\hat\theta}^\prime)\leq 0\)

这样, 采取逐个击破的思路, 容易证明 \(m\) 维时的 Lemma 1 仍是正确的.

接下来, 终于可以进一步探索了:

对于数据 \(\boldsymbol X=(X_1,\cdots,X_m)^\text{T}\), 设 \(\boldsymbol{\hat\theta}(\boldsymbol X)=B\boldsymbol{X},\ B\in\mathbb R^{m\times n}\), \(\boldsymbol X=A\boldsymbol\theta+\boldsymbol\epsilon\), 其中 \(\boldsymbol\epsilon\) 为震荡, \(E(\boldsymbol\epsilon)=0\)

\[ \begin{aligned} &\boldsymbol\theta=E(\boldsymbol{\hat\theta})=E(B\boldsymbol X)=BE(\boldsymbol X)=BA\boldsymbol\theta\\ \Rightarrow\quad & BA=I \end{aligned} \]

接下来, 引入任意的 \(\boldsymbol U=C\boldsymbol X\), 且满足 \(E(\boldsymbol U)=0\). 则 \(E(\boldsymbol U)=CE(\boldsymbol X)=CA\boldsymbol\theta\equiv\boldsymbol{0}\Rightarrow CA=\boldsymbol{0}\)

这也就意味着 \(C\) 的每个行矢量都正交于 \(A\) 的列矢量, 即 \(C\) 的行空间正交于 \(A\) 的列空间. 那么就有 \(C^\text{T}\subseteq(\text{span}(A))^{\perp}\). 其中, \((\text{span}(A))^{\perp}\) 是指 \(A\) 张成空间的正交空间. (张成空间一般都是说列向量张成的空间.)

为了方便, 记 \(D=C^\text{T}\), \(E=(\text{span}(A))^\perp\), 则 \(C=D^\text{T}=(E\cdot F)^\text{T}=F^\text{T}E^\text{T}\). 即 \(U=F^\text{T}E^\text{T}\boldsymbol X\). 于是,

\[ \begin{aligned} \text{Cov}(\boldsymbol{\hat\theta},\boldsymbol U) &=\mathrm{Cov}(B\boldsymbol X,F^\text{T}E^\text{T}\boldsymbol X)\\ &=E([B\boldsymbol X-BE(\boldsymbol X)][F^\text{T}E^\text{T}\boldsymbol X-F^\text{T}E^\text{T}E(\boldsymbol X)])\\ &=E(B[\boldsymbol X-E(\boldsymbol X)]F^\text{T}E^\text{T}[\boldsymbol X-E(\boldsymbol X)])\\ &=E(B[\boldsymbol X-E(\boldsymbol X)][\boldsymbol X-E(\boldsymbol X)]^{\text T}EF)\\ &=E(B\boldsymbol\epsilon\boldsymbol\epsilon^\text TEF) \end{aligned} \]

如果是最简单的情况, \(\boldsymbol\epsilon\boldsymbol\epsilon^\text T=\sigma^2 I\) , 那么:

\[ 0\equiv\text{Cov}(\boldsymbol{\hat\theta},\boldsymbol U)=\sigma^2E(BEF) \]

其中, \(B\)\(\boldsymbol{\hat\theta}\) 有关; \(E\)\(A\) 有关, 从而与 $\boldsymbol\theta $ 有关; 而 \(F\) 是用来表达 \(C\) 的, 与任意给定的 \(\boldsymbol U\) 有关, 这意味着 \(F\) 也是任意的. 于是, 上式可以表述为, 对于任意的 \(F\), \(BEF=0\), 从而: \(BE=0\)

\[ \Rightarrow B^\mathrm{T}\subseteq (\mathrm{span}(E))^\perp=\mathrm{span}(A)\Rightarrow B^\text T=AH^\text T\Rightarrow B=HA^\text T \]

又因为 \(BA=I\), 则:

\[ \begin{aligned} &A^{-1}=HA^\text T\\ \Rightarrow \quad & H=A^{-1}(A^\text T)^{-1}=(A^\text TA)^{-1}\\ \Rightarrow \quad & B=HA^\text T=(A^\text TA)^{-1}A^\text T\\ \Rightarrow \quad & \boldsymbol{\hat\theta}(\boldsymbol X)=B\boldsymbol{X}=(A^\text TA)^{-1}A^\text T\boldsymbol{X} \end{aligned} \]

这就是大名鼎鼎的最小二乘 (Least Square). 而最小二乘解就是 BLUE. 该定理称为 Gauss-Markov 定理.

另外, 即使 \(\boldsymbol\epsilon\boldsymbol\epsilon^\text T\) 不是简单的 \(\sigma^2 I\) 也毫无关系, 只要令 \(B^\prime=B\boldsymbol\epsilon\boldsymbol\epsilon^\text T\), 后面发生的事都一样.

该证明由 Rao 给出. 最具亮点的思路是将协方差矩阵等于 0 与矩阵相乘得 0 而产生的几何直觉联系起来, 从而借助协方差矩阵为 0 的条件得出若干矩阵之间的关系, 进而将这些矩阵所关联的向量联系起来.

补充说明, 不要把这里的 \(\boldsymbol X\)\(y=kx+b\)\(x\) 当成一码事了. 我们从机器学习的角度去看, 矩阵 \(A\) 是我们的 input, 向量 \(\boldsymbol X\) 是output, 这样就好理解了!