\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Orthogonalization 正交化

正交性原理 Principle of Orthogonality

两个随机向量的相关性, 可以用内积刻画.

首先定义线性空间 $H$ 上的内积: 对于运算

\[ H\times H\to \mathbb R:\langle\cdot,\cdot\rangle \]

若满足:

$\langle\boldsymbol z,\boldsymbol z\rangle=0,\ \forall\boldsymbol z\in H,$ 有 $\langle\boldsymbol z,\boldsymbol z\rangle=0\Rightarrow \boldsymbol z=\boldsymbol 0$.
$\langle\boldsymbol z,\boldsymbol w\rangle = \langle\boldsymbol w,\boldsymbol z\rangle,\ \forall \boldsymbol z,\boldsymbol w\in H$
Bilinear: $\langle\alpha\boldsymbol z_1+\beta\boldsymbol z_2,\boldsymbol w\rangle=\alpha\langle\boldsymbol z_1,\boldsymbol w\rangle+\beta\langle\boldsymbol z_2,\boldsymbol w\rangle$; $\langle\boldsymbol z,\alpha\boldsymbol w_1+\beta\boldsymbol w_2\rangle=\alpha\langle\boldsymbol z,\boldsymbol w_1\rangle+\beta\langle\boldsymbol z,\boldsymbol w_2\rangle$

则称 $\langle\cdot,\cdot\rangle$ 为线性空间上的内积.

有意思的是, 相关性计算也可以看作是线性空间上的内积. 对于 $\forall \boldsymbol z,\boldsymbol w\in H$, $\langle \boldsymbol z,\boldsymbol w \rangle =E(\boldsymbol z\boldsymbol w)$

$\langle\boldsymbol z,\boldsymbol z\rangle=E(\boldsymbol z^2).$ 且 $E(\boldsymbol z^2)=0\Rightarrow P(\boldsymbol z=0)=1$
$E(\boldsymbol z\boldsymbol w)=E(\boldsymbol w\boldsymbol z)$
双线性懒得写了, 反正成立的.

由内积, 我们可以定义出两个向量之间的角度. 因此, 我们还可以从几何的角度观察随机变量.

\[ \cos \langle \boldsymbol z,\boldsymbol w\rangle=\frac{\langle\boldsymbol z,\boldsymbol w\rangle}{||\boldsymbol z||\cdot||\boldsymbol w||}=\frac{E(\boldsymbol z\boldsymbol w)}{\sqrt{E(\boldsymbol z^2)E(\boldsymbol w^2)}}=\text{Cov}(\boldsymbol z,\boldsymbol w) \]

Data $\boldsymbol X=(X_1,\cdots,X_n)^\text T\overset{i.i.d}{\sim}f(X,\theta)$. 该向量的线性组合张成的线性空间设为 $H$. 现在, 我们希望用 $\boldsymbol X$ 线性估计一个随机变量 $\boldsymbol Y$. 那么, 最优的估计显然是 $\boldsymbol Y$ 在线性空间 $H$ 中的投影.

\[ \hat{\boldsymbol Y}_{Opt} =\text{Proj}_H \boldsymbol Y=||\boldsymbol Y||\cdot\cos\theta\cdot\frac{\boldsymbol X}{||\boldsymbol X||} =\frac{\langle\boldsymbol Y,\boldsymbol X\rangle}{||\boldsymbol X||^2}\cdot\boldsymbol X =\frac{E(\boldsymbol{XY})}{E\boldsymbol{X}^2}\cdot\boldsymbol{X} \]

为了直观地理解该结果, 考虑一个简单的一维情况: $Y=\alpha X$

\[ \alpha_{opt}=\underset{\alpha}{\arg\min}\ E(Y-\alpha X)^2\Rightarrow E(X(Y-\alpha_{opt} X))=0\Rightarrow\alpha_{opt}=\frac{E(XY)}{E(X^2)} \]

这与刚才得出的结果是一致的.

由此, 我们得到了 正交性原理, Principle of Orthogonality:

低维情况: 在线性空间 $H$ 内, 估计目标 $\boldsymbol Y\in\mathbb R^1$. $\text{Proj}_H \boldsymbol Y=\underset{\boldsymbol z\in H}{\arg\min}||\boldsymbol Y-\boldsymbol z||\Leftrightarrow \langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle=0, \forall \boldsymbol z\in H$.

其中, 我们称 $\boldsymbol Y-\text{Proj}_H \boldsymbol Y$ 为残差. 该定理用文字简单叙述则是: 线性估计最优, 当且仅当估计的残差垂直于数据张成的线性空间.

Proof:

"$\Leftarrow$": $\forall \boldsymbol z\in H$, $||\boldsymbol Y-\boldsymbol z||^2=||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2+||\text{Proj}_H \boldsymbol Y-\boldsymbol z||^2+2\langle \boldsymbol Y-\text{Proj}_H\boldsymbol Y,\text{Proj}_H\boldsymbol Y-\boldsymbol z\rangle$

根据条件, 容易看出交叉项等于 0. 从而 $\forall \boldsymbol z\in H$, $||\boldsymbol Y-\boldsymbol z||^2\geq ||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2$.

"$\Rightarrow$": 反证. 假定存在 $\boldsymbol z\in H,\ s.t.\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle\neq 0$. 那么, 计算向量

\[ ||\boldsymbol Y-\text{Proj}_H \boldsymbol Y||\cdot\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol Y-\text{Proj}_H \boldsymbol Y||\cdot||\boldsymbol z||}\cdot \frac{\boldsymbol z}{||\boldsymbol z||}+\text{Proj}_H\boldsymbol Y =\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}+\text{Proj}_H\boldsymbol Y \]

与 $\boldsymbol Y$ 的距离:

\[ \begin{aligned} &\Bigg|\Bigg|\boldsymbol Y-\left(\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}+\text{Proj}_H\boldsymbol Y\right)\Bigg|\Bigg|^2 \\=&\Bigg|\Bigg|\left(\boldsymbol Y-\text{Proj}_H\boldsymbol Y\right)-\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}\Bigg|\Bigg|^2 \\=&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2+\frac{||\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle||^2}{||\boldsymbol z||^2}-2\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle \\=&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2-\frac{||\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle||^2}{||\boldsymbol z||^2} \\<&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2 \end{aligned} \]

即, 我们找到了一个向量, 使得它到 $\boldsymbol Y$ 的距离更小. 与条件矛盾.

高维时的正交性原理

当 $\boldsymbol Y$ 是一维向量时,

Data $\boldsymbol X=(X_1\cdots,X_n)^\text T\to \boldsymbol Y\in\mathbb R^{1}$.其中 $\boldsymbol{X},\boldsymbol{Y}$ 都是随机变量. 设 $\alpha\in\mathbb R^n$, 用 $\alpha^\text{T}\boldsymbol X\to\boldsymbol Y$. 这等价于 $\underset{\alpha}\min E(\boldsymbol Y-\boldsymbol\alpha^\text T\boldsymbol X)^2$

\[ \begin{aligned} &\nabla_\alpha E(\boldsymbol Y-\boldsymbol\alpha^\text T\boldsymbol X)^2\\ =&\nabla_\alpha E(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)^2\\ =&\nabla_\alpha E(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)^\text T(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)\\ =&\nabla_\alpha E(\boldsymbol Y^\text T-\boldsymbol \alpha^\text T\boldsymbol X)(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)\\ =&\nabla_\alpha E(\boldsymbol Y^\text{T}\boldsymbol Y-\boldsymbol Y^\text{T}\boldsymbol X^\text{T}\boldsymbol\alpha-\boldsymbol\alpha^\text{T}\boldsymbol X\boldsymbol Y+\boldsymbol\alpha^\text{T}\boldsymbol X\boldsymbol X^\text{T}\boldsymbol\alpha)\\ =&\nabla_\alpha (E\boldsymbol Y^2-E(\boldsymbol {YX})\boldsymbol\alpha-\boldsymbol\alpha^\text{T}E(\boldsymbol{XY})+\alpha^\text{T}E(\boldsymbol {XX}^\text{T})\boldsymbol\alpha)\\ =&-2E(\boldsymbol{XY})+2E(\boldsymbol{XX}^\text{T})\boldsymbol\alpha \end{aligned} \]

当梯度为 $0$ 时,

\[ \boldsymbol\alpha=(E(\boldsymbol{XX}^\text{T}))^{-1}E(\boldsymbol{XY})=R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}} \]

其中, $R_{\boldsymbol{XY}}$ 指 $\boldsymbol{X}$ 和 $\boldsymbol{Y}$ 的相关矩阵.

若采样独立同分布, 则 $R_{\boldsymbol{XX}}$ 显然是对角的:

\[ R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}}= \begin{bmatrix} EX_1^2 & & \\ & \ddots & \\ & & EX_n^2 \end{bmatrix} \cdot \begin{bmatrix} E(X_1\boldsymbol{Y})\\ \vdots\\ E(X_n\boldsymbol{Y}) \end{bmatrix}= \begin{bmatrix} \frac{E(X_1\boldsymbol{Y})}{EX_1^2}\\ \vdots\\ \frac{E(X_n\boldsymbol{Y})}{EX_n^2} \end{bmatrix} \]

于是, 我们可以这样理解: 分母负责正交化, 分子负责算角度. 我们逼近 $\boldsymbol Y$ 的方式就是利用由 $\boldsymbol X$ 导出的一组正交基, 结合 $\boldsymbol {X,Y}$ 之间的角度关系, 将 $\boldsymbol Y$ 向各个正交基上作投影, 这样就得到了用 $\boldsymbol X$ 表达 $\boldsymbol Y$ 的方式.

用张真人的话说, 就是要把板凳拆成一堆元件, 再拼成一个桌子.

现在, 如果 $\boldsymbol X_k$ 和 $\boldsymbol Y$ 都是 $m$ 维的,

$\boldsymbol X\in\mathbb R^{m\times n}$. 还是用 $\boldsymbol{X\alpha }\in\mathbb R^m$ 逼近 $\boldsymbol Y$, 其中 $\boldsymbol\alpha\in\mathbb R^n$. 那么,

\[ \begin{aligned} &\nabla_\alpha E(\boldsymbol Y-\boldsymbol{X\alpha})^\text{T}(\boldsymbol Y-\boldsymbol{X\alpha}) \\ =&\nabla_\alpha E(\boldsymbol Y^\text{T}\boldsymbol Y -\boldsymbol Y^\text{T}\boldsymbol X\boldsymbol\alpha -\boldsymbol\alpha^\text{T}\boldsymbol X^\text{T}\boldsymbol Y +\boldsymbol\alpha^\text{T}\boldsymbol X^\text{T}\boldsymbol X\boldsymbol\alpha)\\ =&2R_{\boldsymbol{XX}}-2R_{\boldsymbol{XY}}\\ \end{aligned} \]

那么, 仍然有:

\[ \Rightarrow \boldsymbol\alpha=R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}} \]

其中, $R_{\boldsymbol{XX}}=E(\boldsymbol{X^\text T X})\in\mathbb R^{n\times n},\ R_{\boldsymbol{XY}}=E(\boldsymbol{X^\text T Y})\in\mathbb R^{n}$

接下来, 举个非常经典的例子看一下: 对于

\[ \boldsymbol Y=\boldsymbol {X\theta}+\boldsymbol n \]

最好的线性估计

\[ \boldsymbol{\hat\theta}=(\boldsymbol{X^\text{T}X})^{-1}\boldsymbol{XY} \]

比对一下, 发现完美契合刚才得出的结论. 因此, 最优线性估计的内涵, 完完全全就可以说是 "正交化", 分母负责正交化, 分子负责算角度.

在数字信号处理中, 该过程称为 Wiener Filtering, 维纳滤波. 且称如下方程为 Wiener-Hopf 方程:

\[ R_{\boldsymbol{XX}}\cdot\boldsymbol{\theta}=R_{\boldsymbol{XY}} \]

连续时间上的正交化

将时间上连续的随机变量 $X(t)$ 通过某个系统 $H$ 逼近某个目标 $Y(t)$. 估计以卷积的形式给出:

\[ \hat\theta(t)=\int_{-\infty}^{+\infty}h(t-\tau)X(\tau)\ d\tau \]

现在, 希望让估计与目标的差距最小, 即

\[ \min_{h} E\left(Y(t)-\int_{-\infty}^{+\infty}h(t-\tau)X(\tau)\ d\tau\right)^2 \]

函数变成了自变量, 这就涉及泛函分析了. 这么复杂的问题似乎不是我一时半会儿能解决的. 但是! 刚才基于正交性的分析实际上足够给我们灵感了. 最优的函数 $h$ 一定是满足正交性的: 残差与样本正交, 即是要考察

\[ \begin{aligned} &E\left[\left(Y(t)-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)X(\tau)\ d\tau\right)X(s)\right],\ \forall s\in(-\infty,+\infty)\\ =& E[Y(t)X(s)]-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)E(X(\tau)X(s))\ d\tau\\ =& R_{YX}(t-s)-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)R_{XX}(\tau-s)\ d\tau \end{aligned} \]

这里引入了一个随机过程中的概念. 平稳性: 若相关函数 $R$ 与两个变量 $\tau,s$ 都相关, 那么它只与 $\tau-s$ 相关. 只有平稳的过程才能有效地在频域上进行描绘, 即计算功率.

设 $\tau^\prime=\tau-s$, 则上式

\[ \begin{aligned} =& R_{YX}(t-s)-\int_{-\infty}^{+\infty}h_{opt}(t-s-\tau^\prime)R_{XX}(\tau^\prime)\ d\tau^\prime\\ \end{aligned} \]

当它因正交而等于 $0$ 时,

\[ \Rightarrow R_{YX}(t-s)=(h_{opt}\ \star\ R_{XX})(t-s) \]

时域上是卷积, 频域上就是乘法了:

\[ \begin{aligned} S_{YX}(\omega)=H_{opt}(\omega)\cdot S_{XX}(\omega)\\ \Rightarrow H_{opt}=\frac{S_{YX}(\omega)}{S_{XX}(\omega)} \end{aligned} \]

又来了, 分母负责正交化, 分子负责算角度. 由此可见, 把握了正交性, 就把握了线性估计的本质.

因果的 Wiener 滤波

实际上, 上述讨论有一个 bug!

使用 $\tau$ 积分时, 由于积分的上下限是 $(-\infty,+\infty)$. 这样, 对于任意一个固定的时间 $t$, 在积分时都会出现 $\tau > t$ 的情况, 即用尚未发生的事情刻画当下的事, 这在实践中是不可取的. 一般称之为 "非因果的", Non-Casual.

为了改善这个 bug, 积分的上下限应该改为 $(-\infty,t)$, 即 $h(t-\tau)$ 中的自变量 $t-\tau>0$ 然而卷积不能只做一半呀, 这就导致接下来的傅里叶变换也做不成了.

一个自然的想法是, 直接把忽视 bug 得到的结果取一半, 只取自变量大于 $0$ 的部分. 然而这就要求, 该最优估计取出一部分仍然最优. 想到了什么? 正交性! 只要全局的正交性满足了, 局部的正交性也必然保证.

在数字信号处理中, 我们常常先将 $X$(t) 通过某个线性系统 $H_1$ "洗白" 成白噪声 $U(t)$, 再用 $U(t)$ 通过线性系统 $H_2$ 去逼近目标 $Y(t)$. 不过要加上一个前提, 逼近 $Y(t)$ 时, 线性系统 $H_2$ 只取正的那一半! 可以记作 $[H_2]_+$.

白噪声的频谱密度是个常数, 不妨设为 $1$, 那么就有:

\[ \begin{aligned} S_{UU}(\omega) &=S_{XX}(\omega)\cdot|H_1(\omega)|^2=1\\ \Rightarrow |H_1(\omega)|^2 &=\frac{1}{S_{XX}(\omega)} \end{aligned} \]

假设 $S_{XX}$ 是 有理谱, 即

\[ S_{XX}(\omega)=\frac{A(j\omega)}{B{(j\omega)}} \]

然而, 这仍然不能唯一确定 $H_1$, 除非 极小相位 的存在, 即零点和极点都在左半球. (解释起来很麻烦, 但这里就假定这些你都明白了! 毕竟这不是今天的主要内容)

总之, 这样, 我们能够进行一个谱分解:

\[ S_{XX}(\omega)=S_{XX}^+(\omega)S_{XX}^-({\omega}) \]

于是, 我们可以取

\[ H_1(\omega)=\frac{1}{S_{XX}^+(\omega)} \]

接下来, 根据先前得到的结论, 最优的 $H_2$ 应当满足

\[ H_2=\frac{S_{YU}(\omega)}{S_{UU}(\omega)}=S_{YU}(\omega) \]

但是, 这个 $S_{YU}(\omega)$ 还是很难算. 嗯, 这时候就需要一个妙手: 让 $U(t)$ 先通过 $H_3$ 导回 $X(t)$, 再让 $X(t)$ 先通过 $H_4$ 到 $Y(t)$. 则

\[ H_2=H_3\cdot H_4=(H_1)^{-1}\cdot\frac{S_{YX}(\omega)}{S_{XX}(\omega)}=\frac{S_{YX}(\omega)}{S_{XX}^-(\omega)} \]

那么,

\[ H_1\cdot [H_2]_+=\frac{1}{S_{XX}^+(\omega)}\left[ \frac{S_{YX}(\omega)}{S_{XX}^-(\omega)}\right]_+ \]

可以看出, 如果把这个方括号去掉, 不做这个取正, 那就是因果的结果了. 神奇吧!

在各个条件下, 对正交性导出的结果进行总结

$$ { \begin{aligned}

&\boldsymbol X\in \mathbb{R}^1, \boldsymbol Y\in \mathbb{R}^1,\boldsymbol\alpha\in \mathbb{R}^1 
&\Rightarrow& &\boldsymbol\alpha&=\frac{E(XY)}{E(X^2)}\\

&\boldsymbol{X}\in \mathbb{R}^n, \boldsymbol Y\in \mathbb{R}^1,\boldsymbol\alpha\in \mathbb{R}^n
&\Rightarrow& &\boldsymbol\alpha&=R_{\boldsymbol{XX}}^{-1}\cdot R_{\boldsymbol{XY}}\\

&\boldsymbol{X}\in \mathbb{R}^{m\times n}, \boldsymbol Y\in \mathbb{R}^n,\boldsymbol\alpha
\in\mathbb{R}^n &\Rightarrow& &\boldsymbol\alpha&=R_{\boldsymbol{XX}}^{-1}\cdot R_{\boldsymbol{XY}}\\

&\boldsymbol{Y}=\boldsymbol{X}\boldsymbol\theta+\boldsymbol{n}
&\Rightarrow& &\boldsymbol{\hat\theta}&=(\boldsymbol{X^\text{T}X})^{-1}\boldsymbol{XY}
\end{aligned}

}

\ H_{opt}=\frac{S_{YX}(\omega)}{S_{XX}(\omega)},\ non-casual\ {H_{opt}}=\frac{1}{S_{XX}^+(\omega)}\left[ \frac{S_{YX}(\omega)}{S_{XX}^-(\omega)}\right]_+,\ casual $$

正交性使得线性估计残差最小, 从而最优. 我们已经从几何直观与种种例子说明.