\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Orthogonalization 正交化
正交性原理 Principle of Orthogonality
两个随机向量的相关性, 可以用内积刻画.
首先定义线性空间 \(H\) 上的内积: 对于运算
\[
H\times H\to \mathbb R:\langle\cdot,\cdot\rangle
\]
若满足:
- \(\langle\boldsymbol z,\boldsymbol z\rangle=0,\ \forall\boldsymbol z\in H,\) 有 \(\langle\boldsymbol z,\boldsymbol z\rangle=0\Rightarrow \boldsymbol z=\boldsymbol 0\).
- \(\langle\boldsymbol z,\boldsymbol w\rangle = \langle\boldsymbol w,\boldsymbol z\rangle,\ \forall \boldsymbol z,\boldsymbol w\in H\)
- Bilinear: \(\langle\alpha\boldsymbol z_1+\beta\boldsymbol z_2,\boldsymbol w\rangle=\alpha\langle\boldsymbol z_1,\boldsymbol w\rangle+\beta\langle\boldsymbol z_2,\boldsymbol w\rangle\); \(\langle\boldsymbol z,\alpha\boldsymbol w_1+\beta\boldsymbol w_2\rangle=\alpha\langle\boldsymbol z,\boldsymbol w_1\rangle+\beta\langle\boldsymbol z,\boldsymbol w_2\rangle\)
则称 \(\langle\cdot,\cdot\rangle\) 为线性空间上的内积.
有意思的是, 相关性计算也可以看作是线性空间上的内积. 对于 \(\forall \boldsymbol z,\boldsymbol w\in H\), \(\langle \boldsymbol z,\boldsymbol w \rangle =E(\boldsymbol z\boldsymbol w)\)
- \(\langle\boldsymbol z,\boldsymbol z\rangle=E(\boldsymbol z^2).\) 且 \(E(\boldsymbol z^2)=0\Rightarrow P(\boldsymbol z=0)=1\)
- \(E(\boldsymbol z\boldsymbol w)=E(\boldsymbol w\boldsymbol z)\)
- 双线性懒得写了, 反正成立的.
由内积, 我们可以定义出两个向量之间的角度. 因此, 我们还可以从几何的角度观察随机变量.
\[
\cos \langle \boldsymbol z,\boldsymbol w\rangle=\frac{\langle\boldsymbol z,\boldsymbol w\rangle}{||\boldsymbol z||\cdot||\boldsymbol w||}=\frac{E(\boldsymbol z\boldsymbol w)}{\sqrt{E(\boldsymbol z^2)E(\boldsymbol w^2)}}=\text{Cov}(\boldsymbol z,\boldsymbol w)
\]
Data \(\boldsymbol X=(X_1,\cdots,X_n)^\text T\overset{i.i.d}{\sim}f(X,\theta)\). 该向量的线性组合张成的线性空间设为 \(H\). 现在, 我们希望用 \(\boldsymbol X\) 线性估计一个随机变量 \(\boldsymbol Y\). 那么, 最优的估计显然是 \(\boldsymbol Y\) 在线性空间 \(H\) 中的投影.
\[
\hat{\boldsymbol Y}_{Opt}
=\text{Proj}_H \boldsymbol Y=||\boldsymbol Y||\cdot\cos\theta\cdot\frac{\boldsymbol X}{||\boldsymbol X||}
=\frac{\langle\boldsymbol Y,\boldsymbol X\rangle}{||\boldsymbol X||^2}\cdot\boldsymbol X
=\frac{E(\boldsymbol{XY})}{E\boldsymbol{X}^2}\cdot\boldsymbol{X}
\]
为了直观地理解该结果, 考虑一个简单的一维情况: \(Y=\alpha X\)
\[
\alpha_{opt}=\underset{\alpha}{\arg\min}\ E(Y-\alpha X)^2\Rightarrow E(X(Y-\alpha_{opt} X))=0\Rightarrow\alpha_{opt}=\frac{E(XY)}{E(X^2)}
\]
这与刚才得出的结果是一致的.
由此, 我们得到了 正交性原理, Principle of Orthogonality:
低维情况: 在线性空间 \(H\) 内, 估计目标 \(\boldsymbol Y\in\mathbb R^1\). \(\text{Proj}_H \boldsymbol Y=\underset{\boldsymbol z\in H}{\arg\min}||\boldsymbol Y-\boldsymbol z||\Leftrightarrow \langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle=0, \forall \boldsymbol z\in H\).
其中, 我们称 \(\boldsymbol Y-\text{Proj}_H \boldsymbol Y\) 为残差. 该定理用文字简单叙述则是: 线性估计最优, 当且仅当估计的残差垂直于数据张成的线性空间.
Proof:
"\(\Leftarrow\)": \(\forall \boldsymbol z\in H\), \(||\boldsymbol Y-\boldsymbol z||^2=||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2+||\text{Proj}_H \boldsymbol Y-\boldsymbol z||^2+2\langle \boldsymbol Y-\text{Proj}_H\boldsymbol Y,\text{Proj}_H\boldsymbol Y-\boldsymbol z\rangle\)
根据条件, 容易看出交叉项等于 0. 从而 \(\forall \boldsymbol z\in H\), \(||\boldsymbol Y-\boldsymbol z||^2\geq ||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2\).
"\(\Rightarrow\)": 反证. 假定存在 \(\boldsymbol z\in H,\ s.t.\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle\neq 0\). 那么, 计算向量
\[
||\boldsymbol Y-\text{Proj}_H \boldsymbol Y||\cdot\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol Y-\text{Proj}_H \boldsymbol Y||\cdot||\boldsymbol z||}\cdot \frac{\boldsymbol z}{||\boldsymbol z||}+\text{Proj}_H\boldsymbol Y
=\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}+\text{Proj}_H\boldsymbol Y
\]
与 \(\boldsymbol Y\) 的距离:
\[
\begin{aligned}
&\Bigg|\Bigg|\boldsymbol Y-\left(\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}+\text{Proj}_H\boldsymbol Y\right)\Bigg|\Bigg|^2
\\=&\Bigg|\Bigg|\left(\boldsymbol Y-\text{Proj}_H\boldsymbol Y\right)-\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\cdot {\boldsymbol z}\Bigg|\Bigg|^2
\\=&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2+\frac{||\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle||^2}{||\boldsymbol z||^2}-2\frac{\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle}{||\boldsymbol z||^2}\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle
\\=&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2-\frac{||\langle\boldsymbol Y-\text{Proj}_H \boldsymbol Y,\boldsymbol z\rangle||^2}{||\boldsymbol z||^2}
\\<&||\boldsymbol Y-\text{Proj}_H\boldsymbol Y||^2
\end{aligned}
\]
即, 我们找到了一个向量, 使得它到 \(\boldsymbol Y\) 的距离更小. 与条件矛盾.
高维时的正交性原理
当 \(\boldsymbol Y\) 是一维向量时,
Data \(\boldsymbol X=(X_1\cdots,X_n)^\text T\to \boldsymbol Y\in\mathbb R^{1}\).其中 \(\boldsymbol{X},\boldsymbol{Y}\) 都是随机变量. 设 \(\alpha\in\mathbb R^n\), 用 \(\alpha^\text{T}\boldsymbol X\to\boldsymbol Y\). 这等价于 \(\underset{\alpha}\min E(\boldsymbol Y-\boldsymbol\alpha^\text T\boldsymbol X)^2\)
\[
\begin{aligned}
&\nabla_\alpha E(\boldsymbol Y-\boldsymbol\alpha^\text T\boldsymbol X)^2\\
=&\nabla_\alpha E(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)^2\\
=&\nabla_\alpha E(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)^\text T(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)\\
=&\nabla_\alpha E(\boldsymbol Y^\text T-\boldsymbol \alpha^\text T\boldsymbol X)(\boldsymbol Y-\boldsymbol X^\text T\boldsymbol\alpha)\\
=&\nabla_\alpha E(\boldsymbol Y^\text{T}\boldsymbol Y-\boldsymbol Y^\text{T}\boldsymbol X^\text{T}\boldsymbol\alpha-\boldsymbol\alpha^\text{T}\boldsymbol X\boldsymbol Y+\boldsymbol\alpha^\text{T}\boldsymbol X\boldsymbol X^\text{T}\boldsymbol\alpha)\\
=&\nabla_\alpha (E\boldsymbol Y^2-E(\boldsymbol {YX})\boldsymbol\alpha-\boldsymbol\alpha^\text{T}E(\boldsymbol{XY})+\alpha^\text{T}E(\boldsymbol {XX}^\text{T})\boldsymbol\alpha)\\
=&-2E(\boldsymbol{XY})+2E(\boldsymbol{XX}^\text{T})\boldsymbol\alpha
\end{aligned}
\]
当梯度为 \(0\) 时,
\[
\boldsymbol\alpha=(E(\boldsymbol{XX}^\text{T}))^{-1}E(\boldsymbol{XY})=R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}}
\]
其中, \(R_{\boldsymbol{XY}}\) 指 \(\boldsymbol{X}\) 和 \(\boldsymbol{Y}\) 的相关矩阵.
若采样独立同分布, 则 \(R_{\boldsymbol{XX}}\) 显然是对角的:
\[
R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}}=
\begin{bmatrix}
EX_1^2 & & \\
& \ddots & \\
& & EX_n^2
\end{bmatrix}
\cdot
\begin{bmatrix}
E(X_1\boldsymbol{Y})\\
\vdots\\
E(X_n\boldsymbol{Y})
\end{bmatrix}=
\begin{bmatrix}
\frac{E(X_1\boldsymbol{Y})}{EX_1^2}\\
\vdots\\
\frac{E(X_n\boldsymbol{Y})}{EX_n^2}
\end{bmatrix}
\]
于是, 我们可以这样理解: 分母负责正交化, 分子负责算角度. 我们逼近 \(\boldsymbol Y\) 的方式就是利用由 \(\boldsymbol X\) 导出的一组正交基, 结合 \(\boldsymbol {X,Y}\) 之间的角度关系, 将 \(\boldsymbol Y\) 向各个正交基上作投影, 这样就得到了用 \(\boldsymbol X\) 表达 \(\boldsymbol Y\) 的方式.
用张真人的话说, 就是要把板凳拆成一堆元件, 再拼成一个桌子.
现在, 如果 \(\boldsymbol X_k\) 和 \(\boldsymbol Y\) 都是 \(m\) 维的,
\(\boldsymbol X\in\mathbb R^{m\times n}\). 还是用 \(\boldsymbol{X\alpha }\in\mathbb R^m\) 逼近 \(\boldsymbol Y\), 其中 \(\boldsymbol\alpha\in\mathbb R^n\). 那么,
\[
\begin{aligned}
&\nabla_\alpha E(\boldsymbol Y-\boldsymbol{X\alpha})^\text{T}(\boldsymbol Y-\boldsymbol{X\alpha}) \\
=&\nabla_\alpha E(\boldsymbol Y^\text{T}\boldsymbol Y
-\boldsymbol Y^\text{T}\boldsymbol X\boldsymbol\alpha
-\boldsymbol\alpha^\text{T}\boldsymbol X^\text{T}\boldsymbol Y
+\boldsymbol\alpha^\text{T}\boldsymbol X^\text{T}\boldsymbol X\boldsymbol\alpha)\\
=&2R_{\boldsymbol{XX}}-2R_{\boldsymbol{XY}}\\
\end{aligned}
\]
那么, 仍然有:
\[
\Rightarrow \boldsymbol\alpha=R_{\boldsymbol{XX}}^{-1}R_{\boldsymbol{XY}}
\]
其中, \(R_{\boldsymbol{XX}}=E(\boldsymbol{X^\text T X})\in\mathbb R^{n\times n},\
R_{\boldsymbol{XY}}=E(\boldsymbol{X^\text T Y})\in\mathbb R^{n}\)
接下来, 举个非常经典的例子看一下: 对于
\[
\boldsymbol Y=\boldsymbol {X\theta}+\boldsymbol n
\]
最好的线性估计
\[
\boldsymbol{\hat\theta}=(\boldsymbol{X^\text{T}X})^{-1}\boldsymbol{XY}
\]
比对一下, 发现完美契合刚才得出的结论. 因此, 最优线性估计的内涵, 完完全全就可以说是 "正交化", 分母负责正交化, 分子负责算角度.
在数字信号处理中, 该过程称为 Wiener Filtering, 维纳滤波. 且称如下方程为 Wiener-Hopf 方程:
\[
R_{\boldsymbol{XX}}\cdot\boldsymbol{\theta}=R_{\boldsymbol{XY}}
\]
连续时间上的正交化
将时间上连续的随机变量 \(X(t)\) 通过某个系统 \(H\) 逼近某个目标 \(Y(t)\). 估计以卷积的形式给出:
\[
\hat\theta(t)=\int_{-\infty}^{+\infty}h(t-\tau)X(\tau)\ d\tau
\]
现在, 希望让估计与目标的差距最小, 即
\[
\min_{h} E\left(Y(t)-\int_{-\infty}^{+\infty}h(t-\tau)X(\tau)\ d\tau\right)^2
\]
函数变成了自变量, 这就涉及泛函分析了. 这么复杂的问题似乎不是我一时半会儿能解决的. 但是! 刚才基于正交性的分析实际上足够给我们灵感了. 最优的函数 \(h\) 一定是满足正交性的: 残差与样本正交, 即是要考察
\[
\begin{aligned}
&E\left[\left(Y(t)-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)X(\tau)\ d\tau\right)X(s)\right],\ \forall s\in(-\infty,+\infty)\\
=& E[Y(t)X(s)]-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)E(X(\tau)X(s))\ d\tau\\
=& R_{YX}(t-s)-\int_{-\infty}^{+\infty}h_{opt}(t-\tau)R_{XX}(\tau-s)\ d\tau
\end{aligned}
\]
这里引入了一个随机过程中的概念. 平稳性: 若相关函数 \(R\) 与两个变量 \(\tau,s\) 都相关, 那么它只与 \(\tau-s\) 相关. 只有平稳的过程才能有效地在频域上进行描绘, 即计算功率.
设 \(\tau^\prime=\tau-s\), 则上式
\[
\begin{aligned}
=& R_{YX}(t-s)-\int_{-\infty}^{+\infty}h_{opt}(t-s-\tau^\prime)R_{XX}(\tau^\prime)\ d\tau^\prime\\
\end{aligned}
\]
当它因正交而等于 \(0\) 时,
\[
\Rightarrow R_{YX}(t-s)=(h_{opt}\ \star\ R_{XX})(t-s)
\]
时域上是卷积, 频域上就是乘法了:
\[
\begin{aligned}
S_{YX}(\omega)=H_{opt}(\omega)\cdot S_{XX}(\omega)\\
\Rightarrow H_{opt}=\frac{S_{YX}(\omega)}{S_{XX}(\omega)}
\end{aligned}
\]
又来了, 分母负责正交化, 分子负责算角度. 由此可见, 把握了正交性, 就把握了线性估计的本质.
因果的 Wiener 滤波
实际上, 上述讨论有一个 bug!
使用 \(\tau\) 积分时, 由于积分的上下限是 \((-\infty,+\infty)\). 这样, 对于任意一个固定的时间 \(t\), 在积分时都会出现 \(\tau > t\) 的情况, 即用尚未发生的事情刻画当下的事, 这在实践中是不可取的. 一般称之为 "非因果的", Non-Casual.
为了改善这个 bug, 积分的上下限应该改为 \((-\infty,t)\), 即 \(h(t-\tau)\) 中的自变量 \(t-\tau>0\) 然而卷积不能只做一半呀, 这就导致接下来的傅里叶变换也做不成了.
一个自然的想法是, 直接把忽视 bug 得到的结果取一半, 只取自变量大于 \(0\) 的部分. 然而这就要求, 该最优估计取出一部分仍然最优. 想到了什么? 正交性! 只要全局的正交性满足了, 局部的正交性也必然保证.
在数字信号处理中, 我们常常先将 \(X\)(t) 通过某个线性系统 \(H_1\) "洗白" 成白噪声 \(U(t)\), 再用 \(U(t)\) 通过线性系统 \(H_2\) 去逼近目标 \(Y(t)\). 不过要加上一个前提, 逼近 \(Y(t)\) 时, 线性系统 \(H_2\) 只取正的那一半! 可以记作 \([H_2]_+\).
白噪声的频谱密度是个常数, 不妨设为 \(1\), 那么就有:
\[
\begin{aligned}
S_{UU}(\omega) &=S_{XX}(\omega)\cdot|H_1(\omega)|^2=1\\
\Rightarrow |H_1(\omega)|^2 &=\frac{1}{S_{XX}(\omega)}
\end{aligned}
\]
假设 \(S_{XX}\) 是 有理谱, 即
\[
S_{XX}(\omega)=\frac{A(j\omega)}{B{(j\omega)}}
\]
然而, 这仍然不能唯一确定 \(H_1\), 除非 极小相位 的存在, 即零点和极点都在左半球. (解释起来很麻烦, 但这里就假定这些你都明白了! 毕竟这不是今天的主要内容)
总之, 这样, 我们能够进行一个谱分解:
\[
S_{XX}(\omega)=S_{XX}^+(\omega)S_{XX}^-({\omega})
\]
于是, 我们可以取
\[
H_1(\omega)=\frac{1}{S_{XX}^+(\omega)}
\]
接下来, 根据先前得到的结论, 最优的 \(H_2\) 应当满足
\[
H_2=\frac{S_{YU}(\omega)}{S_{UU}(\omega)}=S_{YU}(\omega)
\]
但是, 这个 \(S_{YU}(\omega)\) 还是很难算. 嗯, 这时候就需要一个妙手: 让 \(U(t)\) 先通过 \(H_3\) 导回 \(X(t)\), 再让 \(X(t)\) 先通过 \(H_4\) 到 \(Y(t)\). 则
\[
H_2=H_3\cdot H_4=(H_1)^{-1}\cdot\frac{S_{YX}(\omega)}{S_{XX}(\omega)}=\frac{S_{YX}(\omega)}{S_{XX}^-(\omega)}
\]
那么,
\[
H_1\cdot [H_2]_+=\frac{1}{S_{XX}^+(\omega)}\left[ \frac{S_{YX}(\omega)}{S_{XX}^-(\omega)}\right]_+
\]
可以看出, 如果把这个方括号去掉, 不做这个取正, 那就是因果的结果了. 神奇吧!
在各个条件下, 对正交性导出的结果进行总结
$$
{
\begin{aligned}
&\boldsymbol X\in \mathbb{R}^1, \boldsymbol Y\in \mathbb{R}^1,\boldsymbol\alpha\in \mathbb{R}^1
&\Rightarrow& &\boldsymbol\alpha&=\frac{E(XY)}{E(X^2)}\\
&\boldsymbol{X}\in \mathbb{R}^n, \boldsymbol Y\in \mathbb{R}^1,\boldsymbol\alpha\in \mathbb{R}^n
&\Rightarrow& &\boldsymbol\alpha&=R_{\boldsymbol{XX}}^{-1}\cdot R_{\boldsymbol{XY}}\\
&\boldsymbol{X}\in \mathbb{R}^{m\times n}, \boldsymbol Y\in \mathbb{R}^n,\boldsymbol\alpha
\in\mathbb{R}^n &\Rightarrow& &\boldsymbol\alpha&=R_{\boldsymbol{XX}}^{-1}\cdot R_{\boldsymbol{XY}}\\
&\boldsymbol{Y}=\boldsymbol{X}\boldsymbol\theta+\boldsymbol{n}
&\Rightarrow& &\boldsymbol{\hat\theta}&=(\boldsymbol{X^\text{T}X})^{-1}\boldsymbol{XY}
\end{aligned}
}
\
H_{opt}=\frac{S_{YX}(\omega)}{S_{XX}(\omega)},\ non-casual\
{H_{opt}}=\frac{1}{S_{XX}^+(\omega)}\left[ \frac{S_{YX}(\omega)}{S_{XX}^-(\omega)}\right]_+,\ casual
$$
正交性使得线性估计残差最小, 从而最优. 我们已经从几何直观与种种例子说明.