\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Multivariate Correlation
相关给出了两个随机变量的线性关联, 今天我们考察多个随机变量的线性关联. 对于一个随机向量 \(\bf{X}=(\bsX_1,\cdots,\bsX_n)^\T\). 我们很难直接获取其联合分布, 因此需要从别的角度切入, 即本节重点关注的相关矩阵 (Correlation Matrix).
我们这样定义相关矩阵:
\[
\begin{aligned}
\bf{R}_\bf{X} &= E(\bf{X}\bf{X}^\T)\\
\bf{R}_\bf{X}(i,j) &= E(\bsX_i\bsX_j)
\end{aligned}
\]
De-correlation (Whitening)
我们希望能够对 \(\bf{X}\) 作一个线性处理, 使其去相关化/白化. 即:
\[
\text{find}\ \bf{A}\in\R^{n\times n},\ \bf{Y}=\bf{A}\bf{X}\in\R^n,\ E(\bs{Y}_i\bs{Y}_j)=0,\ \forall i\neq j\Rightarrow \bf{R}_\bf{Y}=\text{Diag}
\]
不过这似乎很难做到, 因为方程 \(E(\bs{Y}_i\bs{Y}_j)=0\) 有 \(n(n-1)/2\) 个, 但 \(\bf{A}\) 中的未知数有 \(n^2\) 个. 不过呢, 我们总可以利用线性代数知识进一步处理一下:
\[
\bf{R}_\bf{Y}= E(\bf{AX})(\bf{AX})^\T=\bf{A}E(\bf{XX}^\T)\bf{A}^\T
=\bf{A}\bf{R}_{\bf{X}}\bf{A}^\T
\]
既然 \(\bf{R}_\bf{X}\) 是个正定对称矩阵, 那么它一定可以作这样的特征分解:
\[
\bf{R_X}=\bf{U\Lambda U}^\T
\]
其中, \(\bf{U}\) 是正交矩阵, \(\bf{UU}^\T=\bf{I}\); \(\bf{\Lambda}=\text{diag}(\lambda_1,\cdots,\lambda_n),\ \lambda\geq_k 0,\ \forall k\). 这样一来, 只需要取
\[
\bf{A}=\bf{U}^\T
\]
Principal Componant Analysis (PCA)
Let \(\bs\alpha\in\R^n\), 希望使得 input \(\bf{X}\) 在 \(\bs\alpha\) 方向上投影的方差最大, 即: \(\underset{\bs\alpha}{\max}E||\text{Proj}_\bs\alpha\bf{X}||^2\).
\[
\begin{aligned}
\underset{\bs\alpha}{\max}E||\text{Proj}_\bs\alpha\bf{X}||^2
=\underset{\bs\alpha}{\max}
E\lr({\frac{\bs{\alpha}^\T}{||\bs\alpha||}\cdot\bf{X}})^2
\end{aligned}
\]
很自然地, 可以让 \(||\bs\alpha||=1\). 又:
\[
E(\bs\alpha^\T\bf{X})^2=E(\bs\alpha^\T\bf{X})(\bf{X^\T}\bs\alpha)=
\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha
\]
因此原问题转化为, 在 \(||\bs\alpha||=1\) 条件下,
\[
\underset{\bs\alpha}\max\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha
\]
用 Lagrange 好解决:
$$
\begin{aligned}
L(\bs\alpha,\lambda)&=\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha-\lambda(||\bs\alpha||^2-1)\
\nabla_\bs\alpha L(\bs\alpha,\lambda)&=2\cdot\bf{R}\bf{X}\bs\alpha-2\lambda\bs\alpha=0\
\Rightarrow\ \bf{R}\bf{X}\bs\alpha&=\lambda\bs\alpha
\end{aligned}
$$
因此, \(\bs\alpha\) 就是 \(\bf{R_X}\) 的做特征分解得到的特征向量. 进一步讲, \(\bs\alpha\) 应当取对应特征值最大的特征向量. 因为
\[
\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha=\lambda\bs\alpha^\T\bs\alpha=\lambda
\]
不过我们做 PCA 经常不只找一个方向, 因此还要找与之正交的其他方向. 好在根据线性代数的知识, \(\bf{R}_\bf{X}\) 作为正定对称矩阵, 其特征向量都是正交的.
有趣的是, 可以验证, 特征向量与 input 的夹角与相关性无关. 直觉上, 该夹角应当和 input 的方差有关. 形象来讲, 方差影响 "纺锤" 旋转的角度, 相关决定 "纺锤" 的胖瘦.
Karhunen–Loève Theorem: Biorthogonal Expansion
我们将在这里引出随机过程做谱分析的第二条路. 还记得随机过程做谱分析有什么困难吗? 对喽, 就是积分收敛问题. 我们换个角度来解决这件事.
首先, 考察先前去噪声化的结果
\[
\bf{Y}=\bf{A}\bf{X},\quad \text{where}\ \bf{A}=\bf{U}^\T
\]
可以得到:
\[
\bf{X}=\bf{U}\bf{Y}=\sum_{k=1}^{n}U_k\bs{Y}_k
\]
其中, \(\{U_k\}\) 是正交的; \(\{\bs{Y}_k\}\) 由于是去噪声的, 也是正交的. 因此这是个优雅的 Biorthogonal Expansion. 这里的 \(\{U_k\}\) 作为 n 维线性空间中的 "基", 代表随机过程在 "Process" 层面上的正交性; 而 \(\{\bs{Y}_k\}\) 则为基的系数, 代表着在 "Stochastic" 层面上的正交性. 随机性与过程性的解耦, 将非常有利于将复杂的随机过程拆开来分析.
接下来, 考虑随机过程 \(\bsX(t)\), 仿照刚才的展开, 可以这样写:
\[
\bs{X}(t)=\sumfy{k}\bs\alpha_k\phi_k(t)
\]
对于 Fourier 展开, 尽管基是正交的, 但系数不一定正交. 我们希望找到一种能实现双正交性的展开. 也即, 找到怎样的一组正交基 ${\phi_k(t)} $, 使得其对应的系数是正交的. 即, 我们约束定义在区间 \(I\) 上的一组的 \(\{\phi_k\}\), 满足:
\[
\begin{aligned}
\int_I \phi_k(t)\ \rmd t&=1\\
\int_I \phi_i(t)\phi_j(t)\ \rmd t&=0\quad \forall i\neq j
\end{aligned}
\]
并且
\[
\bs\alpha_k=\int_I \bsX(t)\phi_k(t)\ \rmd t,\quad E(\bs{\alpha}_i\bs{\alpha}_j)=0,\ \forall i\neq j
\]
为了找到满足条件的正交基, 我们先把 \(E(\bs{\alpha}_i\bs{\alpha}_j)\) 展开:
\[
\begin{aligned}
E(\bs{\alpha}_i\bs{\alpha}_j)=&\ E\lr({\int_I \bsX(t)\phi_i(t)\ \rmd t\cdot \int_I \bsX(s)\phi_j(s)\ \rmd s})\\
=&\ \int_I\int_I E(\bsX(t)\bsX(s))\phi_i(t)\phi_j(s)\ \rmd t\rmd s\\
=&\ \int_I\int_I R_\bsX(t,s)\phi_i(t)\phi_j(s)\ \rmd t\rmd s
\end{aligned}
\]
到这里, 处理起来似乎有点困难. 我们需要借助一些非常规手段, 考察一个形式上对应的离散情况:
\[
\sumfy{m}\sumfy{n}\bf{R}_\bf{X}(m,n)\phi_i(m)\phi_j(n)={\bs{\phi}_i}^\T\bf{R_X}\bs{\phi}_j
\]
这就转化成了线性代数的语言. 我们希望这个式子等于零. 而当 \(\{\bs{\phi}_k\}\) 为特征向量构成的集合时, 一切就明朗了:
\[
{\bs{\phi}_i}^\T\bf{R_X}\bs{\phi}_j={\bs{\phi}_i}^\T\cdot\lambda_j\bs{\phi}_j=\lambda_j\cdot{\bs{\phi}_i}^\T\bs{\phi}_j=0
\]
受此启发, 我们可以定义特征函数 / 本征函数 (eigenfunction):
\[
\int_I R_\bs{X}(t,s)\cdot\phi_i(s)\ \rmd s=\lambda_i\phi_i(t),\quad \forall\ i
\]
在笔记的结尾, 我们将证明在该定义下, 对称函数的特征函数相互正交, 就如同线性代数中那样. 现在我们直接使用该结论.
接下来, 我们将验证, 对宽平稳的随机过程 \(\bsX(t)\) 而言, 若相关函数还满足 \(R_\bs{X}(\tau)=R_\bsX(\tau+T)\), 那么 \(R_\bsX(\tau)\) 的特征函数就是
\[
\phi_k(t)=\exp\lr({\rmj\omega_kt}),\quad \omega_k=\frac{2\pi k}{T}
\]
设积分区间 \(I=[-\frac{T}{2},\frac{T}{2}]\),
\[
\begin{aligned}
&\int_{-\frac{T}{2}}^{\frac{T}{2}}R_\bsX(t-s)\cdot\exp\lr({\rmj\omega_ks})\ \rmd s\\
=&\int_{t-\frac{T}{2}}^{t+\frac{T}{2}}R_\bsX(s^\prime)
\cdot \exp(\rmj\omega_ks^\prime)\cdot\exp(\rmj\omega_kt)\ \rmd s\\
=&\lr({\int_{-\frac{T}{2}}^{\frac{T}{2}}R_\bsX(s^\prime)
\cdot \exp(-\rmj\omega_ks^\prime)\ \rmd s^\prime})\cdot\exp(\rmj\omega_kt)\\
=&\ \lambda_k\cdot\phi_k(t)
\end{aligned}
\]
因为括号内是个定积分嘛, 自然就是个常数, 因此得证. 此时,
\[
\bs{X}(t)=\sumfy{k}\bs\alpha_k\phi_k(t)
\]
就对应着 Fourier Expansion. 即, 若随机过程 \(\bsX(t)\) 是宽平稳的, 并且相关函数是以 \(T\) 为周期的周期函数, \(R_\bs{X}(\tau)=R_\bsX(\tau+T)\), 那么 \(\bsX(t)\) 的傅里叶展开就是双正交的.
Spectral Representation of Stochastic Process
然而这样的结论并不能满足我们的胃口, 我们希望将周期函数的限制去掉, 即 \(\T\to+\infty\), 这就又迎来了绝对可积性的老问题. 因此, 我们在这里提供规避绝对可积的第二个方法: Stieltjes Integration.
\[
\bsX(t)=\intfy \bs\alpha(\omega)\exp(\rmj\omega t)\ \rmd\omega\quad \to \quad
\bsX(t)=\intfy \exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega)
\]
我们称这个表达式为随机过程的谱表示 (Spectral Representation of Stochastic Process). 其中, 有的地方把 \(F_\bsX(\omega)\) 称为 谱函数, 并且它一定满足这样的性质:
\[
E(\rmd F_\bs{X}(\omega_i)\ \overline{\rmd F_\bs{X}(\omega_j)})=0,\quad \forall\ i\neq j
\]
在谱表示下, 计算相关函数:
\[
\begin{aligned}
R_\bsX(t,s)=&\ E(\bsX(t)\overline{\bsX(s)})\\
=&\ E\lr({\intfy\exp(\rmj\omega_i t)\ \rmd F_\bs{X}(\omega_i)
\cdot \overline{\intfy\exp(\rmj\omega_j s)\ \rmd F_\bs{X}(\omega_j})})\\
=&\ \intfy\intfy \exp(\rmj(\omega_i t-\omega_j s))\cdot
E\lr({\rmd F_\bs{X}(\omega_i)\ \overline{\rmd F_\bs{X}(\omega_j})})\\
=&\ \intfy \exp(\rmj\omega(t-s))\cdot E\big|\big|\rmd F_\bs{X}(\omega_i)\big|\big|^2
\end{aligned}
\]
这个形式, 让我想起一位故人:
\[
R_\bs{X}(\tau)=\frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega\tau)\ \rmd\omega
\]
因此, 我们可以 (不严谨地) 得到:
\[
E\big|\big|\rmd F_\bs{X}(\omega)\big|\big|^2=\frac{1}{2\pi}S_\bsX(\omega)\ \rmd\omega
\]
这样, 我们再重新考察信号经过线性系统后的结果:
\[
\begin{aligned}
\bs{Y}(t)=&\intfy h(t-\tau)\bsX(\tau)\ \rmd\tau\\
=&\intfy h(t-\tau)\lr({\intfy \exp(\rmj\omega \tau)\ \rmd F_\bs{X}(\omega)})\ \rmd\tau\\
=&\intfy\lr({\intfy h(t-\tau)\exp(\rmj\omega \tau)\ \rmd\tau})\rmd F_\bs{X}(\omega)\\
=&\intfy\lr({\intfy h(\tau^\prime)\exp(-\rmj\omega \tau^\prime)\ \rmd \tau})
\exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega)\\
=&\intfy H(\omega)\exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega)
\end{aligned}
\]
又因为 \(\bs{Y}(t)\) 也有 Stieltjes Integration 的形式,
\[
\bs{Y}(t)=\intfy\exp(\rmj\omega t)\ \rmd F_\bs{Y}(\omega)
\]
上下比对, 我们又可以 (不严谨地) 得到:
\[
\rmd F_\bs{Y}(\omega)=H(\omega)\rmd F_\bs{X}(\omega)
\]
两边取模平方再取期望, 就有:
\[
\begin{aligned}
E\big|\big|\rmd F_\bs{Y}(\omega)\big|\big|^2&=
\big|\big|H(\omega)\big|\big|^2\cdot E\big|\big|\rmd F_\bs{X}(\omega)\big|\big|^2\\
\Leftrightarrow\quad\quad\quad S_\bs{Y}(\omega)&=\big|\big|H(\omega)\big|\big|^2\cdot S_\bs{X}(\omega)
\end{aligned}
\]
因此, 我们从谱表示的角度又得到了先前的结果.
等距同构
设宽平稳随机过程 \(\bsX(t)\) 定义于线性空间 \(H_1\), \(\exp(\rmj\omega t)\) 定义于线性空间 \(H_2\). \(\bsX(t)\) 和 \(\exp(\rmj\omega t)\) 在以下的距离定义下等距同构:
\[
\begin{aligned}
d_{H_1}(\bsX(t),\bsX(s))&\overset{def}=E\big|\big|\bsX(t)-\bsX(s)\big|\big|^2_{H_1}\\
d_{H_2}(\exp(\rmj\omega t),\exp(\rmj\omega s))&\overset{def}=\frac{1}{2\pi}\intfy S_\bsX(\omega)\big|\big|\exp(\rmj\omega t)-\exp(\rmj\omega s)\big|\big|^2_{H_2}\ \rmd\omega
\end{aligned}
\]
接下来证明这两个距离相等:
\[
\begin{aligned}
d_{H_1}(\bsX(t),\bsX(s))=&E\big|\big|\bsX(t)-\bsX(s)\big|\big|^2_{H_1}\\
=&\ 2R_\bsX(0)-2R_\bsX(t-s)\\
=&\ 2\cdot\frac{1}{2\pi}\lr({\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega\cdot0)\ \rmd\omega-
\frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega(t-s))\ \rmd\omega})\\
=&\ \frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\lr({2-2\exp[\rmj\omega(t-s)]})\ \rmd\omega\\
=&\ \frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)
\big|\big|\exp(\rmj\omega t)-\exp(\rmj\omega s)\big|\big|^2_{H_2}\ \rmd\omega\\
=&\ d_{H_2}(\exp(\rmj\omega t),\exp(\rmj\omega s))
\end{aligned}
\]
事实上, 还是要证明一下同构的, 不过暂且先不管了.