\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Multivariate Correlation

相关给出了两个随机变量的线性关联, 今天我们考察多个随机变量的线性关联. 对于一个随机向量 $\bf{X}=(\bsX_1,\cdots,\bsX_n)^\T$. 我们很难直接获取其联合分布, 因此需要从别的角度切入, 即本节重点关注的相关矩阵 (Correlation Matrix).

我们这样定义相关矩阵:

\[ \begin{aligned} \bf{R}_\bf{X} &= E(\bf{X}\bf{X}^\T)\\ \bf{R}_\bf{X}(i,j) &= E(\bsX_i\bsX_j) \end{aligned} \]

De-correlation (Whitening)

我们希望能够对 $\bf{X}$ 作一个线性处理, 使其去相关化/白化. 即:

\[ \text{find}\ \bf{A}\in\R^{n\times n},\ \bf{Y}=\bf{A}\bf{X}\in\R^n,\ E(\bs{Y}_i\bs{Y}_j)=0,\ \forall i\neq j\Rightarrow \bf{R}_\bf{Y}=\text{Diag} \]

不过这似乎很难做到, 因为方程 $E(\bs{Y}_i\bs{Y}_j)=0$ 有 $n(n-1)/2$ 个, 但 $\bf{A}$ 中的未知数有 $n^2$ 个. 不过呢, 我们总可以利用线性代数知识进一步处理一下:

\[ \bf{R}_\bf{Y}= E(\bf{AX})(\bf{AX})^\T=\bf{A}E(\bf{XX}^\T)\bf{A}^\T =\bf{A}\bf{R}_{\bf{X}}\bf{A}^\T \]

既然 $\bf{R}_\bf{X}$ 是个正定对称矩阵, 那么它一定可以作这样的特征分解:

\[ \bf{R_X}=\bf{U\Lambda U}^\T \]

其中, $\bf{U}$ 是正交矩阵, $\bf{UU}^\T=\bf{I}$; $\bf{\Lambda}=\text{diag}(\lambda_1,\cdots,\lambda_n),\ \lambda\geq_k 0,\ \forall k$. 这样一来, 只需要取

\[ \bf{A}=\bf{U}^\T \]

Principal Componant Analysis (PCA)

Let $\bs\alpha\in\R^n$, 希望使得 input $\bf{X}$ 在 $\bs\alpha$ 方向上投影的方差最大, 即: $\underset{\bs\alpha}{\max}E||\text{Proj}_\bs\alpha\bf{X}||^2$.

\[ \begin{aligned} \underset{\bs\alpha}{\max}E||\text{Proj}_\bs\alpha\bf{X}||^2 =\underset{\bs\alpha}{\max} E\lr({\frac{\bs{\alpha}^\T}{||\bs\alpha||}\cdot\bf{X}})^2 \end{aligned} \]

很自然地, 可以让 $||\bs\alpha||=1$. 又:

\[ E(\bs\alpha^\T\bf{X})^2=E(\bs\alpha^\T\bf{X})(\bf{X^\T}\bs\alpha)= \bs\alpha^\T\bf{R}_\bf{X}\bs\alpha \]

因此原问题转化为, 在 $||\bs\alpha||=1$ 条件下,

\[ \underset{\bs\alpha}\max\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha \]

用 Lagrange 好解决:

$$ \begin{aligned} L(\bs\alpha,\lambda)&=\bs\alpha^\T\bf{R}_\bf{X}\bs\alpha-\lambda(||\bs\alpha||^2-1)\

\nabla_\bs\alpha L(\bs\alpha,\lambda)&=2\cdot\bf{R}\bf{X}\bs\alpha-2\lambda\bs\alpha=0\ \Rightarrow\ \bf{R}\bf{X}\bs\alpha&=\lambda\bs\alpha \end{aligned} $$

因此, $\bs\alpha$ 就是 $\bf{R_X}$ 的做特征分解得到的特征向量. 进一步讲, $\bs\alpha$ 应当取对应特征值最大的特征向量. 因为

\[ \bs\alpha^\T\bf{R}_\bf{X}\bs\alpha=\lambda\bs\alpha^\T\bs\alpha=\lambda \]

不过我们做 PCA 经常不只找一个方向, 因此还要找与之正交的其他方向. 好在根据线性代数的知识, $\bf{R}_\bf{X}$ 作为正定对称矩阵, 其特征向量都是正交的.

有趣的是, 可以验证, 特征向量与 input 的夹角与相关性无关. 直觉上, 该夹角应当和 input 的方差有关. 形象来讲, 方差影响 "纺锤" 旋转的角度, 相关决定 "纺锤" 的胖瘦.

Karhunen–Loève Theorem: Biorthogonal Expansion

我们将在这里引出随机过程做谱分析的第二条路. 还记得随机过程做谱分析有什么困难吗? 对喽, 就是积分收敛问题. 我们换个角度来解决这件事.

首先, 考察先前去噪声化的结果

\[ \bf{Y}=\bf{A}\bf{X},\quad \text{where}\ \bf{A}=\bf{U}^\T \]

可以得到:

\[ \bf{X}=\bf{U}\bf{Y}=\sum_{k=1}^{n}U_k\bs{Y}_k \]

其中, $\{U_k\}$ 是正交的; $\{\bs{Y}_k\}$ 由于是去噪声的, 也是正交的. 因此这是个优雅的 Biorthogonal Expansion. 这里的 $\{U_k\}$ 作为 n 维线性空间中的 "基", 代表随机过程在 "Process" 层面上的正交性; 而 $\{\bs{Y}_k\}$ 则为基的系数, 代表着在 "Stochastic" 层面上的正交性. 随机性与过程性的解耦, 将非常有利于将复杂的随机过程拆开来分析.

接下来, 考虑随机过程 $\bsX(t)$, 仿照刚才的展开, 可以这样写:

\[ \bs{X}(t)=\sumfy{k}\bs\alpha_k\phi_k(t) \]

对于 Fourier 展开, 尽管基是正交的, 但系数不一定正交. 我们希望找到一种能实现双正交性的展开. 也即, 找到怎样的一组正交基 ${\phi_k(t)} $, 使得其对应的系数是正交的. 即, 我们约束定义在区间 $I$ 上的一组的 $\{\phi_k\}$, 满足:

\[ \begin{aligned} \int_I \phi_k(t)\ \rmd t&=1\\ \int_I \phi_i(t)\phi_j(t)\ \rmd t&=0\quad \forall i\neq j \end{aligned} \]

并且

\[ \bs\alpha_k=\int_I \bsX(t)\phi_k(t)\ \rmd t,\quad E(\bs{\alpha}_i\bs{\alpha}_j)=0,\ \forall i\neq j \]

为了找到满足条件的正交基, 我们先把 $E(\bs{\alpha}_i\bs{\alpha}_j)$ 展开:

\[ \begin{aligned} E(\bs{\alpha}_i\bs{\alpha}_j)=&\ E\lr({\int_I \bsX(t)\phi_i(t)\ \rmd t\cdot \int_I \bsX(s)\phi_j(s)\ \rmd s})\\ =&\ \int_I\int_I E(\bsX(t)\bsX(s))\phi_i(t)\phi_j(s)\ \rmd t\rmd s\\ =&\ \int_I\int_I R_\bsX(t,s)\phi_i(t)\phi_j(s)\ \rmd t\rmd s \end{aligned} \]

到这里, 处理起来似乎有点困难. 我们需要借助一些非常规手段, 考察一个形式上对应的离散情况:

\[ \sumfy{m}\sumfy{n}\bf{R}_\bf{X}(m,n)\phi_i(m)\phi_j(n)={\bs{\phi}_i}^\T\bf{R_X}\bs{\phi}_j \]

这就转化成了线性代数的语言. 我们希望这个式子等于零. 而当 $\{\bs{\phi}_k\}$ 为特征向量构成的集合时, 一切就明朗了:

\[ {\bs{\phi}_i}^\T\bf{R_X}\bs{\phi}_j={\bs{\phi}_i}^\T\cdot\lambda_j\bs{\phi}_j=\lambda_j\cdot{\bs{\phi}_i}^\T\bs{\phi}_j=0 \]

受此启发, 我们可以定义特征函数 / 本征函数 (eigenfunction):

\[ \int_I R_\bs{X}(t,s)\cdot\phi_i(s)\ \rmd s=\lambda_i\phi_i(t),\quad \forall\ i \]

在笔记的结尾, 我们将证明在该定义下, 对称函数的特征函数相互正交, 就如同线性代数中那样. 现在我们直接使用该结论.

接下来, 我们将验证, 对宽平稳的随机过程 $\bsX(t)$ 而言, 若相关函数还满足 $R_\bs{X}(\tau)=R_\bsX(\tau+T)$, 那么 $R_\bsX(\tau)$ 的特征函数就是

\[ \phi_k(t)=\exp\lr({\rmj\omega_kt}),\quad \omega_k=\frac{2\pi k}{T} \]

设积分区间 $I=[-\frac{T}{2},\frac{T}{2}]$,

\[ \begin{aligned} &\int_{-\frac{T}{2}}^{\frac{T}{2}}R_\bsX(t-s)\cdot\exp\lr({\rmj\omega_ks})\ \rmd s\\ =&\int_{t-\frac{T}{2}}^{t+\frac{T}{2}}R_\bsX(s^\prime) \cdot \exp(\rmj\omega_ks^\prime)\cdot\exp(\rmj\omega_kt)\ \rmd s\\ =&\lr({\int_{-\frac{T}{2}}^{\frac{T}{2}}R_\bsX(s^\prime) \cdot \exp(-\rmj\omega_ks^\prime)\ \rmd s^\prime})\cdot\exp(\rmj\omega_kt)\\ =&\ \lambda_k\cdot\phi_k(t) \end{aligned} \]

因为括号内是个定积分嘛, 自然就是个常数, 因此得证. 此时,

\[ \bs{X}(t)=\sumfy{k}\bs\alpha_k\phi_k(t) \]

就对应着 Fourier Expansion. 即, 若随机过程 $\bsX(t)$ 是宽平稳的, 并且相关函数是以 $T$ 为周期的周期函数, $R_\bs{X}(\tau)=R_\bsX(\tau+T)$, 那么 $\bsX(t)$ 的傅里叶展开就是双正交的.

Spectral Representation of Stochastic Process

然而这样的结论并不能满足我们的胃口, 我们希望将周期函数的限制去掉, 即 $\T\to+\infty$, 这就又迎来了绝对可积性的老问题. 因此, 我们在这里提供规避绝对可积的第二个方法: Stieltjes Integration.

\[ \bsX(t)=\intfy \bs\alpha(\omega)\exp(\rmj\omega t)\ \rmd\omega\quad \to \quad \bsX(t)=\intfy \exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega) \]

我们称这个表达式为随机过程的谱表示 (Spectral Representation of Stochastic Process). 其中, 有的地方把 $F_\bsX(\omega)$ 称为 谱函数, 并且它一定满足这样的性质:

\[ E(\rmd F_\bs{X}(\omega_i)\ \overline{\rmd F_\bs{X}(\omega_j)})=0,\quad \forall\ i\neq j \]

在谱表示下, 计算相关函数:

\[ \begin{aligned} R_\bsX(t,s)=&\ E(\bsX(t)\overline{\bsX(s)})\\ =&\ E\lr({\intfy\exp(\rmj\omega_i t)\ \rmd F_\bs{X}(\omega_i) \cdot \overline{\intfy\exp(\rmj\omega_j s)\ \rmd F_\bs{X}(\omega_j})})\\ =&\ \intfy\intfy \exp(\rmj(\omega_i t-\omega_j s))\cdot E\lr({\rmd F_\bs{X}(\omega_i)\ \overline{\rmd F_\bs{X}(\omega_j})})\\ =&\ \intfy \exp(\rmj\omega(t-s))\cdot E\big|\big|\rmd F_\bs{X}(\omega_i)\big|\big|^2 \end{aligned} \]

这个形式, 让我想起一位故人:

\[ R_\bs{X}(\tau)=\frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega\tau)\ \rmd\omega \]

因此, 我们可以 (不严谨地) 得到:

\[ E\big|\big|\rmd F_\bs{X}(\omega)\big|\big|^2=\frac{1}{2\pi}S_\bsX(\omega)\ \rmd\omega \]

这样, 我们再重新考察信号经过线性系统后的结果:

\[ \begin{aligned} \bs{Y}(t)=&\intfy h(t-\tau)\bsX(\tau)\ \rmd\tau\\ =&\intfy h(t-\tau)\lr({\intfy \exp(\rmj\omega \tau)\ \rmd F_\bs{X}(\omega)})\ \rmd\tau\\ =&\intfy\lr({\intfy h(t-\tau)\exp(\rmj\omega \tau)\ \rmd\tau})\rmd F_\bs{X}(\omega)\\ =&\intfy\lr({\intfy h(\tau^\prime)\exp(-\rmj\omega \tau^\prime)\ \rmd \tau}) \exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega)\\ =&\intfy H(\omega)\exp(\rmj\omega t)\ \rmd F_\bs{X}(\omega) \end{aligned} \]

又因为 $\bs{Y}(t)$ 也有 Stieltjes Integration 的形式,

\[ \bs{Y}(t)=\intfy\exp(\rmj\omega t)\ \rmd F_\bs{Y}(\omega) \]

上下比对, 我们又可以 (不严谨地) 得到:

\[ \rmd F_\bs{Y}(\omega)=H(\omega)\rmd F_\bs{X}(\omega) \]

两边取模平方再取期望, 就有:

\[ \begin{aligned} E\big|\big|\rmd F_\bs{Y}(\omega)\big|\big|^2&= \big|\big|H(\omega)\big|\big|^2\cdot E\big|\big|\rmd F_\bs{X}(\omega)\big|\big|^2\\ \Leftrightarrow\quad\quad\quad S_\bs{Y}(\omega)&=\big|\big|H(\omega)\big|\big|^2\cdot S_\bs{X}(\omega) \end{aligned} \]

因此, 我们从谱表示的角度又得到了先前的结果.

等距同构

设宽平稳随机过程 $\bsX(t)$ 定义于线性空间 $H_1$, $\exp(\rmj\omega t)$ 定义于线性空间 $H_2$. $\bsX(t)$ 和 $\exp(\rmj\omega t)$ 在以下的距离定义下等距同构:

\[ \begin{aligned} d_{H_1}(\bsX(t),\bsX(s))&\overset{def}=E\big|\big|\bsX(t)-\bsX(s)\big|\big|^2_{H_1}\\ d_{H_2}(\exp(\rmj\omega t),\exp(\rmj\omega s))&\overset{def}=\frac{1}{2\pi}\intfy S_\bsX(\omega)\big|\big|\exp(\rmj\omega t)-\exp(\rmj\omega s)\big|\big|^2_{H_2}\ \rmd\omega \end{aligned} \]

接下来证明这两个距离相等:

\[ \begin{aligned} d_{H_1}(\bsX(t),\bsX(s))=&E\big|\big|\bsX(t)-\bsX(s)\big|\big|^2_{H_1}\\ =&\ 2R_\bsX(0)-2R_\bsX(t-s)\\ =&\ 2\cdot\frac{1}{2\pi}\lr({\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega\cdot0)\ \rmd\omega- \frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\exp(\rmj\omega(t-s))\ \rmd\omega})\\ =&\ \frac{1}{2\pi}\intfy S_{\bs{X}}(\omega)\lr({2-2\exp[\rmj\omega(t-s)]})\ \rmd\omega\\ =&\ \frac{1}{2\pi}\intfy S_{\bs{X}}(\omega) \big|\big|\exp(\rmj\omega t)-\exp(\rmj\omega s)\big|\big|^2_{H_2}\ \rmd\omega\\ =&\ d_{H_2}(\exp(\rmj\omega t),\exp(\rmj\omega s)) \end{aligned} \]

事实上, 还是要证明一下同构的, 不过暂且先不管了.