跳转至
\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Gaussian Everywhere

在正式进入高斯过程之前, 我们通过几个例子说明高斯分布应用之广, 其重要性之深.

Physical Diffusion

1905 年, Einstein 对扩散模型作出了重要的理论研究. 假设 \(f(x,t)\) 是某种粒子 \(t\) 时刻在 \(x\) 处的浓度, 我们希望观察 从 \(t\to t+\tau\) 的这一小段时间内, 有多少粒子从 \(y\) 扩散到 \(x\) 处. 我们用 \(\rho(y,\tau)\) 表示 \(\tau\) 时间内, 从 \(y\) 点扩散到 \(x\) 的粒子的比例, 这样就有了:

\[ f(x,t+\tau)=\intfy f(x-y,t)\cdot\rho(y,\tau)\ \rmd y \]

首先, \(\tau\) 是个小量, 所以可以作 Tylor 展开:

\[ f(x,t+\tau)=f(x,t)+\tau\cdot\frac{\partial f}{\partial t}+o(\tau) \]

对于 \(y\), 尽管它不是个小量, 甚至取值从 \(-\infty\)\(+\infty\), Einstein 还是强行把它展开了, 而且这与实验上的结果拟合得非常好, 也真是老天爷喂饭吃了:

\[ f(x-y,t)=f(x,t)-y\cdot\frac{\partial f}{\partial x}+\frac{y^2}{2}\cdot\frac{\partial^2f}{\partial x^2}+o(y^2) \]

这还没完, 在 1905 年, 概率论还没登堂入室严格定义的背景下, Einstein 天才般地将 \(\rho(y,\tau)\) 视为概率密度, 因此它满足积分归一化和正定性条件. 同时, 直觉上来讲, \(\rho(y,\tau)\) 应当是关于 \(y\) 的偶函数. 从而:

\[ \intfy y\cdot\rho(y,\tau)\ \rmd y=0,\quad \intfy y^2\cdot\rho(y,\tau)\ \rmd y\overset{def}=D \]

即, 得到了 \(y\) 的均值和方差. 由此我们把原式写开来:

\[ \begin{aligned} &&f(x,t+\tau)&=\intfy f(x-y,t)\cdot\rho(y,\tau)\ \rmd y\\ &\Leftrightarrow &f(x,t)+\tau\cdot\frac{\partial f}{\partial t}+o(\tau)&= \intfy \lr({f(x,t)-y\cdot\frac{\partial f}{\partial x}+ \frac{y^2}{2}\cdot\frac{\partial^2f}{\partial x^2}+o(y^2)}) \cdot\rho(y,\tau)\ \rmd y\\ &\Leftrightarrow &f(x,t)+\tau\cdot\frac{\partial f}{\partial t}&= {f(x,t)\cdot1-0\cdot\frac{\partial f}{\partial x}+ \frac{D}{2}\cdot\frac{\partial^2f}{\partial x^2}}\\ \end{aligned} \]

最终, 我们就得到了扩散方程 (Diffusion Equation)

\[ \boxed{\tau\cdot\frac{\partial }{\partial t}f(x,t)=\frac{D}{2}\frac{\partial^2 }{\partial x^2}f(x,t)} \]

在边界条件:

\[ f(x,0)=\delta(x) \]

约束下, 设 \(\sigma^2={D}/\tau\) 可以解得 \(f(x,t)\) 就是高斯分布 \(N(0,\sigma^2 t)\)

\[ f(x,t)=\frac{1}{\sqrt{2\pi\sigma^2 t}}\cdot\exp\lr({-\frac{x^2}{2\sigma^2 t}}) \]

Information Theory: Maximum Entropy Distribution

双边无穷区间上的最大熵分布

如果我们想问, 什么分布的随机性最大? 或许直觉上会是均匀分布. 不过这只在有限区间上成立. 对于无穷区间上, 我们需要考察, "什么是随机性最大", 这需要借助信息论的定义: 假设 \(X\) 是随机变量, 定义 \(X\) 的信息熵为:

\[ H(X)=-\intfy f_X(x)\log f_X(x)\ \rmd \]

那么, 现在问题就变成了分析这样的泛函问题:

\[ \underset{f}{\max} \lr({-\intfy f(x)\log f(x)\ \rmd x}) \]

为了方便解决问题, 我们先对 \(f(x)\) 在均值和方差意义上作约束:

\[ \intfy x\cdot f(x)\ \rmd x=0,\quad \intfy x^2\cdot f(x)\ \rmd x=\sigma^2 \]

接下来, 使用变分法 (Variational Method), 令:

\[ \begin{aligned} &G(t)=H(f_0+tg),\ \text{where}\\ & f_0=\underset{f}{\arg\max}\ H(f),\ t\in\R,\ \forall\ g\ \ \text{is a function} \end{aligned} \]

这样就把不能求导的泛函问题, 转化成了可以求导的关于 \(G(t)\) 的问题. 由于 \(f_0\) 已经是最优的了, 于是有:

\[ G(t)\leq G(0)\quad \Rightarrow G^\prime(t)|_{t=0}=0 \]

我们把 \(G(t)\) 写开, 根据约束条件作 Lagrange (其中省略 \(f\)\(g\) 的自变量 \(x\) 不写):

\[ \begin{aligned} L(t,\lambda_1,\lambda_2)=& \intfy(f_0+tg)\log(f_0+tg)\ \rmd x\\ &-\lambda_1\lr({\intfy x(f+tg)\rmd x-0})- \lambda_2\lr({\intfy x^2(f+tg)\rmd x-\sigma^2})\\ \end{aligned} \]

Lagrange 函数对 \(t\) 求导:

\[ \begin{aligned} \frac{\rmd}{\rmd t}L(t,\lambda_1,\lambda_2)= \intfy \lr({g\log(f_0+tg)+g})\ \rmd x-\lambda_1{\intfy xg\ \rmd x}- \lambda_2\intfy x^2g\ \rmd x\\ \end{aligned} \]

代入 \(t=0\) 时, \(G^\prime(t)|_{t=0}=0\) 的条件:

\[ \begin{aligned} \frac{\rmd}{\rmd t}L(t,\lambda_1,\lambda_2)|_{t=0}=& \intfy ({g\log f_0+g})\ \rmd x-\lambda_1{\intfy xg\ \rmd x}- \lambda_2\intfy x^2g\ \rmd x\\ =&\intfy g\lr({\log f_0+1-\lambda_1 x-\lambda_2 x^2})\ \rmd x=0\\ \end{aligned} \]

因此, 在双边无穷区间上具有最大熵分布的, 一定是高斯分布

\[ f_0(x)=\exp(\lambda_2 x^2+\lambda_1 x-1) \]

单边无穷区间上的最大熵分布

仿照上例, 我们先约定边界条件. 因为区间的边界本身已经提供约束信息了, 我们只约束到一阶距.

\[ \int_{0}^{+\infty} x\cdot f(x)=\mu \]

接下来计算 Lagrange:

\[ \begin{aligned} &&L(t,\lambda)&=\int_{0}^{+\infty} (f_0+tg)\log(f_0+tg)\ \rmd x-\lambda\lr({\int_{0}^{+\infty}x(f_0+tg)\ \rmd x-\mu})\\ &\Rightarrow& \frac{\rmd }{\rmd t} L(t,\lambda)|_{t=0}&= \int_{0}^{+\infty}(g\log f_0+g-\lambda xg)\ \rmd x\\ &&&=\int_0^{+\infty}g(\log f_0+1-\lambda x)\ \rmd x=0 \end{aligned} \]

因此, 单边无穷区间上的最大熵分布是指数分布:

\[ f_0(x)=\exp(\lambda x-1) \]

有限区间上的最大熵分布

有限区间上就不需要额外的边界条件约束了. 可以直接得到均匀分布的结果

\[ f_0(x)=\text{Const.} \]

Probability: Central Limit Theorem

我们经常将白噪声视为高斯分布, 中心极限定理说明了为什么这一假设是合理的, 其表述如下:

假设 \(X_1,\cdots, X_n\) 是独立的随机变量, \(E(X_k)=0\), \(\Var{(X_k)}=1\) (事实上可以推广到更松弛的条件), 那么,

\[ X=\lim_{n\to\infty} \frac{\sum_{k=1}^{n}X_k}{\sqrt{n}}\sim N(0,1) \]

随机变量的特征函数

在分析随机变量的和时, 特征函数是非常有用的. 我们这样定义随机变量的特征函数:

\[ \phi_X(\omega)=E(\exp(\rmj\omega X))=\intfy\exp(\rmj\omega x)\cdot f_X(x)\ \rmd x \]

也就是概率密度函数 \(f_X(x)\) 的 Inverse Fourier Transform. 注意到, \(f_X(x)\geq 0\), 所以 \(\phi_X(\omega)\) 是正定的. 借助特征函数, 我们很容易证明, 随机变量和的概率密度, 是各随机变量概率密度的卷积. 设 \(X=\displaystyle\sum_{k=1}^nX_k\),

\[ \begin{aligned} \phi_X(\omega)=&\ E(\exp(\rmj\omega X))\\ =&\ E(\exp(\rmj\omega\sum_{k=1}^nX_k))\\ =&\ E(\prod_{k=1}^n\exp(\rmj\omega X_k))\\ =&\ \prod_{k=1}^n\phi_{X_k}(\omega) \end{aligned} \]

反向傅里叶变换后是乘积, 那原来就是卷积喽.

但目前的主要目的还是对于 \(X=\displaystyle\sum_{k=1}^{n}X_k/\sqrt{n}\), 计算 \(\phi_X(\omega)\) 具体长什么样, 因此:

$$ \begin{aligned} \phi_X(\omega)=&E(\exp(\rmj\omega\frac{\sum_{k=1}^{n}X_k}{\sqrt{n}}))\ =&\prod_{k=1}^n E(\exp(\rmj\omega\frac{X_k}{\sqrt{n}}))\ =&\prod\phi_{X_k}(\frac{\omega}{\sqrt{n}})

\end{aligned} $$

为了证明方便, 我们假设 \(\{X_k\}_{k=1}^n\) 独立同分布. 因此,

\[ \phi_X(\omega)=\lr({\phi_{X_1}}(\frac{\omega}{\sqrt{n}}))^n \]

\(n\to\infty\) 时, \(X_1/\sqrt{n}\) 是小量, 因此可以作 Tylor 展开,

\[ \begin{aligned} &E(\exp(\rmj\omega\frac{X_1}{\sqrt{n}}))\\ =&\ E\lr({1+\rmj\omega\frac{X_1}{\sqrt{n}}+\frac{1}{2}\lr({\rmj\omega\frac{X_1}{\sqrt{n}}})^2+o\lr({\frac{1}{n}})})\\ =&\ {1-\frac{\omega^2}{2n}}+o\lr({\frac{1}{n}}) \end{aligned} \]

因此,

\[ \lim_{n\to\infty}\phi_X(\omega)=\lr({\phi_{X_1}\lr({\frac{\omega}{\sqrt{n}}})})^n=\exp\lr({-\frac{\omega^2}{2}}) \]

再给它 Inverse Fourier 回去, 就得到:

\[ f_X(x)=\frac{1}{\sqrt{2\pi}}\exp\lr({-\frac{x^2}{2}})=N(0,1) \]

大数定律

带着特征函数的观点, 重新考察一下大数定律. 假设 \(\{X_k\}_{k=1}^n\) 独立同分布, \(E(X_k)=\mu\), 以及 \(X=\displaystyle\sum_{k=1}^nX_k/n\),

\[ \begin{aligned} {\phi_{X_1}\lr({\frac{\omega}{{n}}})}=&\ E(\exp(\rmj\omega{\frac{X_1}{n}}))\\ =&\ E\lr({1+\rmj\omega\frac{X_1}{n}+o\lr({\frac{1}{n}})})\\ =&\ 1+\rmj\omega\frac{\mu}{n}+o\lr({\frac{1}{n}}) \end{aligned} \]

此时,

\[ \lim_{n\to\infty}\phi_X(\omega)= \lim_{n\to\infty}\lr({\phi_{X_1}\lr({\frac{\omega}{{n}}})})^n =\exp\lr({\rmj\omega\mu}) \]

对它做 Fourier 变换 (注意此时是对 \(\omega\) 作积分) 则得到冲激函数 (略去 \(2\pi\) 系数保证归一化)

\[ f_X(x)=\delta(x-\mu) \]

这说明, 此时随机变量 \(X\) 坍缩成了一个常数.

有个自然的疑问, 求和后的分母要约束到什么程度才能恰好保证不坍缩到常数, 而仍然保留随机性? 事实上, 结论是 "重对数" \(\sqrt{n\log\log n}\). 从这个结果可以看出, Gaussian 的 \(\sqrt{n}\) 已经玩得非常极限了, 因为 \(\sqrt{\log\log n}\) 实在是增长得太慢太慢了. 所以可以说, Gaussian 离 "确定性" 已经非常近了, 尽管他是无穷区间上的最大熵分布.

Stochastic Process: Random Walk

我们先考察一个最简单的 one-dimensional symmetric random walk. 假设第 \(k\) 步走的距离 \(X_k\) 服从两点分布:

\[ X_k\sim \begin{pmatrix} \Delta x & -\Delta x\\ \displaystyle\frac{1}{2} & \displaystyle\frac{1}{2} \end{pmatrix} \]

并且令 \(S_n=\displaystyle\sum_{k=1}^n X_k\). 当每走一步经过的时间足够短, 就可以使离散的 \(S_n\) 变为连续的 \(\bsX(t)\). 于是我们规定, 对于确定的时间 \(t\) , 有\(t=n\cdot\Delta t\). 在此基础上, 把 \(\bsX(t)\) 写开来:

\[ \begin{aligned} \bsX(t)=&\sum_{k=1}^n\lr({\frac{X_k}{\Delta x}\cdot \Delta x})\\ =&\lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot \sqrt{n}\ \Delta x\\ =& \lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot \sqrt\frac{t}{\Delta t}\ \Delta x\\ =& \lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot \sqrt{t}\cdot\sqrt\frac{\Delta x^2}{\Delta t} \end{aligned} \]

\(\Delta x,\ \Delta t\to 0\) 时, 我们保证 \(\Delta x^2/\Delta t=D\), 即确定 random walk 的 "速度". 那么,

\[ \bsX(t)=\lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot \sqrt{Dt} \]

观察 \(X_k/\Delta x\), 它实际上就是将 \(X_k\) 方差归一化的结果, 因为 \(\Var({X_k})=\Delta x^2\). 因此,

\[ \bsX(t)=N(0,1)\cdot\sqrt{Dt}=N(0,Dt) \]

这和 Einstein 扩散方程的结果相同. 事实上, random walk 也就是宏观扩散的微观过程.