\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Gaussian Everywhere
在正式进入高斯过程之前, 我们通过几个例子说明高斯分布应用之广, 其重要性之深.
Physical Diffusion
1905 年, Einstein 对扩散模型作出了重要的理论研究. 假设 \(f(x,t)\) 是某种粒子 \(t\) 时刻在 \(x\) 处的浓度, 我们希望观察 从 \(t\to t+\tau\) 的这一小段时间内, 有多少粒子从 \(y\) 扩散到 \(x\) 处. 我们用 \(\rho(y,\tau)\) 表示 \(\tau\) 时间内, 从 \(y\) 点扩散到 \(x\) 的粒子的比例, 这样就有了:
\[
f(x,t+\tau)=\intfy f(x-y,t)\cdot\rho(y,\tau)\ \rmd y
\]
首先, \(\tau\) 是个小量, 所以可以作 Tylor 展开:
\[
f(x,t+\tau)=f(x,t)+\tau\cdot\frac{\partial f}{\partial t}+o(\tau)
\]
对于 \(y\), 尽管它不是个小量, 甚至取值从 \(-\infty\) 到 \(+\infty\), Einstein 还是强行把它展开了, 而且这与实验上的结果拟合得非常好, 也真是老天爷喂饭吃了:
\[
f(x-y,t)=f(x,t)-y\cdot\frac{\partial f}{\partial x}+\frac{y^2}{2}\cdot\frac{\partial^2f}{\partial x^2}+o(y^2)
\]
这还没完, 在 1905 年, 概率论还没登堂入室严格定义的背景下, Einstein 天才般地将 \(\rho(y,\tau)\) 视为概率密度, 因此它满足积分归一化和正定性条件. 同时, 直觉上来讲, \(\rho(y,\tau)\) 应当是关于 \(y\) 的偶函数. 从而:
\[
\intfy y\cdot\rho(y,\tau)\ \rmd y=0,\quad \intfy y^2\cdot\rho(y,\tau)\ \rmd y\overset{def}=D
\]
即, 得到了 \(y\) 的均值和方差. 由此我们把原式写开来:
\[
\begin{aligned}
&&f(x,t+\tau)&=\intfy f(x-y,t)\cdot\rho(y,\tau)\ \rmd y\\
&\Leftrightarrow &f(x,t)+\tau\cdot\frac{\partial f}{\partial t}+o(\tau)&=
\intfy \lr({f(x,t)-y\cdot\frac{\partial f}{\partial x}+
\frac{y^2}{2}\cdot\frac{\partial^2f}{\partial x^2}+o(y^2)})
\cdot\rho(y,\tau)\ \rmd y\\
&\Leftrightarrow &f(x,t)+\tau\cdot\frac{\partial f}{\partial t}&=
{f(x,t)\cdot1-0\cdot\frac{\partial f}{\partial x}+
\frac{D}{2}\cdot\frac{\partial^2f}{\partial x^2}}\\
\end{aligned}
\]
最终, 我们就得到了扩散方程 (Diffusion Equation)
\[
\boxed{\tau\cdot\frac{\partial }{\partial t}f(x,t)=\frac{D}{2}\frac{\partial^2 }{\partial x^2}f(x,t)}
\]
在边界条件:
\[
f(x,0)=\delta(x)
\]
约束下, 设 \(\sigma^2={D}/\tau\) 可以解得 \(f(x,t)\) 就是高斯分布 \(N(0,\sigma^2 t)\)
\[
f(x,t)=\frac{1}{\sqrt{2\pi\sigma^2 t}}\cdot\exp\lr({-\frac{x^2}{2\sigma^2 t}})
\]
双边无穷区间上的最大熵分布
如果我们想问, 什么分布的随机性最大? 或许直觉上会是均匀分布. 不过这只在有限区间上成立. 对于无穷区间上, 我们需要考察, "什么是随机性最大", 这需要借助信息论的定义: 假设 \(X\) 是随机变量, 定义 \(X\) 的信息熵为:
\[
H(X)=-\intfy f_X(x)\log f_X(x)\ \rmd
\]
那么, 现在问题就变成了分析这样的泛函问题:
\[
\underset{f}{\max} \lr({-\intfy f(x)\log f(x)\ \rmd x})
\]
为了方便解决问题, 我们先对 \(f(x)\) 在均值和方差意义上作约束:
\[
\intfy x\cdot f(x)\ \rmd x=0,\quad \intfy x^2\cdot f(x)\ \rmd x=\sigma^2
\]
接下来, 使用变分法 (Variational Method), 令:
\[
\begin{aligned}
&G(t)=H(f_0+tg),\ \text{where}\\
& f_0=\underset{f}{\arg\max}\ H(f),\ t\in\R,\ \forall\ g\ \ \text{is a function}
\end{aligned}
\]
这样就把不能求导的泛函问题, 转化成了可以求导的关于 \(G(t)\) 的问题. 由于 \(f_0\) 已经是最优的了, 于是有:
\[
G(t)\leq G(0)\quad \Rightarrow G^\prime(t)|_{t=0}=0
\]
我们把 \(G(t)\) 写开, 根据约束条件作 Lagrange (其中省略 \(f\) 和 \(g\) 的自变量 \(x\) 不写):
\[
\begin{aligned}
L(t,\lambda_1,\lambda_2)=&
\intfy(f_0+tg)\log(f_0+tg)\ \rmd x\\
&-\lambda_1\lr({\intfy x(f+tg)\rmd x-0})-
\lambda_2\lr({\intfy x^2(f+tg)\rmd x-\sigma^2})\\
\end{aligned}
\]
Lagrange 函数对 \(t\) 求导:
\[
\begin{aligned}
\frac{\rmd}{\rmd t}L(t,\lambda_1,\lambda_2)=
\intfy \lr({g\log(f_0+tg)+g})\ \rmd x-\lambda_1{\intfy xg\ \rmd x}-
\lambda_2\intfy x^2g\ \rmd x\\
\end{aligned}
\]
代入 \(t=0\) 时, \(G^\prime(t)|_{t=0}=0\) 的条件:
\[
\begin{aligned}
\frac{\rmd}{\rmd t}L(t,\lambda_1,\lambda_2)|_{t=0}=&
\intfy ({g\log f_0+g})\ \rmd x-\lambda_1{\intfy xg\ \rmd x}-
\lambda_2\intfy x^2g\ \rmd x\\
=&\intfy g\lr({\log f_0+1-\lambda_1 x-\lambda_2 x^2})\ \rmd x=0\\
\end{aligned}
\]
因此, 在双边无穷区间上具有最大熵分布的, 一定是高斯分布
\[
f_0(x)=\exp(\lambda_2 x^2+\lambda_1 x-1)
\]
单边无穷区间上的最大熵分布
仿照上例, 我们先约定边界条件. 因为区间的边界本身已经提供约束信息了, 我们只约束到一阶距.
\[
\int_{0}^{+\infty} x\cdot f(x)=\mu
\]
接下来计算 Lagrange:
\[
\begin{aligned}
&&L(t,\lambda)&=\int_{0}^{+\infty} (f_0+tg)\log(f_0+tg)\
\rmd x-\lambda\lr({\int_{0}^{+\infty}x(f_0+tg)\ \rmd x-\mu})\\
&\Rightarrow& \frac{\rmd }{\rmd t} L(t,\lambda)|_{t=0}&=
\int_{0}^{+\infty}(g\log f_0+g-\lambda xg)\ \rmd x\\
&&&=\int_0^{+\infty}g(\log f_0+1-\lambda x)\ \rmd x=0
\end{aligned}
\]
因此, 单边无穷区间上的最大熵分布是指数分布:
\[
f_0(x)=\exp(\lambda x-1)
\]
有限区间上的最大熵分布
有限区间上就不需要额外的边界条件约束了. 可以直接得到均匀分布的结果
\[
f_0(x)=\text{Const.}
\]
Probability: Central Limit Theorem
我们经常将白噪声视为高斯分布, 中心极限定理说明了为什么这一假设是合理的, 其表述如下:
假设 \(X_1,\cdots, X_n\) 是独立的随机变量, \(E(X_k)=0\), \(\Var{(X_k)}=1\) (事实上可以推广到更松弛的条件), 那么,
\[
X=\lim_{n\to\infty} \frac{\sum_{k=1}^{n}X_k}{\sqrt{n}}\sim N(0,1)
\]
随机变量的特征函数
在分析随机变量的和时, 特征函数是非常有用的. 我们这样定义随机变量的特征函数:
\[
\phi_X(\omega)=E(\exp(\rmj\omega X))=\intfy\exp(\rmj\omega x)\cdot f_X(x)\ \rmd x
\]
也就是概率密度函数 \(f_X(x)\) 的 Inverse Fourier Transform. 注意到, \(f_X(x)\geq 0\), 所以 \(\phi_X(\omega)\) 是正定的. 借助特征函数, 我们很容易证明, 随机变量和的概率密度, 是各随机变量概率密度的卷积. 设 \(X=\displaystyle\sum_{k=1}^nX_k\),
\[
\begin{aligned}
\phi_X(\omega)=&\ E(\exp(\rmj\omega X))\\
=&\ E(\exp(\rmj\omega\sum_{k=1}^nX_k))\\
=&\ E(\prod_{k=1}^n\exp(\rmj\omega X_k))\\
=&\ \prod_{k=1}^n\phi_{X_k}(\omega)
\end{aligned}
\]
反向傅里叶变换后是乘积, 那原来就是卷积喽.
但目前的主要目的还是对于 \(X=\displaystyle\sum_{k=1}^{n}X_k/\sqrt{n}\), 计算 \(\phi_X(\omega)\) 具体长什么样, 因此:
$$
\begin{aligned}
\phi_X(\omega)=&E(\exp(\rmj\omega\frac{\sum_{k=1}^{n}X_k}{\sqrt{n}}))\
=&\prod_{k=1}^n E(\exp(\rmj\omega\frac{X_k}{\sqrt{n}}))\
=&\prod\phi_{X_k}(\frac{\omega}{\sqrt{n}})
\end{aligned}
$$
为了证明方便, 我们假设 \(\{X_k\}_{k=1}^n\) 独立同分布. 因此,
\[
\phi_X(\omega)=\lr({\phi_{X_1}}(\frac{\omega}{\sqrt{n}}))^n
\]
当 \(n\to\infty\) 时, \(X_1/\sqrt{n}\) 是小量, 因此可以作 Tylor 展开,
\[
\begin{aligned}
&E(\exp(\rmj\omega\frac{X_1}{\sqrt{n}}))\\
=&\ E\lr({1+\rmj\omega\frac{X_1}{\sqrt{n}}+\frac{1}{2}\lr({\rmj\omega\frac{X_1}{\sqrt{n}}})^2+o\lr({\frac{1}{n}})})\\
=&\ {1-\frac{\omega^2}{2n}}+o\lr({\frac{1}{n}})
\end{aligned}
\]
因此,
\[
\lim_{n\to\infty}\phi_X(\omega)=\lr({\phi_{X_1}\lr({\frac{\omega}{\sqrt{n}}})})^n=\exp\lr({-\frac{\omega^2}{2}})
\]
再给它 Inverse Fourier 回去, 就得到:
\[
f_X(x)=\frac{1}{\sqrt{2\pi}}\exp\lr({-\frac{x^2}{2}})=N(0,1)
\]
大数定律
带着特征函数的观点, 重新考察一下大数定律. 假设 \(\{X_k\}_{k=1}^n\) 独立同分布, \(E(X_k)=\mu\), 以及 \(X=\displaystyle\sum_{k=1}^nX_k/n\),
\[
\begin{aligned}
{\phi_{X_1}\lr({\frac{\omega}{{n}}})}=&\ E(\exp(\rmj\omega{\frac{X_1}{n}}))\\
=&\ E\lr({1+\rmj\omega\frac{X_1}{n}+o\lr({\frac{1}{n}})})\\
=&\ 1+\rmj\omega\frac{\mu}{n}+o\lr({\frac{1}{n}})
\end{aligned}
\]
此时,
\[
\lim_{n\to\infty}\phi_X(\omega)=
\lim_{n\to\infty}\lr({\phi_{X_1}\lr({\frac{\omega}{{n}}})})^n
=\exp\lr({\rmj\omega\mu})
\]
对它做 Fourier 变换 (注意此时是对 \(\omega\) 作积分) 则得到冲激函数 (略去 \(2\pi\) 系数保证归一化)
\[
f_X(x)=\delta(x-\mu)
\]
这说明, 此时随机变量 \(X\) 坍缩成了一个常数.
有个自然的疑问, 求和后的分母要约束到什么程度才能恰好保证不坍缩到常数, 而仍然保留随机性? 事实上, 结论是 "重对数" \(\sqrt{n\log\log n}\). 从这个结果可以看出, Gaussian 的 \(\sqrt{n}\) 已经玩得非常极限了, 因为 \(\sqrt{\log\log n}\) 实在是增长得太慢太慢了. 所以可以说, Gaussian 离 "确定性" 已经非常近了, 尽管他是无穷区间上的最大熵分布.
Stochastic Process: Random Walk
我们先考察一个最简单的 one-dimensional symmetric random walk. 假设第 \(k\) 步走的距离 \(X_k\) 服从两点分布:
\[
X_k\sim
\begin{pmatrix}
\Delta x & -\Delta x\\
\displaystyle\frac{1}{2} & \displaystyle\frac{1}{2}
\end{pmatrix}
\]
并且令 \(S_n=\displaystyle\sum_{k=1}^n X_k\). 当每走一步经过的时间足够短, 就可以使离散的 \(S_n\) 变为连续的 \(\bsX(t)\). 于是我们规定, 对于确定的时间 \(t\) , 有\(t=n\cdot\Delta t\). 在此基础上, 把 \(\bsX(t)\) 写开来:
\[
\begin{aligned}
\bsX(t)=&\sum_{k=1}^n\lr({\frac{X_k}{\Delta x}\cdot \Delta x})\\
=&\lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot \sqrt{n}\ \Delta x\\
=& \lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot
\sqrt\frac{t}{\Delta t}\ \Delta x\\
=& \lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot
\sqrt{t}\cdot\sqrt\frac{\Delta x^2}{\Delta t}
\end{aligned}
\]
当 \(\Delta x,\ \Delta t\to 0\) 时, 我们保证 \(\Delta x^2/\Delta t=D\), 即确定 random walk 的 "速度". 那么,
\[
\bsX(t)=\lr({\sum_{k=1}^n\frac{X_k/\Delta x}{\sqrt{n}}})\cdot
\sqrt{Dt}
\]
观察 \(X_k/\Delta x\), 它实际上就是将 \(X_k\) 方差归一化的结果, 因为 \(\Var({X_k})=\Delta x^2\). 因此,
\[
\bsX(t)=N(0,1)\cdot\sqrt{Dt}=N(0,Dt)
\]
这和 Einstein 扩散方程的结果相同. 事实上, random walk 也就是宏观扩散的微观过程.