\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Statistics Review
Expectation (Mean)
Data 若过于海量,就需要找到一个方法、用较少的资源表达出 Data 的特征。我们考虑这样的 "重心" :
\[
E(X) = \int_{-\infty}^{+\infty} x \cdot f(x)\ dx
\]
注意,这里省略了归一化的分母 $ \displaystyle\int_{-\infty}^{+\infty} f(x)\ dx = 1$
我们称这个 \(E(X)\) 为 "一阶距" (One Order Distance), 也称为常说的 "期望".
期望的线性性
由期望的定义式,容易得出期望的线性性质:
\[
E\lr({\sum_{k=1}^{n}x_k})=\sum_{k=1}^{n}E(x_k)
\]
建议从宏观的视角看待这一线性性, 即: 不管我们讨论的随机变量之间有多么错综复杂的关系, 线性性依然适用, 我们可以直接把这些项拆开 / 合起来计算.
条件期望 (Conditional Expectation)
- 条件期望是随机变量. \(E(X|Y)\)中, 自变量即是 \(Y\)
- \(E(\sum_{k=1}^nX_k|Y)=\sum_{k=1}^nE(X_k|Y)\) 期望带来的性质
- \(E_Y(E(X|Y))=E(X)\) 随机变量带来的性质
- \(E(X\cdot h(Y)|Y)=h(Y)E(X|Y)\) "提出性质", 固定住一个, 再逐个击破.
方差
\[
Var(X)=E(X-E(X))^2=E(X^2)-(E(X))^2
\]
上式等号的证明
其实就是把作为非随机变量的部分提出来
\[
\begin{aligned}
E(X-E(X))^2 &= E(X^2-2X\cdot E(X)+(E(X))^2) \\&=E(X^2)-2E(X)E(X)+(E(X))^2 \\ &= E(X^2)-(E(X))^2
\end{aligned}
\]
均方距离 (Mean Square Distance)
\[
d(X,Y) = (E(X-Y)^2)^{\frac{1}{2}}
\]
Prop. 如果要求在均方距离的定义下, 找到一个离随机变量 \(X\) 最近的常数 \(a\) , 则 \(a=E(X)\), 且此时的距离即是标准差.
Proof:
\[
\min_{a} E(X-a)^2 \Rightarrow \frac{d}{da}E(X-a)^2=0 \Rightarrow -2E(X-a)=0 \Rightarrow a=E(X)
\]
当\(a=E(X)\)时, 最小的这个 \(d(X,a)=[E(X-E(X))^2]^{\frac{1}{2}}\) , 也就是标准差.
Theorem: 在均方距离意义下, 用一个随机变量向另一个随机变量逼近, 最优逼近是条件期望.
进一步考察 \(\underset{g}\min E(X-g(Y))^2\). 首先, 考虑分而治之, 即先 "条件" 住一个变量
\[
E(X-g(Y))^2 = E_Y(E_X(X-g(Y))^2|Y)
\]
此时, 被条件住的 \(g(Y)\) 就是一个常数了 ( \(g\) 自然地被限制为确定的函数). 从而根据先前做过的命题可知, 使均方距离最小的 \(g(Y)\) 应当是 \(E(X)\) . 但还需注意, 因为 \(Y\) 在上述的分析过程中一直是被条件住的, 因此我们不能只写 \(E(X)\), 而是条件期望 \(E(X|Y)\), 即:
\[
E(X-g(Y))^2 = E(E(X-g(Y))^2|Y) \geq E(E(X-E(X|Y))^2|Y)= E(X-E(X|Y)^2)
\]
我们来对上述不等式作进一步的严谨说明:
\[
\begin{aligned}
E(X-g(Y))^2 =&\ E(X-E(X|Y)+E(X|Y)-g(Y))^2 \\
=\ & E(X-E(X|Y))^2+E(E(X|Y)-g(Y))^2 \\
&+2E[(X-E(X|Y))(E(X|Y)-g(Y))]
\end{aligned}
\]
下证交叉项 \(=0\) ( 这是个富有直觉且重要的 idea )
首先, 观察等式中有哪些是随机变量: \(X, E(X|Y), g(Y)\), 其中的后两者都只跟 \(Y\) 有关, 因此先把这个复杂的东西 "条件" 住, 会容易很多:
\[
E_Y(E_X[(X-E(X|Y))(E(X|Y)-g(Y))]|Y)
\]
这样改写后, 容易发现, \(E(X|Y)-g(Y)\) 只和 \(Y\) 有关, 因此可以提出来:
\[
\begin{aligned}
&E_Y(E_X[(X-E(X|Y))(E(X|Y)-g(Y))]|Y) \\ = \ &E_Y([E(X|Y)-g(Y)]\cdot E_X(X-E(X|Y))|Y)
\end{aligned}
\]
再集中注意力观察!
\[
E_X(X-E(X|Y)|Y)=E(X|Y)-E(E(X|Y)|Y)=E(X|Y)-E(X|Y)\cdot E(1|Y)=0
\]
于是乎,
\[
E(X-g(Y))^2 = E(X-E(X|Y))^2+E(E(X|Y)-g(Y))^2
\]
即, 在均方意义下用一个随机变量向另一个随机变量逼近, 最优逼近是条件期望. 上式中, 前一项为方差, 后一项为偏差 (bias)
虽然我们在理论上如此美好地解决了问题, 但 \(E(X|Y)\) 终究是很难得到的. 因此要做更多工作, 寻找平衡了计算难度与准确度的方法.