跳转至
\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Statistics Review

Expectation (Mean)

Data 若过于海量,就需要找到一个方法、用较少的资源表达出 Data 的特征。我们考虑这样的 "重心" :

\[ E(X) = \int_{-\infty}^{+\infty} x \cdot f(x)\ dx \]

注意,这里省略了归一化的分母 $ \displaystyle\int_{-\infty}^{+\infty} f(x)\ dx = 1$

我们称这个 \(E(X)\)"一阶距" (One Order Distance), 也称为常说的 "期望".

期望的线性性

由期望的定义式,容易得出期望的线性性质:

\[ E\lr({\sum_{k=1}^{n}x_k})=\sum_{k=1}^{n}E(x_k) \]

建议从宏观的视角看待这一线性性, 即: 不管我们讨论的随机变量之间有多么错综复杂的关系, 线性性依然适用, 我们可以直接把这些项拆开 / 合起来计算.

条件期望 (Conditional Expectation)

  1. 条件期望是随机变量. \(E(X|Y)\)中, 自变量即是 \(Y\)
  2. \(E(\sum_{k=1}^nX_k|Y)=\sum_{k=1}^nE(X_k|Y)\) 期望带来的性质
  3. \(E_Y(E(X|Y))=E(X)\)​ 随机变量带来的性质
  4. \(E(X\cdot h(Y)|Y)=h(Y)E(X|Y)\) "提出性质", 固定住一个, 再逐个击破.

方差

\[ Var(X)=E(X-E(X))^2=E(X^2)-(E(X))^2 \]

上式等号的证明

其实就是把作为非随机变量的部分提出来

\[ \begin{aligned} E(X-E(X))^2 &= E(X^2-2X\cdot E(X)+(E(X))^2) \\&=E(X^2)-2E(X)E(X)+(E(X))^2 \\ &= E(X^2)-(E(X))^2 \end{aligned} \]

均方距离 (Mean Square Distance)

\[ d(X,Y) = (E(X-Y)^2)^{\frac{1}{2}} \]

Prop. 如果要求在均方距离的定义下, 找到一个离随机变量 \(X\) 最近的常数 \(a\) , 则 \(a=E(X)\), 且此时的距离即是标准差.

Proof:

\[ \min_{a} E(X-a)^2 \Rightarrow \frac{d}{da}E(X-a)^2=0 \Rightarrow -2E(X-a)=0 \Rightarrow a=E(X) \]

\(a=E(X)\)时, 最小的这个 \(d(X,a)=[E(X-E(X))^2]^{\frac{1}{2}}\) , 也就是标准差.

Theorem: 在均方距离意义下, 用一个随机变量向另一个随机变量逼近, 最优逼近是条件期望.

进一步考察 \(\underset{g}\min E(X-g(Y))^2\)​. 首先, 考虑分而治之, 即先 "条件" 住一个变量

\[ E(X-g(Y))^2 = E_Y(E_X(X-g(Y))^2|Y) \]

此时, 被条件住的 \(g(Y)\) 就是一个常数了 ( \(g\) 自然地被限制为确定的函数). 从而根据先前做过的命题可知, 使均方距离最小的 \(g(Y)\) 应当是 \(E(X)\) . 但还需注意, 因为 \(Y\) 在上述的分析过程中一直是被条件住的, 因此我们不能只写 \(E(X)\), 而是条件期望 \(E(X|Y)\), 即:

\[ E(X-g(Y))^2 = E(E(X-g(Y))^2|Y) \geq E(E(X-E(X|Y))^2|Y)= E(X-E(X|Y)^2) \]

我们来对上述不等式作进一步的严谨说明:

\[ \begin{aligned} E(X-g(Y))^2 =&\ E(X-E(X|Y)+E(X|Y)-g(Y))^2 \\ =\ & E(X-E(X|Y))^2+E(E(X|Y)-g(Y))^2 \\ &+2E[(X-E(X|Y))(E(X|Y)-g(Y))] \end{aligned} \]

下证交叉项 \(=0\) ( 这是个富有直觉且重要的 idea )

首先, 观察等式中有哪些是随机变量: \(X, E(X|Y), g(Y)\), 其中的后两者都只跟 \(Y\) 有关, 因此先把这个复杂的东西 "条件" 住, 会容易很多:

\[ E_Y(E_X[(X-E(X|Y))(E(X|Y)-g(Y))]|Y) \]

这样改写后, 容易发现, \(E(X|Y)-g(Y)\) 只和 \(Y\) 有关, 因此可以提出来:

\[ \begin{aligned} &E_Y(E_X[(X-E(X|Y))(E(X|Y)-g(Y))]|Y) \\ = \ &E_Y([E(X|Y)-g(Y)]\cdot E_X(X-E(X|Y))|Y) \end{aligned} \]

再集中注意力观察!

\[ E_X(X-E(X|Y)|Y)=E(X|Y)-E(E(X|Y)|Y)=E(X|Y)-E(X|Y)\cdot E(1|Y)=0 \]

于是乎,

\[ E(X-g(Y))^2 = E(X-E(X|Y))^2+E(E(X|Y)-g(Y))^2 \]

即, 在均方意义下用一个随机变量向另一个随机变量逼近, 最优逼近是条件期望. 上式中, 前一项为方差, 后一项为偏差 (bias)

虽然我们在理论上如此美好地解决了问题, 但 \(E(X|Y)\) 终究是很难得到的. 因此要做更多工作, 寻找平衡了计算难度与准确度的方法.