\[
\newcommand{\bs}{\boldsymbol}
\newcommand{\bsX}{\boldsymbol{X}}
\newcommand{\bf}{\mathbf}
\newcommand{\msc}{\mathscr}
\newcommand{\mca}{\mathcal}
\newcommand{\T}{\text{T}}
\newcommand{\rme}{\mathrm{e}}
\newcommand{\rmi}{\mathrm{i}}
\newcommand{\rmj}{\mathrm{j}}
\newcommand{\rmd}{\mathrm{d}}
\newcommand{\rmm}{\mathrm{m}}
\newcommand{\rmb}{\mathrm{b}}
\newcommand{\and}{\land}
\newcommand{\or}{\lor}
\newcommand{\exist}{\exists}
\newcommand{\sube}{\subseteq}
\newcommand{\lr}[3]{\left#1 #2 \right#3}
\newcommand{\intfy}{\int_{-\infty}^{+\infty}}
\newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}}
\newcommand{\vt}{\vartheta}
\newcommand{\ve}{\varepsilon}
\newcommand{\vp}{\varphi}
\newcommand{\Var}{\text{Var}}
\newcommand{\Cov}{\text{Cov}}
\newcommand{\edef}{\xlongequal{def}}
\newcommand{\prob}{\text{P}}
\newcommand{\Exp}{\text{E}}
\newcommand{\t}[1]{\text#1}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\versionofnewcommand}{\text{260125}}
\]
Basic of Estimation
Methods of Estimation
从样本得到模型, 一般有两种方法:
-
非参数化的方法 (Non-Parametric), 例如 Clustering Classification
-
参数化的方法 (Parametric), 这是我们本节主要要讨论的
即, 已知服从某种形式的分布, 只是不知道其中的参数 \(\theta\) . 这样, 问题就转化成了根据样本给出的数据进行参数估计. 用符号的语言表达则是:
\[
\{ X_k \} \rightarrow \hat{\theta}\ (X_1, \cdots , X_k)
\]
其中, \(\hat{\theta}\) 在 DSP 中称为 Estimator, 在统计学中被称为 Statistic, 在机器学习中被称为 Feature.
Distance
估计总归是有误差的, 因此要引入误差度量 Error Metric, 定义为 Distance:
\[
d(\hat{\theta}, \theta)=[E(\hat{\theta}-\theta)^2]^{\frac{1}{2}}
\]
还就那个均方距离, 是真的好用捏.
其中 \(\hat{\theta}\) 是随机变量, \(\theta\) 是确定的未知常数 (至少频率学派如此认为).
为了方便 minimize \(E(\hat{\theta}-\theta)^2\), 我们仿照之前的做, 实施如下的分解:
\[
\begin{aligned}
E(\hat{\theta}-\theta)^2&=E(\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta)^2\\&=E(\hat{\theta}-E(\hat{\theta}))^2+E(E(\hat{\theta})-\theta)^2
\end{aligned}
\]
其中交叉项 \(=0\) 是容易证明的.
我们把 \(E(\hat{\theta}-E(\hat{\theta}))^2\) 定义为 Variance (随机误差) , \(E(E(\hat{\theta})-\theta)^2\) 定义为 Bias (系统误差). 同时, 我们希望让 variance 尽可能小, 因为 bias 是容易被修正的.
我们常说的 "无偏性" 即是 \(E(\hat{\theta})=\theta\), 即 Bias \(=0\). 这是我们后续讨论的基本要求, 要是无偏都保证不了, 那这个估计也做得太差了点 (
再引入一个概念: 若估计依赖于 \(n\) 个数据, 且 \(n\to\infty\) 时, distance \(\to 0\), 则称估计 "相合 (cosistance)"
独立同分布 i.i.d.
我们一般希望被统计量有这样的性质: 每个数据互相独立, 且服从相同的分布. 例如计算:
\[
E(\sum_{k=1}^N(X_K))=E(E\sum_{k=1}^nX_k|N=n)=E(NE(X_1)|N=n)= E(NE(X_1))=E(N)E(X_1)
\]
这里 \(X\) 和 \(N\) 都是随机变量. \(X_k\) i.i.d.
独立同分布在实验中是极其常见的, 因此经常被当作潜在的条件. 例如, 说明为什么样本方差 \(\bar{s}\) 的分母是 \(n-1\)
\[
\begin{aligned}
E((n-1)\bar{s})&=E(\sum_{k=1}^n(X_k-\bar{X})^2)=\sum_{k=1}^nE(X_k^2+\bar{X}^2-2X_k\bar{X})\\
&=\sum_{k=1}^nE(X_k^2)+n\bar{X}^2-2\bar{X}E(\sum_{k=1}^nX_k)\\
&=\sum_{k=1}^nE(X_k^2)+n\bar{X}^2-2n\bar{X}^2\\
&= E(\sum_{k=1}^nX_k^2-n\bar{X}^2)\\
&=E(nX_1^2-n(\frac{1}{n}\sum_{k=1}^nX_k)^2)\\
&=nE(X_1)^2-\frac{1}{n}(\sum_{k=1}^nX_k^2+\sum_{i\neq j}X_iX_j)\\
&=nE(X_1)^2-E(X_1)^2-\frac{1}{n}\sum_{i\neq j}E(X_i)E(X_j)\\
&=(n-1)E(X_1)^2-\frac{n(n-1)}{n}(E(X_1))^2\\
&=(n-1)[E(X_1)^2-(E(X_1))^2]\\
&=(n-1)\ \sigma^2
\end{aligned}
\]
这一长串最重要的就是应用了 i.i.d 的性质, 把变化多端的 \(X_k\) 用某一个 \(X_1\) 替代. 当然, 前提是必须有取期望的步骤, 要不然单论 \(X_1\) 还是无法与更随机的 \(X_k\) 等价. (也可以这样理解, 取期望的步骤实际上是抹除一定随机性的过程, 而揭露更本质的特征, 即同分布带来的那部分特征. )
条件方差
\[
Var(X|Y) = E((X-E(X|Y))^2|Y)
\]
只需要把原本方差定义中的期望都改为条件期望即可, 是自然的.
**Prop: **
\[
Var(X)=Var(E(X|Y))+E(Var(X|Y))
\]
Proof:
\[
\begin{aligned}
E(X-E(X))^2&=E(X-E(X|Y)+E(X|Y)-E(X))^2\\
&=E(X-E(X|Y))^2+E(E(X|Y)-E(X))^2\\
&=E[E((X-E(X|Y))^2|Y)]+E[E(X|Y)-E(E(X|Y)|Y)]^2\\
&=E(Var(X|Y))+Var(E(X|Y))
\end{aligned}
\]