\[ \newcommand{\bs}{\boldsymbol} \newcommand{\bsX}{\boldsymbol{X}} \newcommand{\bf}{\mathbf} \newcommand{\msc}{\mathscr} \newcommand{\mca}{\mathcal} \newcommand{\T}{\text{T}} \newcommand{\rme}{\mathrm{e}} \newcommand{\rmi}{\mathrm{i}} \newcommand{\rmj}{\mathrm{j}} \newcommand{\rmd}{\mathrm{d}} \newcommand{\rmm}{\mathrm{m}} \newcommand{\rmb}{\mathrm{b}} \newcommand{\and}{\land} \newcommand{\or}{\lor} \newcommand{\exist}{\exists} \newcommand{\sube}{\subseteq} \newcommand{\lr}[3]{\left#1 #2 \right#3} \newcommand{\intfy}{\int_{-\infty}^{+\infty}} \newcommand{\sumfy}[1]{\sum_{#1=-\infty}^{+\infty}} \newcommand{\vt}{\vartheta} \newcommand{\ve}{\varepsilon} \newcommand{\vp}{\varphi} \newcommand{\Var}{\text{Var}} \newcommand{\Cov}{\text{Cov}} \newcommand{\edef}{\xlongequal{def}} \newcommand{\prob}{\text{P}} \newcommand{\Exp}{\text{E}} \newcommand{\t}[1]{\text#1} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\versionofnewcommand}{\text{260125}} \]

Basic of Estimation

Methods of Estimation

从样本得到模型, 一般有两种方法:

非参数化的方法 (Non-Parametric), 例如 Clustering Classification
参数化的方法 (Parametric), 这是我们本节主要要讨论的

即, 已知服从某种形式的分布, 只是不知道其中的参数 \(\theta\) . 这样, 问题就转化成了根据样本给出的数据进行参数估计. 用符号的语言表达则是:

\[ \{ X_k \} \rightarrow \hat{\theta}\ (X_1, \cdots , X_k) \]

其中, \(\hat{\theta}\) 在 DSP 中称为 Estimator, 在统计学中被称为 Statistic, 在机器学习中被称为 Feature.

Distance

估计总归是有误差的, 因此要引入误差度量 Error Metric, 定义为 Distance:

\[ d(\hat{\theta}, \theta)=[E(\hat{\theta}-\theta)^2]^{\frac{1}{2}} \]

还就那个均方距离, 是真的好用捏.

其中 \(\hat{\theta}\) 是随机变量, \(\theta\) 是确定的未知常数 (至少频率学派如此认为).

为了方便 minimize \(E(\hat{\theta}-\theta)^2\), 我们仿照之前的做, 实施如下的分解:

\[ \begin{aligned} E(\hat{\theta}-\theta)^2&=E(\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta)^2\\&=E(\hat{\theta}-E(\hat{\theta}))^2+E(E(\hat{\theta})-\theta)^2 \end{aligned} \]

其中交叉项 \(=0\) 是容易证明的.

我们把 \(E(\hat{\theta}-E(\hat{\theta}))^2\) 定义为 Variance (随机误差) , \(E(E(\hat{\theta})-\theta)^2\) 定义为 Bias (系统误差). 同时, 我们希望让 variance 尽可能小, 因为 bias 是容易被修正的.

我们常说的 "无偏性" 即是 \(E(\hat{\theta})=\theta\), 即 Bias \(=0\). 这是我们后续讨论的基本要求, 要是无偏都保证不了, 那这个估计也做得太差了点 (

再引入一个概念: 若估计依赖于 \(n\) 个数据, 且 \(n\to\infty\) 时, distance \(\to 0\), 则称估计 "相合 (cosistance)"

独立同分布 i.i.d.

我们一般希望被统计量有这样的性质: 每个数据互相独立, 且服从相同的分布. 例如计算:

\[ E(\sum_{k=1}^N(X_K))=E(E\sum_{k=1}^nX_k|N=n)=E(NE(X_1)|N=n)= E(NE(X_1))=E(N)E(X_1) \]

这里 \(X\) 和 \(N\) 都是随机变量. \(X_k\) i.i.d.

独立同分布在实验中是极其常见的, 因此经常被当作潜在的条件. 例如, 说明为什么样本方差 \(\bar{s}\) 的分母是 \(n-1\)

\[ \begin{aligned} E((n-1)\bar{s})&=E(\sum_{k=1}^n(X_k-\bar{X})^2)=\sum_{k=1}^nE(X_k^2+\bar{X}^2-2X_k\bar{X})\\ &=\sum_{k=1}^nE(X_k^2)+n\bar{X}^2-2\bar{X}E(\sum_{k=1}^nX_k)\\ &=\sum_{k=1}^nE(X_k^2)+n\bar{X}^2-2n\bar{X}^2\\ &= E(\sum_{k=1}^nX_k^2-n\bar{X}^2)\\ &=E(nX_1^2-n(\frac{1}{n}\sum_{k=1}^nX_k)^2)\\ &=nE(X_1)^2-\frac{1}{n}(\sum_{k=1}^nX_k^2+\sum_{i\neq j}X_iX_j)\\ &=nE(X_1)^2-E(X_1)^2-\frac{1}{n}\sum_{i\neq j}E(X_i)E(X_j)\\ &=(n-1)E(X_1)^2-\frac{n(n-1)}{n}(E(X_1))^2\\ &=(n-1)[E(X_1)^2-(E(X_1))^2]\\ &=(n-1)\ \sigma^2 \end{aligned} \]

这一长串最重要的就是应用了 i.i.d 的性质, 把变化多端的 \(X_k\) 用某一个 \(X_1\) 替代. 当然, 前提是必须有取期望的步骤, 要不然单论 \(X_1\) 还是无法与更随机的 \(X_k\) 等价. (也可以这样理解, 取期望的步骤实际上是抹除一定随机性的过程, 而揭露更本质的特征, 即同分布带来的那部分特征. )

条件方差

\[ Var(X|Y) = E((X-E(X|Y))^2|Y) \]

只需要把原本方差定义中的期望都改为条件期望即可, 是自然的.

**Prop: **

\[ Var(X)=Var(E(X|Y))+E(Var(X|Y)) \]

Proof:

\[ \begin{aligned} E(X-E(X))^2&=E(X-E(X|Y)+E(X|Y)-E(X))^2\\ &=E(X-E(X|Y))^2+E(E(X|Y)-E(X))^2\\ &=E[E((X-E(X|Y))^2|Y)]+E[E(X|Y)-E(E(X|Y)|Y)]^2\\ &=E(Var(X|Y))+Var(E(X|Y)) \end{aligned} \]