Sample Space
Event Space
Probability Space
Target Space state
为避免直接使用概率空间,转而关注感兴趣的量,称为目标空间
Random Variable:
对于一组属于目标空间的情况
如若定义
Probability Mass Function, PMF, 概率质量函数:如果
对于离散概率,其可以表示为 Joint Proability,即
Probability Density Function, PDF, 概率密度函数:如果
Cumulative Distribution Function/CDF, 累积分布函数:$F_X(x) = P(X\leq x)$,其中
Naive Bayes
$$ \underbrace{P(x|y)}{\text{Posterior}} = \frac{\overbrace{P(y|x)}^{\text{Likelihood}}\overbrace{P(x)}^{\text{Prior}}}{\underbrace{P(y)}{\text{Evidence}}} $$
$$ \mathbb{E}X[g(x)] = \int{\mathcal{X}} g(x)f(x)dx\ \mathbb{E}X[g(x)] = \sum{x\in \mathcal{X}} g(x)f(x)dx\
\mathbb{E}_X[g(\mathbf{x})] = \begin{bmatrix} \mathbb{E}_X[g(x_1)]\ \mathbb{E}_X[g(x_2)]\ \vdots\ \mathbb{E}_X[g(x_D)] \end{bmatrix} \in \mathbb{R}^D $$
对于
$$ \text{Mean}_X(x) = \mathbb{E}_X[\mathbf{x}] = \begin{bmatrix} \mathbb{E}X[x_1]\ \mathbb{E}X[x_2]\ \vdots\ \mathbb{E}X[x_D] \end{bmatrix} \ \mathbb{E}{X_d}[x_d] := \left{ \begin{align} & \int\mathcal{X} x_d p(x_d) \mathrm{d}x_d \ & \sum{x_i \in \mathcal{X}} x_i p(x_d = x_i) \end{align} \right. $$
Linearity 线性性质:$\mathbb{E}[aX + bY] = a\mathbb{E}[X] + b\mathbb{E}[Y]$
Covarience:
$$ \begin{align} \text{Cov}{X, Y}[x, y] &:= \mathbb{E}{X, Y}[(x-\mathbb{E}_X[x])(y-\mathbb{E}Y[y])] \ &:= \mathbb{E}{X, Y}[xy + \mathbb{E}_X[x]\mathbb{E}_Y[y]
- y\mathbb{E}_X[x] - x\mathbb{E}_Y[y]] \
&:= \mathbb{E}_{X, Y}[xy + \mathbb{E}_X[x]\mathbb{E}_Y[y]
- \mathbb{E}_{X,Y}[x\mathbb{E}Y[y]] - \mathbb{E}{X,Y}[y\mathbb{E}_X[x]]] \
\end{align} \ 考虑 \mathbb{E}_Y[y] 和 \mathbb{E}_X[x] 为常数\
\begin{align} \text{Cov}{X, Y}[x, y] &:= \mathbb{E}{X, Y}[xy + \mathbb{E}_X[x]\mathbb{E}_Y[y]
- \mathbb{E}_{X,Y}[x\mathbb{E}Y[y]] - \mathbb{E}{X,Y}[y\mathbb{E}X[x]]] \ &:= \mathbb{E}{X, Y}[xy + \mathbb{E}_X[x]\mathbb{E}_Y[y]
- \mathbb{E}{X}[x]\mathbb{E}Y[y] - \mathbb{E}{Y}[y]\mathbb{E}X[x]]\ &:= \mathbb{E}{X, Y}[xy - \mathbb{E}{X}[x]\mathbb{E}Y[y] ]\ &:= \mathbb{E}{X, Y}[xy] - \mathbb{E}_{X}[x]\mathbb{E}_Y[y] \end{align} $$
即
$$
\begin{align} \text{Cov}{X, Y}[x, y] &:= \mathbb{E}{X, Y}[(x-\mathbb{E}X[x])(y-\mathbb{E}Y[y])] \ &:= \mathbb{E}{X, Y}[xy] - \mathbb{E}{X}[x]\mathbb{E}_Y[y] \end{align} $$
对于多维情况,有
$$ \mathbf{x}\in \mathbb{R}^D, \mathbf{y}\in \mathbb{R}^E\ \text{Cov}{X, Y}[\mathbf{x}, \mathbf{y}] = \mathbb{E}{X, Y}[\mathbf{x}\mathbf{y}^T] - \mathbb{E}_{X}[\mathbf{x}]\mathbb{E}Y[\mathbf{y}]^T = \text{Cov}{X, Y}[\mathbf{y}, \mathbf{x}]^T \in \mathbb{R}^{D\times E} $$
Varience: $$ \begin{align} \mathbb{V}_X(x) = \text{Var}[X] &= \text{Cov}_X[x, x]\ &= \mathbb{E}[(x-\mu)(x-\mu)^T]\ &= \mathbb{E}[xx^T] - \mathbb{E}[x]\mathbb{E}[x]^T &= \begin{bmatrix} \text{Conv}[x_1, x_1] & \text{Conv}[x_1, x_2] & \cdots & \text{Conv}[x_1, x_D]\ \text{Conv}[x_2, x_1] & \text{Conv}[x_2, x_2] & \cdots & \text{Conv}[x_2, x_D]\ \vdots & \vdots & \ddots & \vdots\ \text{Conv}[x_D, x_1] & \text{Conv}[x_D, x_2] & \cdots & \text{Conv}[x_D, x_D]\ \end{bmatrix}
\end{align}
$$
将两个变量的数据点绘制在二维坐标系中,协方差实际上反映了这些点形成的"椭圆云"的形状和方向。
- 正协方差表示椭圆主轴倾向于从左下到右上
- 负协方差则相反。
协方差的绝对值越大,椭圆越细长;接近于0时,则更接近圆形。
方差可以看作是协方差的特殊情况 - 即变量与自身的协方差。在几何上,这相当于将二维椭圆投影到对应的轴上。
Correlation: $$
\textrm{Corr}[x, y] = \frac{\textrm{Cov}[x, y]}{\sqrt{\mathbb{V}[x]\mathbb{V}[y]}}\in[-1, 1] $$
相关系数是协方差除以两个变量标准差的乘积,可以理解为"标准化"后的协方差。它的值介于-1到1之间,反映了椭圆的"瘦长"程度。
上述描述通常用于表示实际统计学中的数据集。但是我们无法实现真正意义上的统计学,我们可以对已观测到量进行经验(Empirical)估计。
Empirical Mean: $$ \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i $$
Empirical Covarience:
标准定义直观但需要两次遍历数据(先计算平均值,再计算方差)。
raw-score raw-score formula for variance $$ \mathbb{V}_X[x] = \mathbb{E}_X[x^2] - \mathbb{E}_X[x]^2 $$ 原始分数公式只需一次遍历,但可能有数值稳定性问题。
成对差异和提供了一个几何解释,表明方差可以通过计算点对之间的距离或点与中心的距离来理解。
$$ \begin{align} & \mathbb{E}[x+y] = \mathbb{E}[x] + \mathbb{E}[y]\ & \mathbb{E}[x-y] = \mathbb{E}[x] - \mathbb{E}[y]\ & \mathbb{V}[x+y] = \mathbb{V}[x] + \mathbb{V}[y]
- \text{Conv}[x, y] + \text{Conv}[y, x]\ & \mathbb{V}[x-y] = \mathbb{V}[x] + \mathbb{V}[y]
- \text{Conv}[x, y] - \text{Conv}[y, x]\ \end{align} $$
对于 affine transformation
对于 covarience:
$$ \begin{align} \text{Cov}{X,Y}[x, y] &= \mathbb{E}{X, Y}[xy] - \mathbb{E}_X{[x]}\mathbb{E}_Y{[y]}^T\ &= \mathbb{E}[x(Ax+b)^T] - \mathbb{E}{[x]}\mathbb{E}{[Ax+b]}^T\ &= \mathbb{E}[xA^Tx^T+xb^T] - \mu\mathbb{E}{[Ax+b]}^T\ &= \mathbb{E}[xx^T]A^T + \mathbb{E}[x]b^T - \mu(A^T\mu^T + b^T)\ &= \mathbb{E}[xx^T]A^T + \mu b^T - A^T\mu\mu^T - \mu b^T\ &= (\mathbb{E}[xx^T]-\mu\mu^T)A^T + \mu b^T - \mu b^T\ &= (\mathbb{E}[xx^T]-\mu\mu^T)A^T \ &= \Sigma A^T \end{align} $$
对于两个随机变量
$p(y\mid x) = p(y)$ $p(x\mid y) = p(x)$ - $\mathbb{V}{X, Y}[x, y] = \mathbb{V}{X}[x] + \mathbb{V}_{Y}[y]$
$\text{Conv}_{X, Y}[x, y] = 0$
Conditional Independence: 2个随机变量