Skip to main content

条件分布与条件期望

条件分布描述"已知 Y=yY = yXX 的分布"。条件期望 E(YX)E(Y \mid X) 是给定 XX 的取值时 YY 的"最优预测"。

离散型

条件分布列

P(X=xiY=yj)=pijpj,pj>0P(X = x_i \mid Y = y_j) = \frac{p_{ij}}{p_{\cdot j}}, \quad p_{\cdot j} > 0

固定 Y=yjY = y_j{P(X=xiY=yj)}\{P(X = x_i \mid Y = y_j)\} 是一族概率(对应随机变量 XY=yjX \mid Y = y_j)。

条件期望

E(XY=yj)=ixiP(X=xiY=yj)E(X \mid Y = y_j) = \sum_i x_i \cdot P(X = x_i \mid Y = y_j)

连续型

条件密度

fXY(xy)=f(x,y)fY(y),fY(y)>0f_{X \mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)}, \quad f_Y(y) > 0

条件期望

E(XY=y)=xfXY(xy)dxE(X \mid Y = y) = \int_{-\infty}^{\infty} x \, f_{X \mid Y}(x \mid y)\,dx

条件方差

Var(XY=y)=E(X2Y=y)[E(XY=y)]2\operatorname{Var}(X \mid Y = y) = E(X^2 \mid Y = y) - [E(X \mid Y = y)]^2

全期望公式

条件期望最重要的工具:

E(X)=E[E(XY)]E(X) = E[E(X \mid Y)]

对离散型:E(X)=jE(XY=yj)P(Y=yj)E(X) = \sum_j E(X \mid Y = y_j) \cdot P(Y = y_j)

对连续型:E(X)=E(XY=y)fY(y)dyE(X) = \int E(X \mid Y = y) \cdot f_Y(y)\,dy

全方差公式

Var(X)=E[Var(XY)]+Var[E(XY)]\operatorname{Var}(X) = E[\operatorname{Var}(X \mid Y)] + \operatorname{Var}[E(X \mid Y)]

组内方差期望 + 组间期望方差

应用:分层抽样

将总体按 YY 分层,组内方差反映每层内部的波动,组间方差反映各层均值之间的差异。全方差公式是分层抽样方差分析的基础。

条件期望的性质

  1. 线性性E(aX+bZY)=aE(XY)+bE(ZY)E(aX + bZ \mid Y) = aE(X \mid Y) + bE(Z \mid Y)
  2. 独立性:若 X ⁣ ⁣ ⁣YX \perp\!\!\!\perp Y,则 E(XY)=E(X)E(X \mid Y) = E(X)
  3. 抽出已知E(h(Y)XY)=h(Y)E(XY)E(h(Y)X \mid Y) = h(Y)E(X \mid Y)
  4. 全期望迭代E[E(XY,Z)Y]=E(XY)E[E(X \mid Y, Z) \mid Y] = E(X \mid Y)
  5. 最优预测E(YX)E(Y \mid X)YY 关于 XX 的最小均方误差预测

E(YX)E(Y \mid X) 是最优预测

在均方误差意义下,E(YX)E(Y \mid X) 是用 XX 预测 YY 的最优函数:

E(YX)=argmingE[(Yg(X))2]E(Y \mid X) = \arg\min_{g} E[(Y - g(X))^2]

其中 gg 取遍所有可测函数。线性回归给出的 aX+baX+b 是所有线性函数中的最优预测,而 E(YX)E(Y \mid X) 是所有函数中的最优预测。