条件分布描述"已知 Y=y 时 X 的分布"。条件期望 E(Y∣X) 是给定 X 的取值时 Y 的"最优预测"。
离散型
条件分布列
P(X=xi∣Y=yj)=p⋅jpij,p⋅j>0
固定 Y=yj,{P(X=xi∣Y=yj)} 是一族概率(对应随机变量 X∣Y=yj)。
条件期望
E(X∣Y=yj)=∑ixi⋅P(X=xi∣Y=yj)
连续型
条件密度
fX∣Y(x∣y)=fY(y)f(x,y),fY(y)>0
条件期望
E(X∣Y=y)=∫−∞∞xfX∣Y(x∣y)dx
条件方差
Var(X∣Y=y)=E(X2∣Y=y)−[E(X∣Y=y)]2
全期望公式
条件期望最重要的工具:
E(X)=E[E(X∣Y)]
对离散型:E(X)=∑jE(X∣Y=yj)⋅P(Y=yj)
对连续型:E(X)=∫E(X∣Y=y)⋅fY(y)dy
全方差公式
Var(X)=E[Var(X∣Y)]+Var[E(X∣Y)]
组内方差期望 + 组间期望方差。
应用:分层抽样
将总体按 Y 分层,组内方差反映每层内部的波动,组间方差反映各层均值之间的差异。全方差公式是分层抽样方差分析的基础。
条件期望的性质
- 线性性:E(aX+bZ∣Y)=aE(X∣Y)+bE(Z∣Y)
- 独立性:若 X⊥⊥Y,则 E(X∣Y)=E(X)
- 抽出已知:E(h(Y)X∣Y)=h(Y)E(X∣Y)
- 全期望迭代:E[E(X∣Y,Z)∣Y]=E(X∣Y)
- 最优预测:E(Y∣X) 是 Y 关于 X 的最小均方误差预测
E(Y∣X) 是最优预测
在均方误差意义下,E(Y∣X) 是用 X 预测 Y 的最优函数:
E(Y∣X)=argmingE[(Y−g(X))2]
其中 g 取遍所有可测函数。线性回归给出的 aX+b 是所有线性函数中的最优预测,而 E(Y∣X) 是所有函数中的最优预测。