中心极限定理(Central Limit Theorem, CLT)是概率论中最优美的定理之一:大量独立随机变量之和,经标准化后,其分布按分布收敛于标准正态分布 N(0,1)——无论原始变量服从什么分布!
独立同分布下的 CLT(林德伯格-莱维定理)
设 X1,X2,… 独立同分布,E(X1)=μ,Var(X1)=σ2(有限)。记 Sn=∑i=1nXi。则对任意 x:
limn→∞P(σnSn−nμ≤x)=Φ(x)=2π1∫−∞xe−t2/2dt
或等价地:
σnSn−nμdN(0,1)
核心结论
- 无论 Xi 原本是什么分布(二项、泊松、均匀、指数……),只要方差有限,标准化后的和必定趋向正态
- 这解释了正态分布在自然界中的普遍性——任何由大量微小独立因素叠加而成的量,都近似服从正态分布
另一种写法
σ/nXˉn−μdN(0,1)
样本均值的波动以 1/n 的速率减小,极限分布为正态。
棣莫弗-拉普拉斯定理(二项分布的正态近似)
设 Yn∼B(n,p)。则对任意 x:
limn→∞P(np(1−p)Yn−np≤x)=Φ(x)
这是独立同分布 CLT 的特例(伯努利变量之和即为二项分布)。
连续性修正
用正态分布近似二项分布时,因二项是离散的,正态是连续的,应在整数边界处做 0.5 修正:
P(Yn=k)≈Φ(np(1−p)k+0.5−np)−Φ(np(1−p)k−0.5−np)
P(a≤Yn≤b)≈Φ(np(1−p)b+0.5−np)−Φ(np(1−p)a−0.5−np)
近似条件
一般 np≥5 且 n(1−p)≥5 时近似效果较好。
独立不同分布下的 CLT(李雅普诺夫定理)
若 X1,X2,… 独立但不必同分布,在满足李雅普诺夫条件(某种高阶矩条件)下,标准化和仍收敛于 N(0,1)。
记 E(Xk)=μk,Var(Xk)=σk2,Bn2=∑k=1nσk2。
李雅普诺夫条件:存在 δ>0,使:
Bn2+δ1∑k=1nE(∣Xk−μk∣2+δ)→0(n→∞)
满足此条件则:
Bn∑k=1n(Xk−μk)dN(0,1)
CLT 的证明概要(特征函数法)
- 设 Yi=σXi−μ,则 E(Yi)=0,Var(Yi)=1
- 令 Zn=n1∑i=1nYi,求其特征函数:
φZn(t)=[φY1(t/n)]n
- 泰勒展开 φY1 在 0 附近:
φY1(s)=1−2s2+o(s2)
- φZn(t)=[1−2nt2+o(n1)]n⟶e−t2/2
- 由 Lévy 连续性定理,ZndN(0,1)
CLT 的应用
| 领域 | 应用 |
|---|
| 区间估计 | 用正态分位数构造置信区间 |
| 假设检验 | z 检验、t 检验 |
| 质量控制 | 控制图的 3σ 原则 |
| 保险精算 | 总赔付额近似正态 |
| 测量误差 | 误差近似正态 |
| 金融 | 资产对数收益率近似正态 |
大数定律 vs 中心极限定理
| 大数定律 | 中心极限定理 |
|---|
| 告诉什么 | Xˉn→μ(收敛到常数) | n(Xˉn−μ)/σdN(0,1)(波动量级和分布) |
| 波动量级 | 不说明 | O(1/n) |
| 波动分布 | 不说明 | 正态分布 |
| 精度 | 一阶近似 | 二阶近似 |
| 对分布要求 | 期望存在 | 方差有限 |