Skip to main content

中心极限定理

中心极限定理(Central Limit Theorem, CLT)是概率论中最优美的定理之一:大量独立随机变量之和,经标准化后,其分布按分布收敛于标准正态分布 N(0,1)N(0, 1)——无论原始变量服从什么分布!

独立同分布下的 CLT(林德伯格-莱维定理)

X1,X2,X_1, X_2, \ldots 独立同分布E(X1)=μE(X_1) = \muVar(X1)=σ2\operatorname{Var}(X_1) = \sigma^2(有限)。记 Sn=i=1nXiS_n = \sum_{i=1}^{n} X_i。则对任意 xxlimnP ⁣(Snnμσnx)=Φ(x)=12πxet2/2dt\lim_{n \to \infty} P\!\left(\frac{S_n - n\mu}{\sigma\sqrt{n}} \leq x\right) = \Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x} e^{-t^2/2}\,dt

或等价地:

SnnμσndN(0,1)\frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0, 1)

核心结论

  • 无论 XiX_i 原本是什么分布(二项、泊松、均匀、指数……),只要方差有限,标准化后的和必定趋向正态
  • 这解释了正态分布在自然界中的普遍性——任何由大量微小独立因素叠加而成的量,都近似服从正态分布

另一种写法

Xˉnμσ/ndN(0,1)\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

样本均值的波动以 1/n1/\sqrt{n} 的速率减小,极限分布为正态。

棣莫弗-拉普拉斯定理(二项分布的正态近似)

YnB(n,p)Y_n \sim B(n, p)。则对任意 xxlimnP ⁣(Ynnpnp(1p)x)=Φ(x)\lim_{n \to \infty} P\!\left(\frac{Y_n - np}{\sqrt{np(1-p)}} \leq x\right) = \Phi(x)

这是独立同分布 CLT 的特例(伯努利变量之和即为二项分布)。

连续性修正

用正态分布近似二项分布时,因二项是离散的,正态是连续的,应在整数边界处做 0.50.5 修正

P(Yn=k)Φ ⁣(k+0.5npnp(1p))Φ ⁣(k0.5npnp(1p))P(Y_n = k) \approx \Phi\!\left(\frac{k + 0.5 - np}{\sqrt{np(1-p)}}\right) - \Phi\!\left(\frac{k - 0.5 - np}{\sqrt{np(1-p)}}\right)

P(aYnb)Φ ⁣(b+0.5npnp(1p))Φ ⁣(a0.5npnp(1p))P(a \leq Y_n \leq b) \approx \Phi\!\left(\frac{b + 0.5 - np}{\sqrt{np(1-p)}}\right) - \Phi\!\left(\frac{a - 0.5 - np}{\sqrt{np(1-p)}}\right)

近似条件

一般 np5np \geq 5n(1p)5n(1-p) \geq 5 时近似效果较好。

独立不同分布下的 CLT(李雅普诺夫定理)

X1,X2,X_1, X_2, \ldots 独立但不必同分布,在满足李雅普诺夫条件(某种高阶矩条件)下,标准化和仍收敛于 N(0,1)N(0, 1)

E(Xk)=μkE(X_k) = \mu_kVar(Xk)=σk2\operatorname{Var}(X_k) = \sigma_k^2Bn2=k=1nσk2B_n^2 = \sum_{k=1}^{n} \sigma_k^2

李雅普诺夫条件:存在 δ>0\delta > 0,使:

1Bn2+δk=1nE(Xkμk2+δ)0(n)\frac{1}{B_n^{2+\delta}} \sum_{k=1}^{n} E(|X_k - \mu_k|^{2+\delta}) \to 0 \quad (n \to \infty)

满足此条件则:

k=1n(Xkμk)BndN(0,1)\frac{\sum_{k=1}^{n} (X_k - \mu_k)}{B_n} \xrightarrow{d} N(0, 1)

CLT 的证明概要(特征函数法)

  1. Yi=XiμσY_i = \dfrac{X_i - \mu}{\sigma},则 E(Yi)=0E(Y_i) = 0Var(Yi)=1\operatorname{Var}(Y_i) = 1
  2. Zn=1ni=1nYiZ_n = \dfrac{1}{\sqrt{n}}\sum_{i=1}^{n} Y_i,求其特征函数: φZn(t)=[φY1(t/n)]n\varphi_{Z_n}(t) = [\varphi_{Y_1}(t/\sqrt{n})]^n
  3. 泰勒展开 φY1\varphi_{Y_1}00 附近: φY1(s)=1s22+o(s2)\varphi_{Y_1}(s) = 1 - \frac{s^2}{2} + o(s^2)
  4. φZn(t)=[1t22n+o ⁣(1n)]net2/2\varphi_{Z_n}(t) = \left[1 - \frac{t^2}{2n} + o\!\left(\frac{1}{n}\right)\right]^n \longrightarrow e^{-t^2/2}
  5. 由 Lévy 连续性定理,ZndN(0,1)Z_n \xrightarrow{d} N(0, 1)

CLT 的应用

领域应用
区间估计用正态分位数构造置信区间
假设检验zz 检验、tt 检验
质量控制控制图的 3σ3\sigma 原则
保险精算总赔付额近似正态
测量误差误差近似正态
金融资产对数收益率近似正态

大数定律 vs 中心极限定理

大数定律中心极限定理
告诉什么Xˉnμ\bar{X}_n \to \mu(收敛到常数)n(Xˉnμ)/σdN(0,1)\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)(波动量级和分布)
波动量级不说明O(1/n)O(1/\sqrt{n})
波动分布不说明正态分布
精度一阶近似二阶近似
对分布要求期望存在方差有限