Skip to main content

协方差与相关系数

协方差衡量两个随机变量协同变化的方向和程度;相关系数是标准化后的协方差,取值在 [1,1][-1, 1] 之间,刻画线性相关性

协方差

定义

Cov(X,Y)=E[(XEX)(YEY)]\operatorname{Cov}(X, Y) = E[(X - EX)(Y - EY)]

计算公式

Cov(X,Y)=E(XY)E(X)E(Y)\operatorname{Cov}(X, Y) = E(XY) - E(X)E(Y)

性质

性质公式
对称性Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)
自身Cov(X,X)=Var(X)\operatorname{Cov}(X, X) = \operatorname{Var}(X)
线性Cov(aX+b,cY+d)=acCov(X,Y)\operatorname{Cov}(aX + b, cY + d) = ac \cdot \operatorname{Cov}(X, Y)
分配律Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\operatorname{Cov}(X+Y, Z) = \operatorname{Cov}(X, Z) + \operatorname{Cov}(Y, Z)
独立性X ⁣ ⁣ ⁣YCov(X,Y)=0X \perp\!\!\!\perp Y \Rightarrow \operatorname{Cov}(X, Y) = 0(反之不真!)

注意Cov(X,Y)=0\operatorname{Cov}(X, Y) = 0 仅意味着不(线性)相关,但 XXYY 可能仍有非线性依赖关系。

方差的和

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X, Y)

推广到 nn 个变量:

Var ⁣(i=1nXi)=i=1nVar(Xi)+2i<jCov(Xi,Xj)\operatorname{Var}\!\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \operatorname{Var}(X_i) + 2\sum_{i<j} \operatorname{Cov}(X_i, X_j)

当各变量两两不相关时,方差具有可加性。

相关系数

定义

ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \cdot \operatorname{Var}(Y)}}

基本性质

性质说明
$\rho
ρ=0\rho = 0XXYY 不相关
ρ=±1\rho = \pm 1Y=aX+bY = aX + b(几乎处处),即完全线性相关
ρ>0\rho > 0正相关(XX 大时 YY 也倾向于大)
ρ<0\rho < 0负相关(XX 大时 YY 倾向于小)

独立 \Rightarrow 不相关,反之不真

反例XN(0,1)X \sim N(0, 1)Y=X2Y = X^2。则 Cov(X,Y)=E(X3)E(X)E(X2)=0\operatorname{Cov}(X, Y) = E(X^3) - E(X)E(X^2) = 0,故 ρ=0\rho = 0。但显然 XXYY 完全不独立——YY 完全由 XX 决定。

协方差矩阵

对随机向量 X=(X1,,Xn)\mathbf{X} = (X_1, \ldots, X_n)^\top协方差矩阵 Σ\Sigma 的元素为:

Σij=Cov(Xi,Xj)\Sigma_{ij} = \operatorname{Cov}(X_i, X_j)

性质:

  1. Σ\Sigma 是对称矩阵
  2. Σ\Sigma半正定矩阵
  3. 对角线元素 Σii=Var(Xi)\Sigma_{ii} = \operatorname{Var}(X_i)
  4. 独立 \Rightarrow Σ\Sigma 为对角阵
  5. 多元正态分布完全由均值向量 μ\boldsymbol{\mu} 和协方差矩阵 Σ\Sigma 确定

重要结论

  • 协方差为 00 \nRightarrow 独立(除非在多元正态中)
  • 相关系数只衡量线性相关程度
  • Y=g(X)Y = g(X) 是确定性函数,协方差可能为零(如 gg 为偶函数、XX 对称分布)