概率论概率论 相关系数怎么算
相关系数
正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。
但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?
这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!
为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。它的定义如下:
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
依然使用上面的身高和体重数据,可以计算出
Var(X)=0.3×(60−70)2+0.3×(80−70)2=60
Var(Y)=0.3×(180−170)2+0.3×(160−170)2=60
ρ=30/60=0.5
这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。
双变量正态分布
双变量正态分布是一种常见的联合分布。它描述了两个随机变量X1和X2的概率分布。概率密度的表达式如下:
X1和X2的边缘密度分别为两个正态分布,即正态分布N(μ1,σ1), N(μ2,σ2)。
另一方面,除非ρ=0,否则联合分布也并不是两个正态分布的简单相乘。可以证明,ρ正是双变量正态分布中,两个变量的相关系数。
现在绘制该分布的图像。可惜的是,现在的scipy.stats并没有该分布。需要自行编写。
选取所要绘制的正态分布,为了简单起见,让μ1=0, μ2=0, σ1=1,σ2=1。
我们先让ρ=0,此时的联合分布相当于两个正态分布的乘积。绘制不同视角的同一分布,结果如下。可以看到,概率分布是中心对称的。
再让ρ=0.8,也就是说,两个随机变量的相关系数为0.8。绘制不同视角的同一分布,结果如下。可以看到,概率分布并不中心对称。沿着Y=X这条线,概率曲面隆起,概率明显比较高。而沿着Y=−X这条线,概率较低。这也就是我们所说的正相关。
现在,ρ对于我们来说,有了更具体的现实意义。
EY = -1*3/4 + 1*1/4 = -1/2
XY的可能值为1和-1
P{XY=1} = P{X=1,Y=1} + P{X=-1,Y=-1} = 1/4+1/4 = 1/2
P{XY=-1} = P{X=1,Y=-1} + P{X=-1,Y=1} = 1/2+0 = 1/2
所以E(XY) = 1*1/2 + (-1)*1/2 = 0
因为E(X^2) = E(Y^2) = 1
所以D(X) = 1-(1/2)^2 = 3/4
D(Y) = 1/(-1/2)^2 = 3/4
把E(XY), E(X), E(Y), D(X), D(Y) 代入公式即可