协方差的意义
1个回答
展开全部
什么是协方差,为什么有些地方会用到协方差。
核心意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
正相关和负相关的直观理解:
特点:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。
特点:当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。
特点:当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。
怎样将这3种相关情况,用一个简单的数字表达出来呢?
在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
重点解释:所谓正相关。只是说某种分布主要覆盖区域(1)与区域(3),例如99.7%数据是这种特性,极少数据覆盖区域(2)与区域(4)
同理,所谓负相关,应该是某种分布主要覆盖(2)、(4),极小部分覆盖(1)、(3)。
所谓不相关,等于(1)(2)(3)(4)分布都差不多。
数值绝对值大小,应该表示这种相关性的强烈程度。
从公式上看:
上图是方差的公式,用以度量各个维度偏离其均值的程度。
协方差公式由方差的公式推广而来,用于描述维度之间的线性相关性。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
具体如何计算?
例如有如下数据:
每一列表示一个维度,每一行表示一个样本。
如何计算协方差?当然,我们有api,如果不使用api,是否能自己写?我们按照公式,写了如下测试程序:
计算出维度之间的协方差,我们就可以组织协方差矩阵。协方差矩阵可以快速定位维度之间的协方差。
上述解释详见下面文章:
# 终于明白协方差的意义了
核心意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
正相关和负相关的直观理解:
特点:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。
特点:当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。
特点:当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。
怎样将这3种相关情况,用一个简单的数字表达出来呢?
在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
重点解释:所谓正相关。只是说某种分布主要覆盖区域(1)与区域(3),例如99.7%数据是这种特性,极少数据覆盖区域(2)与区域(4)
同理,所谓负相关,应该是某种分布主要覆盖(2)、(4),极小部分覆盖(1)、(3)。
所谓不相关,等于(1)(2)(3)(4)分布都差不多。
数值绝对值大小,应该表示这种相关性的强烈程度。
从公式上看:
上图是方差的公式,用以度量各个维度偏离其均值的程度。
协方差公式由方差的公式推广而来,用于描述维度之间的线性相关性。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
具体如何计算?
例如有如下数据:
每一列表示一个维度,每一行表示一个样本。
如何计算协方差?当然,我们有api,如果不使用api,是否能自己写?我们按照公式,写了如下测试程序:
计算出维度之间的协方差,我们就可以组织协方差矩阵。协方差矩阵可以快速定位维度之间的协方差。
上述解释详见下面文章:
# 终于明白协方差的意义了
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询