相关系数公式是什么?
相关系数r的计算公式是ρXY=Cov(X,Y)/√[D(X)]√[D(Y)]。
公式描述:公式中Cov(X,Y)为X,Y的协方差,D(X)、D(Y)分别为X、Y的方差。
若Y=a+bX,则有:
令E(X) =μ,D(X) =σ。
则E(Y) = bμ+a,D(Y) = bσ。
E(XY) = E(aX + bX) = aμ+b(σ+μ)。
Cov(X,Y) = E(XY)−E(X)E(Y) = bσ。
变量间的这种相互关系,称为具有不确定性的相关关系。
⑴完全相关:两个变量之间的关系,一个变量的数量变化由另一个变量的数量变化所惟一确定,即函数关系。
⑵不完全相关:两个变量之间的关系介于不相关和完全相关之间。
⑶不相关:如果两个变量彼此的数量变化互相独立,没有关系。
相关系数公式是ρXY=Cov(X,Y)/√[D(X)]√[D(Y)]。公式中Cov(X,Y)为X,Y的协方差,D(X)、D(Y)分别为X、Y的方差。
公式。
若Y=a+bX,则有:
令E(X) =μ,D(X) =σ。
则E(Y) = bμ+a,D(Y) = bσ。
E(XY) = E(aX + bX) = aμ+b(σ+μ)。
Cov(X,Y) = E(XY)−E(X)E(Y) = bσ。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量。
相关系数按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度,着重研究线性的单相关系数。当相关系数较大时,通常说X和Y相关程度较好;当相关系数较小时,通常说X和Y相关程度较差。
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1。
当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
皮尔逊相关系数(Pearson correlation coefficient)公式:
r = Cov(X,Y) / (σX * σY)
其中,r表示皮尔逊相关系数,Cov(X,Y)表示X和Y的协方差,σX和σY分别表示X和Y的标准差。
斯皮尔曼相关系数(Spearman correlation coefficient)公式:
ρ = 1 - (6 * Σd^2) / (n * (n^2 - 1))
其中,ρ表示斯皮尔曼相关系数,d表示X和Y的等级差,n表示样本容量。
这两个相关系数公式都是用来衡量两个变量之间的关系强度,取值范围在-1到1之间。当相关系数为1时,表示两个变量完全正相关,当相关系数为-1时,表示两个变量完全负相关,当相关系数为0时,表示两个变量之间没有线性关系。
皮尔逊相关系数公式如下:
r = Σ((x - ȳ)( ȳ)) / sqrt(Σ(x - ȳ)² * Σ(y - ȳ²)
其中,r表示皮尔逊系数和别表示两个变量的取,表示的平均值。
皮尔逊相关数值范围为-到1,体解释下:
- 当r等于时,表示完全正相关,即两个变量呈完全线性关系,随一个变量的加,另一个变量也会增加。
- 当r等于-1时,完全负相关,即两个变量呈完全线性关系,随着一个变量的增,另一个变量会减。
- 当r等于0时,表示线性相关即两个变量之间不存在线性关。
- 当r介于-1和1之间时,表示存在一定程度的线性相关,r的值越接近1,相关程度越。
1. 皮尔逊相关系数(Pearson correlation coefficient):
皮尔逊相关系数衡量的是两个变量之间的线性关系强度,取值范围为-1到1。公式如下:
r = (Σ((X - X̄)(Y - Ȳ))) / (n * σX * σY)
其中,r为皮尔逊相关系数,X和Y分别为两个变量的取值,X̄和Ȳ分别为两个变量的均值,σX和σY分别为两个变量的标准差,n为样本容量。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):
斯皮尔曼相关系数衡量的是两个变量之间的单调关系强度,不要求变量之间是线性关系。公式如下:
ρ = 1 - (6 * Σd^2) / (n * (n^2 - 1))
其中,ρ为斯皮尔曼相关系数,d为两个变量的秩次差,n为样本容量。
需要注意的是,相关系数只能衡量两个变量之间的关系强度,不能确定因果关系。