对相关系数进行解释时应注意什么
r
表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
答:应该注意以下几点:
(1)相关系数是一个指标值,它表示两个变量之间的关系程度。相关系数不是等距的测量值,因此在比较相关程度时,不能用倍数关系说明,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=0.50的两列数值比相关系数r=0.25的两列数值之间的关系更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍,也不能说相关系数从0.25增加到0.50就等于从0.65增加到090。相关关系不能用倍数关系来解释。
(2)相关系数值的大小表明了两列测量数据相互间的相关程度。-0.60的相关系数值与0.60的相关系数值所表示的关系程度是一样的,它们仅仅是方向上不同。一个强相关意味着两个变量之间有密切关系。当一个变量的值发生变化时,会发现另一个变量的值也会产生相应的变化。这样,如果在能力测验与学业成就测量之间出现一个强相关,那么选拔出那些具有较高能力的被试,他们的学业成就测验也将倾向于出现高分。当存在这种强相关时,就能用这个相关关系根据一个变量的测量分数预测另一个变量的测量分数。
(3)当两个变量之间的关系受到其他变量的影响时,两者之间的高强度相关很可能是一种假象。这里有一个例子。在美国人中,鞋子的大小与人的言语能力存在一个中等程度的正相关:即穿鞋子越大的人言语能力水平越高。显然,这两个变量之间不存在因果关系。当提出这一结论时,美国人口中包括大量的儿童。年幼的儿童脚比较小,语词能力也较弱。随着儿童的成长,他们获得了大量的言语技能,他们的脚也变大了。“年龄”因素是言语能力增加和脚变大的一个基本原因,正是它导致了鞋码的大小与言语能力之间出现虚假的相关(spurious relationship),或称为伪相关。因此,有时候两列变量之间算出的相关系数没有任何实际价值。