统计中的相关系数是衡量两个定量变量X和Y在它们之间具有线性或比例关系的趋势的指标。
通常,变量X和Y对是同一总体的两个特征。例如,X可以是一个人的身高,Y可以是一个人的体重。
图1.四个数据对(X,Y)的相关系数。资料来源:F. Zapata。
在这种情况下,相关系数将指示给定人群中身高与体重之间是否存在比例关系的趋势。
皮尔逊的线性相关系数由小写字母r表示,其最小值和最大值分别为-1和+1。
值r = +1表示成对的对(X,Y)完全对齐,并且当X增长时,Y将以相同的比例增长。另一方面,如果碰巧r = -1,则对对也将完全对齐,但是在这种情况下,当X增加时,Y会以相同的比例减少。
图2.线性相关系数的不同值。资料来源:维基共享资源。
另一方面,值r = 0表示变量X和Y之间没有线性关系。而值r = +0.8表示对(X,Y)倾向于在一侧聚类,并且另一条线。
计算相关系数r的公式如下:
如何计算相关系数?
线性相关系数是科学计算器,大多数电子表格和统计程序中内置的统计量。
但是,很容易知道如何应用定义它的公式,为此,将显示在一个小的数据集上进行的详细计算。
如前一节所述,相关系数是协方差Sxy除以变量X的标准偏差Sx和变量Y的Sy的乘积。
协方差和方差
协方差Sxy为:
Sxy = /(N-1)
其中和从1到N对数据(Xi,Yi)。
就其本身而言,变量X的标准偏差是数据集Xi的方差的平方根,其中i从1到N:
Sx =√
同样,变量Y的标准偏差是数据集Yi的方差的平方根,其中i从1到N:
sy =√
说明性案例
为了详细显示如何计算相关系数,我们将采用以下四对数据集
(X,Y):{(1,1); (2. 3); (3,6)和(4,7)}。
首先,我们计算X和Y的算术平均值,如下所示:
然后计算其余参数:
协方差Sxy
Sxy = /(4-1)
Sxy = /(3)= 10.5 / 3 = 3.5
标准偏差Sx
Sx =√=√= 1.29
标准偏差Sy
Sx =√=
√= 2.75
相关系数r
r = 3.5 /(1.29 * 2.75)= 0.98
解释
在前一种情况的数据集中,观察到变量X和Y之间存在很强的线性相关性,这在散点图(如图1所示)和相关系数中均得到体现,从而得出价值非常接近统一。
如果相关系数更接近于1或-1,则线性回归的结果将数据拟合到一条线就越有意义。
线性回归
线性回归线是从最小二乘法获得的。其中,回归线的参数是从估算的Y值和N数据的Yi的差的平方和的最小化获得的。
另一方面,通过最小二乘法获得的回归线y = a + bx的参数a和b为:
* b = Sxy /(Sx 2)的斜率
* a =
回想一下,Sxy是上面定义的协方差,Sx 2是上面定义的标准偏差的方差或平方。
例
相关系数用于确定两个变量之间是否存在线性相关。当要研究的变量是定量的,并且假设它们服从正态分布时,则适用。
以下是一个说明性示例:肥胖程度的度量是体重指数,该指数是通过将一个人的体重(公斤)除以该人的身高(以米平方为单位)而获得的。
您想知道体重指数与血液中HDL胆固醇的浓度之间是否存在很强的相关性(以毫摩尔/升为单位)。为此,对533个人进行了研究,摘要如下图所示,其中每个点代表一个人的数据。
图3. 533例患者的BMI和HDL胆固醇研究。资料来源:阿拉贡健康科学研究所(IACS)。
仔细观察该图可知,HDL胆固醇浓度与体重指数之间存在一定的线性趋势(不是很明显)。该趋势的定量度量是相关系数,在这种情况下,相关系数为r = -0.276。
参考文献
- GonzálezC.一般统计。从以下位置恢复:tarwi.lamolina.edu.pe
- IACS。阿拉贡健康科学研究所。从以下地址恢复:ics-aragon.com
- Salazar C.和Castillo S.统计基本原理。(2018)。从以下位置恢复:dspace.uce.edu.ec
- 超级教授。相关系数。从以下位置恢复:superprof.es
- 美国空军。描述性统计手册。(2011)。从以下站点恢复:statistics.ingenieria.usac.edu.gt
- 维基百科。皮尔逊相关系数。从es.wikipedia.com中恢复。