所述确定的系数为0和1之间的数字,表示后面的数据集的拟合的两个变量的回归直线的点(X,Y)的分数。
它也被称为拟合优度,用R 2表示。为了进行计算,采用由回归模型估计的数据Ŷi的方差与对应于每个数据Xi的数据Yi的方差之间的商。
R 2 =Sŷ/ Sy
图1.四对数据的相关系数。资料来源:F. Zapata。
如果100%的数据位于回归函数的直线上,则确定系数为1。
相反,如果对于一个数据集和某个拟合函数,系数R 2等于0.5,则可以说拟合是50%令人满意或良好。
同样,当回归模型得出的R 2值小于0.5时,这表明所选的调整函数不能令人满意地适应数据,因此有必要搜索另一个调整函数。
并且当协方差或相关系数趋于零时,则数据中的变量X和Y不相关,因此R 2也趋于零。
如何计算确定系数?
在上一节中,已经说过,确定系数是通过找到方差之间的商来计算的:
-由变量Y的回归函数估计
-对应于N个数据对的每个变量Xi的变量Yi的变量。
从数学上讲,它看起来像这样:
R 2 =Sŷ/ Sy
从该公式得出,R 2代表回归模型解释的方差比例。或者,可以使用以下公式来计算R 2,该公式与上一个公式完全等效:
R 2 = 1-(Sε/ Sy)
其中Sε表示残差εi=Ŷi-Yi的方差,而Sy是数据的Yi值集的方差。为了确定Ŷi,应用回归函数,这意味着确认Ŷi= f(Xi)。
数据集Yi的方差(i从1到N)的计算方法如下:
sy =
然后以类似的方式处理Sŷ或Sε。
说明性案例
为了显示有关如何计算确定系数的详细信息,我们将采用以下四对数据集:
(X,Y):{(1,1); (2. 3); (3,6)和(4,7)}。
针对此数据集提出了线性回归拟合,可使用最小二乘法获得:
f(x)= 2.1 x-1
应用此调整功能可获得以下转矩:
(X,Ŷ):{(1,1.1); (2,3.2); (3,5.3)和(4,7.4)}。
然后我们计算X和Y的算术平均值:
方差Sy
SY = /(4-1)=
= = 7,583
方差Sŷ
Sŷ= /(4-1)=
= = 7.35
测定系数R 2
R 2 =Sŷ/ Sy = 7.35 / 7.58 = 0.97
解释
在上一段中考虑的说明性情况的确定系数结果为0.98。换句话说,通过函数进行线性调整:
f(x)= 2.1x-1
在解释使用最小二乘法获得的数据时,它具有98%的可靠性。
除了确定系数外,还有线性相关系数或也称为皮尔逊系数。该系数表示为r,由以下关系式计算:
r = Sxy /(Sx Sy)
此处的分子表示变量X和Y之间的协方差,而分母是变量X的标准偏差和变量Y的标准偏差的乘积。
皮尔逊系数可以取-1和+1之间的值。当该系数趋于+1时,X和Y之间存在直接的线性相关性。如果趋向于-1,则存在线性相关性,但是当X增大时Y减小。最后,它接近于0,两个变量之间没有相关性。
应该注意的是,仅当已经基于线性拟合计算出第一个系数时,确定系数才与Pearson系数的平方重合,但是该等式对其他非线性拟合无效。
例子
-范例1
一群高中生着手确定摆周期的经验定律,作为其长度的函数。为了实现此目标,他们进行了一系列测量,在这些测量中,测量了不同长度的摆振动的时间,获得以下值:
长度(米) | 期间 |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
之一 | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
要求绘制数据散点图,并通过回归进行线性拟合。同时,显示回归方程及其确定系数。
解
图2.练习1的解图。来源:F. Zapata。
可以观察到相当高的确定系数(95%),因此可以认为线性拟合是最佳的。但是,如果一起查看这些点,它们似乎倾向于向下弯曲。线性模型中未考虑此细节。
-示例2
对于示例1中的相同数据,绘制数据散点图。在这种情况下,与示例1不同,使用势函数请求回归调整。
图3.练习的解决方案图2.资料来源:F. Zapata。
还显示拟合函数及其确定系数R 2。
解
势函数的形式为f(x)= Ax B,其中A和B是通过最小二乘法确定的常数。
上图显示了势函数及其参数,以及99%的极高确定系数。请注意,数据遵循趋势线的曲率。
-范例3
使用来自示例1和示例2的相同数据,执行二次多项式拟合。显示图表,拟合多项式和相应的确定系数R 2。
解
图4.练习的解决方案图3.来源:F. Zapata。
使用二阶多项式拟合,您可以看到一条非常适合数据曲率的趋势线。而且,确定系数在线性拟合之上并且在潜在拟合之下。
适合比较
在所示的三个拟合中,确定系数最高的一个是潜在拟合(示例2)。
电位拟合与钟摆的物理理论相吻合,众所周知,钟摆的理论确定钟摆的周期与长度的平方根成正比,比例常数为2π/√g,其中g为重力加速度。
这种潜在的拟合不仅具有最高的确定系数,而且比例的指数和常数也与物理模型匹配。
结论
-回归调整确定旨在使用最小二乘法解释数据的函数参数。该方法包括将数据的Xi值的调整Y值和数据Yi值之间的平方差之和最小化。这确定了调节功能的参数。
-如我们所见,最常见的调整函数是直线,但它并不是唯一的函数,因为调整还可以是多项式,势能,指数,对数等。
-在任何情况下,确定系数均取决于数据和调整类型,并表示所应用调整的优劣。
-最后,确定系数表示数据的Y值相对于给定X的调整的Ŷ值之间的总可变性的百分比。
参考文献
- GonzálezC.一般统计。从以下位置恢复:tarwi.lamolina.edu.pe
- IACS。阿拉贡健康科学研究所。从以下地址恢复:ics-aragon.com
- Salazar C.和Castillo S.统计基本原理。(2018)。从以下位置恢复:dspace.uce.edu.ec
- 超级教授。测定系数。从以下位置恢复:superprof.es
- 美国空军。描述性统计手册。(2011)。从以下站点恢复:statistics.ingenieria.usac.edu.gt。
- 维基百科。测定系数。从es.wikipedia.com中恢复。