的方法,最小二乘是在功能的近似最重要的应用之一。想法是找到一条曲线,以便在给定一组有序对的情况下,此函数可以最佳地近似数据。函数可以是直线,二次曲线,三次等。
该方法的思想是将所选函数生成的点与属于数据集的点之间的纵坐标(Y分量)之差的平方和最小化。
最小二乘法
在给出方法之前,我们必须首先弄清楚“更好的方法”的含义。假设我们正在寻找最能代表一组n点的y = b + mx线,即{(x1,y1),(x2,y2)…,(xn,yn)}。
如上图所示,如果变量x和y由线y = b + mx关联,则对于x = x1,y的对应值将为b + mx1。但是,该值不同于y的真实值y = y1。
请记住,在平面中,两点之间的距离由以下公式给出:
考虑到这一点,要确定选择最接近给定数据的y = b + mx线的方法,将选择最小化点之间距离平方和的线作为标准似乎是合乎逻辑的和直。
由于点(x1,y1)和(x1,b + mx1)之间的距离为y1-(b + mx1),因此我们的问题简化为找到数m和b,使得以下总和最小:
满足此条件的线称为«最小二乘线到点(x1,y1),(x2,y2),…,(xn,yn)的逼近”。
一旦发现问题,仅需选择一种方法来找到最小二乘近似值。如果点(x1,y1),(x2,y2),…,(xn,yn)都在y = mx + b线上,我们将认为它们是共线y:
在此表达式中:
最后,如果这些点不是共线的,则y-Au = 0,该问题可以转化为寻找向量u,从而使欧几里得范数最小。
找到最小向量u并不像您想的那样困难。由于A是nx2矩阵,而u是2×1矩阵,因此向量Au是R n中的向量,并且属于A的图像,它是R n的子空间,其维数不大于2。
我们将假设n = 3以显示要遵循的程序。如果n = 3,则A的图像将是穿过原点的平面或直线。
令v为最小化向量。在图中,我们观察到y-Au与A的图像正交时是最小的。也就是说,如果v是最小化向量,则会发生:
然后,我们可以这样表达以上内容:
仅在以下情况下会发生这种情况:
最后,求解v,我们有:
因为A t A是可逆的,因为只要作为数据给出的n个点不是共线的,就可以这样做。
现在,如果要寻找一条抛物线(其表达形式为y = a + bx + cx 2)而不是寻找一条线,而该抛物线将更好地近似于n个数据点,则过程将如下所述。
如果n个数据点在此抛物线中,我们将有:
然后:
同样,我们可以写y = Au。如果所有点都不在抛物线中,则对于任何向量u,y-Au都不为零,我们的问题再次出现:在R3中找到向量u,以使其范数--y-Au-尽可能小。
重复前面的过程,我们可以得出所需的向量是:
解决的练习
练习1
找到最适合点(1,4),(-2,5),(3,-1)和(4,1)的线。
解
我们必须:
然后:
因此,我们得出结论,最适合这些点的线由下式给出:
练习2
假设物体从200 m的高度掉落。跌落时,将采取以下步骤:
我们知道,经过时间t之后,上述物体的高度由下式给出:
如果我们希望获得G的值,我们可以找到一个抛物线这是一个更好的近似表中给出了五点,因此,我们将有一个系数,伴随着牛逼2将是一个合理的近似,如果(-1/2)G测量是准确的。
我们必须:
然后:
因此,数据点由以下二次表达式拟合:
因此,您必须:
这个值相当接近正确,为g = 9.81 m / s 2。为了获得更精确的g近似值,有必要从更精确的观察开始。
这是为了什么
在自然科学或社会科学中发生的问题中,通过某种数学表达式来编写存在于不同变量之间的关系是很方便的。
例如,在经济学中,我们可以通过简单的公式将成本(C),收入(I)和利润(U)关联起来:
在物理学中,我们可以依法将重力引起的加速度,物体掉落的时间以及物体的高度联系起来:
在前面的表达式中,s o是所述物体的初始高度,而v o是其初始速度。
但是,要找到这样的公式并非易事。通常要由值班专业人员处理大量数据并重复执行几次实验(以验证所获得的结果是否恒定),以查找不同数据之间的关系。
实现此目的的一种常用方法是将在平面中获得的数据表示为点,并寻找最佳逼近那些点的连续函数。
找到“最佳近似”给定数据的函数的方法之一是采用最小二乘法。
另外,正如我们在练习中所看到的,由于使用了这种方法,我们可以非常接近物理常数。
参考文献
- 查尔斯·W·柯蒂斯线性代数。施普林格-韦拉格
- 启来涌。具有随机过程的基本概率论。纽约斯普林格出版社
- Richar L Burden和J.Douglas Faires。数值分析(第7版)。汤普森学习。
- 斯坦利·格罗斯曼(Stanley I. Grossman)。线性代数的应用。麦格拉希尔/墨西哥洲际
- 斯坦利·格罗斯曼(Stanley I. Grossman)。线性代数。麦格拉希尔/墨西哥洲际