统计中的抽样误差或抽样误差是样本平均值与总体总体平均值之间的差。为了说明这个想法,让我们假设一个城市的总人口为100万人,而您想要的是其平均鞋码,那么就随机抽取一千人作为样本。
从样本中得出的平均大小不一定与总人口的平均大小一致,尽管如果样本没有偏倚,则值必须接近。样本平均值与总样本平均值之间的差异就是抽样误差。
图1.由于样本是总人口的子集,因此样本均值有一定误差范围。资料来源:F. Zapata。
总人口的平均值通常是未知的,但是将在本文中讨论一些减少该误差的技术和一些用于估计采样误差容限的公式。
公式和方程式
假设我们想知道大小为N的总体中某个可测量特征x的平均值,但是由于N很大,因此无法对总群体进行研究,因此我们随机抽取了尺寸n <
样品的平均值表示为
假设从总人口N中抽取m个样本,所有样本均等大小n,且均值
这些平均值彼此不相同,并且都在总体平均值μ附近。抽样误差裕度E表示平均值的预期间隔
大小为n的样本的标准误差幅度ε为:
ε=σ/√n
其中σ是标准偏差(方差的平方根),使用以下公式计算得出:
σ=√
标准误差容限ε的含义如下:
平均值
如何计算抽样误差
在上一节中,给出了用于找到大小为n的样本的标准误差容限的公式,其中“标准”一词表示这是具有68%置信度的误差容限。
这表明如果采集了许多相同大小n的样本,其中68%将给出平均值
有一个简单的规则,称为68-95-99.7规则,该规则使我们能够轻松地找到置信度分别为68%,95%和99.7%的采样误差裕度E,因为该裕度为1⋅ε,2 ⋅ε和3⋅ε。
充满信心
如果置信度γ不满足上述条件之一,则采样误差为标准偏差σ乘以因子Zγ,可通过以下过程获得:
1.-首先,确定显着性水平α,其通过置信度γ通过以下关系式计算得出:α= 1-γ
2.-然后我们必须计算值1-α/ 2 =(1 +γ)/ 2,它对应于-∞和Zγ之间的累积正态频率,表示为F(z)的正态或高斯分布,其定义为如图2所示。
3.-通过正态(累积)分布表F或具有反标准化高斯函数F -1的计算机应用程序求解方程F(Zγ)= 1-α/ 2 。
在后一种情况下,我们有:
Zγ= G -1(1-α/ 2)。
4.-最后,此公式适用于可靠性为γ的采样误差:
E =Zγ⋅(σ/√n)
图2.正态分布表。资料来源:维基共享资源。
例子
-范例1
在100个新生儿的平均体重中计算标准误差范围。平均重量的计算是
解
标准误差范围为ε=σ/√n=(1,500千克)/√100= 0.15千克。这意味着根据这些数据可以推断出68%的新生儿体重在2,950千克至3.25千克之间。
-示例2
如果平均体重为3,100千克,标准偏差σ= 1,500千克,则应确定误差E的抽样裕度和置信水平为95%的100个新生儿的体重范围。
解
如果规则68适用;95; 99.7→1⋅ε; 2⋅ε; 3⋅ε,我们有:
E =2⋅ε=2⋅0.15千克= 0.30千克
换句话说,95%的新生儿体重在2800公斤至3400公斤之间。
-范例3
以99.7%的置信度确定实例1中新生儿的体重范围。
解
置信度为99.7%的采样误差为3σ/√n,在我们的示例中为E = 3 * 0.15 kg = 0.45 kg。从这里可以得出,有99.7%的新生儿体重在2650公斤至3550公斤之间。
-示例4
确定置信水平为75%的因子Zγ。对于示例1中所示的情况,以这种可靠性水平确定采样误差的余量。
解
置信水平为γ= 75%= 0.75,它通过关系γ=(1-α)与显着性水平α相关,因此显着性水平为α= 1-0.75 = 0 25岁。
这意味着-∞和Zγ之间的累积正态概率为:
P(Z≤Zγ)= 1-0.125 = 0.875
其对应的Zγ值为1.1503,如图3所示。
图3.确定对应于75%置信度的Zγ因子。资料来源:F. Zapata通过Geogebra。
换句话说,采样误差为E =Zγ⋅(σ/√n)= 1.15⋅(σ/√n)。
当将其应用于示例1中的数据时,将产生以下错误:
E = 1.15 * 0.15公斤= 0.17公斤
置信水平为75%。
-练习5
如果Zα/ 2 = 2.4 ,置信度是多少?
解
P(Z≤Zα/ 2)= 1-α/ 2
P(Z≤2.4)= 1-α/ 2 = 0.9918→α/ 2 = 1-0.9918 = 0.0082→α= 0.0164
重要程度是:
α= 0.0164 = 1.64%
最后,置信度仍然是:
1-α= 1-0.0164 = 100%-1.64%= 98.36%
参考文献
- Canavos,G.,1988年。《概率与统计:应用和方法》。麦格劳·希尔。
- Devore,J.,2012年。《工程与科学的概率与统计》。8号 版。参与。
- Levin,R.,1988年。《管理员统计资料》。2号 版。学徒大厅。
- Sudman,S.1982年。提问:《问卷设计实用指南》。旧金山。乔西·巴斯
- Walpole,R.,2007年。《工程与科学的概率与统计》。皮尔森
- Wonnacott,TH和RJ Wonnacott。1990年。《入门统计》。第五版威利
- 维基百科。采样错误。从以下位置恢复:en.wikipedia.com
- 维基百科。误差范围。从以下位置恢复:en.wikipedia.com