统计学上的范围,范围或幅度是样本或总体中一组数据的最大值和最小值之间的差(相减)。如果范围由字母R表示,数据由x表示,则范围的公式很简单:
R = x 最大值 -x 最小值
其中x max是数据的最大值,x min是最小值。
图1.过去两个世纪中与加的斯人口相对应的数据范围。资料来源:维基共享资源。
该概念作为分散的简单度量非常有用,可以快速了解数据的可变性,因为它指示发现这些数据的间隔的延长或长度。
例如,假设对一所大学的25名男性一年级工程专业学生的身高进行了测量。该组中最高的学生是1.93 m,而最短的是1.67 m。这些是示例数据的极值,因此它们的路径为:
R = 1.93-1.67 m = 0.26 m或26 cm
该组中学生的身高沿该范围分布。
的优点和缺点
正如我们之前所说,范围是衡量数据分布程度的一种度量。较小的范围表示数据或多或少接近且分布较低。另一方面,更大的范围表示数据更加分散。
计算范围的优势非常明显:因为这是一个简单的区别,因此非常容易快速找到。
它还具有与数据一起使用的单位,并且该概念对于任何观察者都非常易于解释。
以工科学生的身高为例,如果范围为5厘米,我们可以说这些学生的身高大致相同。但是在26厘米的范围内,我们立即假设样本中所有中间高度的学生。这个假设总是正确的吗?
范围的缺点是分散性的度量
如果我们仔细观察,可能是在我们的25名工程专业学生样本中,只有一名是1.93,其余24名的身高接近1.67 m。
然而,范围仍然保持不变,尽管完全可以相反:大多数的高度约为1.90 m,只有一个高度为1.67 m。
在这两种情况下,数据的分布都大不相同。
范围作为分散性度量的缺点是因为它仅使用极值,而忽略所有其他值。由于大多数信息都丢失了,因此您不知道示例数据的分布方式。
另一个重要特征是样品的范围永远不会减小。如果添加更多信息,即考虑更多数据,则范围会增加或保持不变。
而且在任何情况下,它仅在处理小样品时才有用,不建议仅将其单独用作大样品中色散的量度。
必须做的是,通过计算其他色散度量来补充它,这些度量要考虑到总数据提供的信息:四分位间距,方差,标准差和变异系数。
四分位间距,四分位数和工作示例
我们已经意识到,范围作为分散性度量的弱点在于它仅利用了数据分布的极值,而忽略了其他值。
为了避免这种不便,使用了四分位数:三个值称为位置度量。
他们将未分组的数据分为四个部分(其他广泛使用的位置度量是十分位数和百分位数)。这些是其特征:
-第一个四分位数Q 1是数据值,所有数据的25%小于Q 1。
-第二个四分位数Q 2是分布的中位数,这意味着一半(50%)的数据小于此值。
-最后,第三四分位数Q 3表示75%的数据小于Q 3。
然后,四分位间距或四分位间距定义为数据的第三四分位数Q 3和第一四分位数Q 1之间的差:
四分位数范围= R Q = Q 3 -Q 1
这样,范围R Q的值不受极端值的影响。因此,建议在处理偏斜分布时使用它,例如上述非常高或非常矮的学生。
-四分位数的计算
有几种计算方法,在这里我们将提出一种方法,但是在任何情况下都必须知道订单号“ N o ”,这是各个四分位数在分布中所占的位置。
即,例如,如果对应于Q 1的项是分布的第二,第三或第四等等。
第一四分位数
N 或(Q 1)=(N +1)/ 4
第二四分位数或中位数
N 或(Q 2)=(N +1)/ 2
第三四分位数
N 或(Q 3)= 3(N +1)/ 4
其中N是数据数。
中位数是分布中间的值。如果数据数量为奇数,则找到它没有问题,但如果为偶数,则两个中心值被平均为一个。
计算完订单编号后,将遵循以下三个规则之一:
-如果没有小数,将搜索分布中指示的数据,这将是所寻求的四分位数。
-当订单号介于两者之间时,则将整数部分表示的数据与以下数据取平均值,结果是对应的四分位数。
-在任何其他情况下,将四舍五入为最接近的整数,这将是四分位数的位置。
工作的例子
从0到20的分数,一组16名I数学学生在期中考试中获得以下分数(满分):
16,10,12,12,8,9,15,18,20,9,11,1,13,17,9,10,14
找:
a)数据范围。
b)四分位数Q 1和Q 3的值
c)四分位间距。
图2.此数学测试的分数是否有那么大的可变性?资料来源:
解决方案
找到路由的第一件事是按升序或降序对数据进行排序。例如,按升序排列,您有:
1,8,9,9,9,10,10,11,12,13,14,15,16,17,18,20
使用开头给出的公式:R = x max -x min
R = 20-1分= 19分。
根据结果,这些等级具有很大的分散性。
解决方案b
N = 16
N 或(Q 1)=(N +1)/ 4 =(16 +1)/ 4 = 17/4 = 4.25
它是一个带小数的数字,其整数部分为4。然后转到分布,我们寻找位于第四位的数据,并将其值与第五位的值进行平均。由于它们均为9,因此平均值也为9,因此:
Q 1 = 9
现在我们重复该过程以找到Q 3:
N 或(Q 3)= 3(N +1)/ 4 = 3(16 +1)/ 4 = 12.75
同样,它是小数点,但由于不是半数,因此将其舍入为13。所寻求的四分位数位于第13位,并且是:
Q 3 = 16
解决方案c
R Q = Q 3 -Q 1 = 16-9 = 7点。
正如我们所看到的,它比a)节中计算的数据范围小得多,因为最小分数是1分,该值与其余分数相差甚远。
参考文献
- Berenson,M.1985。《管理和经济学统计》。美国美洲
- Canavos,G.,1988年。《概率与统计:应用和方法》。麦格劳·希尔。
- Devore,J.,2012年。《工程与科学的概率与统计》。8号 版。参与。
- 四分位数的示例。从以下地址恢复:matematicas10.net。
- Levin,R.,1988年。《管理员统计资料》。2号 版。学徒大厅。
- Walpole,R.,2007年。《工程与科学的概率与统计》。皮尔森