分组数据集中趋势的度量在统计中用于描述一组提供的数据的某些行为,例如它们接近什么值,所收集数据的平均值是多少等等。
当获取大量数据时,将它们分组以具有更好的顺序是很有用的,从而能够计算出集中趋势的某些度量。
集中趋势最广泛使用的度量标准是算术平均值,中位数和众数。这些数字说明了在特定实验中收集到的数据的某些性质。
要使用这些度量,您首先需要知道如何对数据集进行分组。
分组数据
要对数据进行分组,必须首先计算数据范围,该范围是通过减去数据的最大值减去最小值得到的。
然后选择一个数字“ k”,这是我们要将数据分组的类的数目。
该范围除以“ k”以获得要分组的类别的幅度。这个数字是C = R / k。
最后,开始分组,为此选择一个小于所获得数据的最小值的数字。
该数字将是头等舱的下限。向其添加C。获得的值将是第一类的上限。
然后,将C添加到该值,并获得第二类的上限。通过这种方式,我们可以得出最后一类的上限。
将数据分组后,可以计算平均值,中位数和众数。
为了说明算术平均值,中位数和众数的计算方式,我们将继续一个示例。
例
因此,在对数据进行分组时,将获得如下表:
集中趋势的3个主要措施
现在我们将继续计算算术平均值,中位数和众数。上面的示例将用于说明此过程。
1-算术平均值
算术平均值包括将每个频率乘以间隔的平均值。然后将所有这些结果相加,最后将其除以总数据。
使用前面的示例,可以得出算术平均值等于:
(4 * 2 + 4 * 4 + 6 * 6 + 4 * 8)/ 18 =(8 + 16 + 36 + 32)/ 18 = 5.11111
这表明表中数据的平均值为5.11111。
2-中
为了计算数据集的中位数,我们首先将所有数据从最小到最大排序。可能发生两种情况:
-如果数据数为奇数,则中位数为中心的数据。
-如果数据数量为偶数,则中位数为位于中心的两个数据的平均值。
对于分组数据,中位数的计算如下:
-计算N / 2,其中N为总数据。
-搜索累积频率(频率之和)大于N / 2的第一个间隔,并选择该间隔的下限,称为Li。
中位数由以下公式给出:
Me = Li +(Ls-Li)*(N / 2-Li之前的累积频率)/ [Li,Ls)的频率
Ls是上述间隔的上限。
如果使用先前的数据表,则N / 2 = 18/2 =9。累加的频率为4、8、14和18(表的每一行一个)。
因此,必须选择第三个间隔,因为累计频率大于N / 2 = 9。
因此Li = 5,Ls = 7。应用上述公式,您必须:
我= 5 +(7-5)*(9-8)/ 6 = 5 + 2 * 1/6 = 5 + 1/3 = 16/3≈5.3333。
3-时尚
模式是所有分组数据中频率最高的值;也就是说,它是在初始数据集中重复次数最多的值。
当您有大量数据时,以下公式可用于计算分组数据的模式:
Mo = Li +(Ls-Li)*(Li的频率-L(i-1)的频率)/((Li的频率-L(i-1)的频率)+(Li的频率-L的频率(我+1)))
间隔[Li,Ls)是找到最高频率的间隔。对于本文中的示例,该模式由以下方式给出:
Mo = 5 +(7-5)*(6-4)/((6-4)+(6-4))= 5 + 2 * 2/4 = 5 +1 = 6。
用于获取该模式的近似值的另一个公式如下:
Mo = Li +(Ls-Li)*(频率L(i + 1))/(频率L(i-1)+频率L(i + 1))。
使用此公式,帐户如下:
Mo = 5 +(7-5)* 4 /(4 + 4)= 5 + 2 * 4/8 = 5 +1 = 6。
参考文献
- 贝尔豪斯(2011)。亚伯拉罕·德·莫夫(Abraham De Moivre):为古典概率及其应用打下基础。CRC出版社。
- Cifuentes,JF(2002)。概率论导论。哥伦比亚国立大学。
- Daston,L。(1995)。启蒙运动中的经典概率。普林斯顿大学出版社。
- Larson,HJ(1978)。概率论和统计推断简介。社论Limusa。
- Martel,PJ和Vegas,FJ(1996)。概率论和数理统计:在临床实践和健康管理中的应用。Díazde Santos版本。
- Vázquez,AL和Ortiz,FJ(2005)。测量,描述和控制变异性的统计方法。坎塔布里亚大学。
- 瓦兹克斯(Vázquez),SG(2009)。进入大学的数学手册。社论Centro de Estudios Ramon Areces SA。