的分类变量是在统计用来指定一个非数字的或定性的特性或性质的一些对象,个体,实体,条件或步骤的一个。可以根据每种需要定义各种类别变量。
分类变量的示例包括:肤色,性别,血型,婚姻状况,材料类型,付款方式或银行帐户类型,并且每天都会使用很多。
图1:颜色是分类变量。资料来源:
以上是变量,但它们可能的值是定性的,即是质量或特性而不是数值测量。例如,可变性别的可能值是:男性,h embra。
当此变量存储在计算机程序中时,可以将其声明为文本变量,并且唯一可接受的值将是已经命名的值:Male,Female。
但是,如果将Male分配为1并将Female分配为值2,则可以声明相同的变量sex并将其存储为整数。因此,有时将分类变量称为枚举类型。
分类变量的主要特征是,与其他变量(例如连续变量和离散变量)不同,不可能对它们进行算术运算。但是,可以使用它们进行统计,这将在后面看到。
例子
请注意以下类别变量及其可能值的示例:
-Group_Sanguíneo,取值范围:A,B,AB,O
-Civil_Status,类别值:单身(A),已婚(B),丧偶(C),离婚(D)。
-Tipo_de_Material,类别或值:1 =木材,2 =金属,3 =塑料
-付款形式,证券或类别:(1)现金,(2)借方,(3)转移,(4)贷方
在前面的示例中,已经以完全任意的方式将数字与每个类别相关联。
然后可以认为,这种任意的数值关联使其等效于离散的定量变量,但事实并非如此,因为无法使用这些数字进行算术运算。
为了说明这一点,在变量Form_of_Payment中,求和运算没有意义:
(1)现金+(2)借方将永远不等于(3)转移
分类变量的分类
排名基于它们是否具有隐式层次结构或可能结果的数量是否大于两个或两个。
只有一个可能结果的分类变量不是变量,而是分类常量。
标称类别
当它们不能由数字表示或具有任何顺序时。例如,变量:Type_of_Material,具有标称值(木材,金属,塑料),即使为每个响应或类别分配了任意数字,它们也没有层次结构或顺序。
有序分类
变量:学术表现
标称值:高,中,低
尽管此变量的值不是数字,但它们具有隐式顺序或层次结构。
二进制类别
这些是名义变量,有两个可能的答案,例如:
-变量:响应
-标称值:真,假
请注意,Response变量没有隐式层次结构,只有两个可能的结果,因此它是二进制分类变量。
一些作者将此类型称为二进制变量,但并不认为它属于属于三个以上可能类别的类别变量。
具有分类变量的统计
尽管不是数值或定量变量,但可以使用分类变量进行统计。例如,要了解分类变量的趋势或最可能的值,将采用此模式。
在这种情况下,模式是分类变量的最重复的结果或值。对于分类变量,无法计算均值或中位数。
无法计算平均值,因为您无法对分类变量进行算术运算。中位数也不是,因为定量或分类变量没有顺序或层次,因此无法确定中心值。
类别变量的图形表示
给定某个类别变量,可以找到重复该变量的结果的频率或次数。如果针对每个结果执行此操作,则可以制作针对每个类别或结果的频率图。
以下是一些示例变量如何以图形方式表示的示例。
解决的练习
练习1
一家公司拥有170名员工的数据记录。这些记录中的变量之一是:Estado_Civil。此变量具有四个类别或可能的值:
单身(A),已婚(B),丧偶(C),离婚(D)。
尽管它是一个非数字变量,但是可以知道某个类别中有多少条总记录,并以条形图的形式表示,如下图所示:
图2.分类变量结果的表示。来源:自制
例子2
一家鞋店跟踪其销售情况。管理记录的变量包括每种型号的鞋子颜色。变量:
Color_Shoe_Model_AW3
它属于分类类型,具有五个类别或可能的值。对于此变量的每个类别,总计销售数量,并确定其中的百分比。结果显示在下图中:
图3.分类变量Color _Shoe。在此变量中,模式为白色。资料来源:自制。
可以说,时尚的AW3鞋款中,最常销售的是White,紧随其后的是Black。
也可以说,有70%的可能性销售此型号的下一双鞋将是白色或黑色。
此信息对于下订单时的商店很有用,或者由于库存过多,甚至可能对销售最少的颜色施加折扣。
例子3
对于一定数量的献血者,您要代表属于某个血型的人数。可视化结果的图形方式是通过象形图,在表的底部。
第一列代表group_sanguíneo变量及其可能的结果或类别。第二列以图标或图片的形式表示每个类别中的人数。在我们的示例中,红色小滴用作图标,每个代表10个人。
图4.象形图。来源:自制
参考文献
- 可汗学院。分析分类数据。从以下网站恢复:khanacademy.org
- 宇宙公式。定性变量。从以下网站恢复:univesoformulas.com
- Minitab。它们是分类变量,离散变量和连续变量。从以下位置恢复:support.minitab.com
- Excel教程。变量的表征。从以下位置恢复:help.xlslat.com。
- 维基百科。统计变量。从wikipedia.com恢复
- 维基百科。分类变量。从wikipedia.com恢复
- 维基百科。分类变量。从wikipedia.com恢复