- Mann-Whitney U检验中的问题陈述
- 定性变量与定量变量
- 正常情况
- 趋势不正常的情况
- 配对或未配对的样本
- 曼·惠特尼U检验的特征
- 曼-惠特尼公式
- 申请测试的步骤
- 实际应用实例
- - 第1步
- - 第2步
- A区
- B区
- 第三步
- 第4步
- 比较标准
- 曼恩-惠特尼U检验的在线计算器
- 参考文献
当两个独立样本的数据很少或不遵循正态分布时,可以使用曼恩-惠特尼U检验进行比较。这样,它被认为是非参数检验,这与它的同源学生t检验不同,后者在样本足够大且遵循正态分布时使用。
弗兰克·威尔科克森(Frank Wilcoxon)于1945年首次提出了相同大小的样品的建议,但两年后,亨利·曼恩(Henry Mann)和惠特尼(DR Whitney)将其扩展为不同大小的样品。

图1. Mann-Whitney U检验用于比较独立样本。资料来源:
该测试通常用于检查定性变量和定量变量之间是否存在关系。
一个说明性的例子是采取一组高血压人群并抽取两组,从中记录一个月的每日血压数据。
治疗A适用于一组,治疗B适用于另一组,这里的血压是定量变量,治疗的类型是定性变量。
我们想知道测量值的中位数而不是平均值在统计上是相同还是不同,以确定两种治疗方法之间是否存在差异。为了获得答案,应用了Wilcoxon统计或Mann-Whitney U检验。
Mann-Whitney U检验中的问题陈述
可以应用测试的另一个示例如下:
假设您想知道该国两个地区的软饮料消费量是否存在显着差异。
其中一个被称为A区,另一个被称为B区。以两个样本记录每周消耗的公升记录:A区为10人,B区为5人。
数据如下:
-地区A:16、11、14、21、18、34、22、7、12、12
-B区:12,14,11,30,10
出现以下问题:
定性变量与定量变量
-定性变量X:区域
-定量变量Y:软饮料的消耗量
如果在两个区域中消耗的升量相同,则得出的结论是,两个变量之间没有依赖性。找出方法是比较两个地区的平均趋势或中位数趋势。
正常情况
如果数据遵循正态分布,则通过两个均值之间的比较,提出两个假设:零H0和替代H1:
- H0:有平均两个区域之间没有差异。
- H1:这两个区域的方法是不同的。
趋势不正常的情况
相反,如果数据不遵循正态分布或样本太小而无法知道,则不比较均值,而是比较两个区域的中位数。
- H0:有两个地区的中位数之间没有什么区别。
- H1:这两个地区的中位数是不同的。
如果中位数重合,则满足零假设:软饮料的消费与该地区之间没有关系。
如果情况相反,则替代假设成立:消费与区域之间存在联系。
在这些情况下,需要进行Mann-Whitney U检验。
配对或未配对的样本
决定是否应用Mann Whitney U检验的下一个重要问题是两个样本中的数据数量是否相同,也就是说,它们相等。
如果两个样本配对,则将使用原始的Wilcoxon版本。但是,如果不是(如示例中所示),则将应用改进的Wilcoxon检验,这正是Mann Whitney U检验。
曼·惠特尼U检验的特征
曼-惠特尼U检验是非参数检验,适用于不遵循正态分布或数据很少的样本。具有以下特点:
1.-比较中位数
2.-它适用于有序范围
3.-它的功能不那么强大,意味着功效是在原假设为假时拒绝原假设的概率。
考虑到这些特征,在以下情况下应用曼-惠特尼U检验:
-数据是独立的
-他们不遵循正态分布
-如果两个样本的中位数一致,则接受零假设H0:Ma = Mb
-如果两个样本的中位数不同,则接受替代假设H1:Ma≠Mb
曼-惠特尼公式
变量U是Mann-Whitney检验中使用的对比度统计量,其定义如下:
这意味着U是应用于每个组的Ua和Ub之间的最小值。在我们的示例中,它将到达每个区域:A或B。
变量Ua和Ub根据以下公式定义和计算:
Ua = Na Nb + Na(Na +1)/ 2-Ra
Ub = Na Nb + Nb(Nb +1)/ 2-Rb
这里的Na和Nb值分别是对应于区域A和B的样本的大小,对于它们而言,Ra和Rb是我们将在下面定义的秩和。
申请测试的步骤
1.-订购两个样品的值。
2.-为每个值分配一个订单等级。
3.-更正数据中的现有关系(重复值)。
4.-计算Ra =样本A等级的总和。
5.-查找Rb =样本B等级的总和。
6.-根据上一节中给出的公式确定值Ua和Ub。
7.-比较Ua和Ub,然后将两者中较小的一个分配给实验U统计量(即数据的统计量),将其与理论或正常U统计量进行比较。
实际应用实例
现在,我们将上述方法应用于先前提出的软饮料问题:
A区:16、11、14、21、18、34、22、7、12、12
B区:12,14,11,30,10
根据两个样本的均值在统计学上是相同还是不同,是否接受零假设:变量Y和X之间没有关系,也就是说,软饮料的消耗量不取决于区域:
H0:Ma = Mb
H1:Ma≠Mb

图2.地区A和地区B的软饮料消费数据。资料来源:F. Zapata。
- 第1步
我们继续为两个样本共同排序数据,将值从最低到最高排序:

请注意,值11出现2次(每个样本一次)。最初它具有位置或范围3和4,但是为了不高估或低估一个或另一个,选择平均值作为范围,即3.5。
以类似的方式,我们继续使用值12,该值在范围5、6和7中重复了三次。
好吧,值12的平均范围为6 =(5 + 6 + 7)/ 3。值14相同,在位置8和9处有连字(出现在两个样本中),它的平均范围为8.5 =(8 + 9)/ 2。
- 第2步
接下来,再次将区域A和B的数据分开,但是现在它们的相应范围在另一行中分配:
A区

B区

从每种情况或区域的第二行元素的总和中获得范围Ra和Rb。
第三步
计算各自的Ua和Ub值:
Ua = 10×5 + 10(10 +1)/ 2-86 = 19
Ub = 10×5 + 5(5 +1)/ 2 -34 = 31
实验值U =最小值(19,31)= 19
第4步
假设理论U遵循正态分布N,其参数仅由样本的大小给出:
N((na⋅nb)/ 2,√)
为了将实验获得的变量U与理论U进行比较,有必要对变量进行更改。我们将实验变量U传递给它的标准化值(称为Z),以便能够与标准化正态分布进行比较。
变量的变化如下:
Z =(U-nab / 2)/√
应该注意的是,对于变量的变化,使用了U的理论分布的参数,然后将新的变量Z与标准的正态分布N(0,1 )。
比较标准
如果Z≤Zα⇒接受零假设H0
如果Z>Zα⇒拒绝原假设H0
标准化的Zα临界值取决于所需的置信度,例如,对于最常见的置信度α= 0.95 = 95%,可以获得临界值Zα= 1.96。
对于此处显示的数据:
Z =(U-na nb / 2)/√= -0.73
低于临界值1.96。
因此,最终结论是零假设H0被接受:
曼恩-惠特尼U检验的在线计算器
有一些用于统计计算的特定程序,包括SPSS和MINITAB,但是这些程序是付费的,使用起来并不总是那么容易。这是因为它们提供了很多选择,以致实际上它们只供统计专家使用。
幸运的是,这里有一些非常准确,免费且易于使用的在线程序,这些程序可让您运行Mann-Whitney U测试。
这些程序是:
-社会科学统计(socscistatistics.com),对于均衡或成对的样本,它具有Mann-Whitney U检验和Wilcoxon检验。
-AI Therapy Statistics(ai-therapy.com),其中包含几种描述性统计数据的常用测试。
-使用统计信息(physics.csbsju.edu/stats),最早的统计信息之一,尽管它还是一个非常有效的免费程序,但其界面看起来可能过时。
参考文献
- Dietrichson。定量方法:等级检验。从以下网址恢复:bookdown.org
- MarínJ P. SPSS指南:非参数测试中的分析和过程。从以下位置恢复:halweb.uc3m.es
- USAL MOOC。非参数检验:Mann-Whitney U. 从以下网址恢复:youtube.com
- 维基百科。曼恩·惠特尼U检验。从以下位置恢复:es.wikipedia.com
- XLSTAT。帮助中心。Mann-Whitney Excel中的测试教程。从以下位置恢复:help.xlsat.com
