所述泊松分布是离散概率分布,通过该有可能知道的概率,大的样本大小和内以一定的间隔,事件,其概率是小会发生时。
通常,只要满足以下条件,就可以使用泊松分布代替二项式分布:大样本和小概率。
图1.不同参数的泊松分布图。资料来源:维基共享资源。
Siméon-DenisPoisson(1781-1840)创建了一个以他的名字命名的发行版,在发生不可预测的事件时非常有用。泊松(Poisson)于1837年发表了他的研究结果,这项研究是对错误刑事判决发生的可能性的调查。
后来,其他研究人员修改了其他区域的分布,例如,在一定空间中可以发现的恒星数量,或士兵死于马踢的概率。
公式和方程式
泊松分布的数学形式如下:
-μ(有时也表示为λ)是分布的均值或参数
-欧拉数:e = 2.71828
-获得y = k的概率为P
-k是成功次数0、1、2、3…
-n是测试或事件的数量(样本大小)
顾名思义,离散随机变量取决于机会,并且仅采用离散值:0、1、2、3、4…,k。
分布的平均值由下式给出:
衡量数据散布的方差σ是另一个重要参数。对于泊松分布,它是:
σ=μ
泊松确定,当n→∞,且p→0时,平均值μ-也称为期望值-趋于一个常数:
-考虑的事件或事件彼此独立,并且随机发生。
-在特定时间段内发生特定事件的概率P非常小:P→0。
-在此时间间隔内发生多个事件的概率为0。
-平均值近似为以下常数:μ= np(n为样本量)
-由于色散σ等于μ,因此采用较大的值,因此变异性也会变大。
-事件必须在使用的时间间隔内平均分配。
-事件y的可能值集为:0、1、2、3、4…。
-遵循泊松分布的i变量之和也是另一个泊松变量。它的平均值是这些变量的平均值之和。
与二项式分布的差异
泊松分布与二项式分布在以下重要方面不同:
-二项式分布受样本大小n和概率P的影响,但泊松分布仅受平均值μ的影响。
-在二项分布中,随机变量y的可能值为0,1,2,…,N,而在泊松分布中,这些值没有上限。
例子
泊松最初将其著名的分布应用于法律案件,但在工业层面上,他最早的用途之一是酿造啤酒。在该过程中,酵母培养物用于发酵。
酵母由活细胞组成,活细胞的数量随时间变化。在啤酒的制造中,有必要添加必要的量,因此有必要知道每单位体积的细胞数量。
第二次世界大战期间,使用Poisson分布来确定德国人实际上是从加来瞄准伦敦,还是随机射击。这对于盟国确定纳粹可获得的技术有多重要。
实际应用
泊松分布的应用始终指时间计数或空间计数。而且由于发生的可能性很小,因此也被称为“罕见事件定律”。
以下是属于以下类别之一的事件的列表:
-放射性衰变中的粒子配准,就像酵母细胞的生长一样,是指数函数。
-访问某个网站的次数。
-到达支付或参加排队的人员(排队论)。
-在给定的时间间隔内,通过某点的汽车数量。
图2.通过一个点的汽车数量大致遵循泊松分布。资料来源:
-暴露于辐射后,某些DNA链中发生突变。
-一年内掉落的直径大于1 m的陨石数量。
-织物每平方米的缺陷。
-1立方厘米的血细胞数量。
-每分钟呼叫一次电话交换机。
-1公斤面糊中的巧克力碎片。
-在1公顷的森林中被某种寄生虫感染的树木数量。
请注意,这些随机变量表示事件在固定时间段(每分钟致电电话交换机)或给定空间区域(每平方米织物缺陷)内发生事件的次数。
正如已经确定的那样,这些事件与自上次发生以来经过的时间无关。
用泊松分布近似二项式分布
只要满足以下条件,泊松分布就可以很好地近似二项式分布:
-样本量大:n≥100
-概率p小:p≤0.1
-μ的顺序为:np≤10
在这种情况下,泊松分布是一个极好的工具,因为在这些情况下二项式分布可能很难应用。
解决的练习
练习1
一项地震研究确定,在过去的100年中,世界范围内发生了93次大地震,至少在里氏对数级上发生了6.0级。假设在这种情况下,泊松分布是合适的模型。找:
a)每年平均发生大地震。
b)如果P(y)是在随机选择的一年中发生地震的概率,请找到以下概率:
它远远小于P(2)。
结果如下:
P(0)= 0.395,P(1)= 0.367,P(2)= 0.171,P(3)= 0.0529,P(4)= 0.0123,P(5)= 0.00229,P(6)= 0.000355,P (7)= 0.0000471。
例如,我们可以说有39.5%的概率在给定年份内不会发生大地震。或者说那年发生了3次大地震,占5.29%。
解决方案c)
c)分析频率,乘以n = 100年:
39.5;36.7;17.1; 5.29; 1.23; 0.229;0.0355和0.00471。
例如:
-频率39.5表示在100年中的39.5年中,发生了0次大地震,可以说,这与47年没有发生大地震的实际结果非常接近。
让我们将另一个泊松结果与实际结果进行比较:
-获得的36.7的值表示在37年内发生1次大地震。实际结果是,在31年中发生了1次大地震,与该模型非常吻合。
-预计会有2次大地震发生17.1年,并且众所周知,在13年这是一个接近的值,确实发生了2次大地震。
因此,在这种情况下,泊松模型是可以接受的。
练习2
一家公司估计,在达到100个工作小时之前,发生故障的组件数量遵循泊松分布。如果该时间的平均故障数为8,则找到以下概率:
a)一个组件在25小时内发生故障。
b)在50小时内出现少于两个组件的故障。
c)125小时内至少有三个组件发生故障。
解决方案)
a)已知100小时内的平均故障数为8,因此在25小时内,预计会有四分之一的故障,即2次故障。这将是μ参数。
请求1个组件发生故障的概率,随机变量为“ 25小时之前发生故障的组件”,其值为y = 1。通过替换概率函数:
但是,问题是在50小时内少于两个组件发生故障的概率,而不是在50小时内恰好有两个组件发生故障,因此我们必须添加以下概率:
-没有失败
-仅故障1
在这种情况下,分布的参数μ为:
μ= 8 + 2 = 125小时内发生10次故障。
P(3个或更多组件失败)= 1- P(0)-P(1)-P(2)=
参考文献
- MathWorks。泊松分布。从以下位置恢复:es.mathworks.com
- Mendenhall,W.1981。《管理与经济学统计》。第三名 版。Grupo编辑Iberoamérica。
- Stat Trek。教自己统计。泊松分布。恢复自:stattrek.com,
- Triola,M.,2012年。《基本统计》。11号 Ed Pearson教育。
- 维基百科。泊松分布。从以下位置恢复:en.wikipedia.org