的正态分布或高斯分布是在一个连续的变量,其中,所述概率密度函数由二次和负的参数的指数函数,其产生一个钟形描述的概率分布。
正态分布的名称来自这样一个事实,即这种分布适用于在给定的组或总体中涉及某个连续随机变量的最大数量的情况。

图1.正态分布N(x;μ,σ)及其概率密度f(s;μ,σ)。(自行阐述)
应用正态分布的示例包括:男人或女人的身高,某种身体大小的度量值或可测量的心理或社会学特征(例如,智商或某种产品的消费习惯)的变化。
另一方面,它被称为高斯分布或高斯钟声,因为正是这位德国数学天才因将其用于描述1800年天文测量的统计误差而闻名。
但是,据指出,这种统计分布以前是由法国的另一位伟大的数学家,例如亚伯拉罕·德·莫伊夫(Abraham de Moivre)于1733年发布的。
式
参数为μ和σ的连续变量x的正态分布函数表示为:
N(x;μ,σ)
它的显式编写如下:
N(X;μ,σ)=∫ -∞ X F(S;μ,σ)DS
其中f(u;μ,σ)是概率密度函数:
F(S;μ,σ)=(1 /(σ√(2π))EXP( - S 2 /(2σ 2))
在概率密度函数中乘以指数函数的常数称为归一化常数,其选择方式如下:
N(+∞,μ,σ)= 1
先前的表达式确保随机变量x在-∞和+∞之间的概率为1,即100%概率。
参数μ是连续随机变量x的算术平均值,而σ是该相同变量方差的标准偏差或平方根。在μ= 0和σ= 1的情况下,我们具有标准正态分布或典型正态分布:
N(x;μ= 0,σ= 1)
正态分布的特征
1-如果随机统计变量遵循概率密度f(s;μ,σ)的正态分布,则大多数数据被分组在平均值μ附近,并以不大于数据的⅔在μ-σ和μ+σ之间。
2-标准偏差σ始终为正。
3-密度函数f的形状类似于钟形,这就是为什么将此函数通常称为高斯钟形或高斯函数的原因。
4-在高斯分布中,均值,中位数和众数一致。
5-概率密度函数的拐点恰好在μ-σ和μ+σ处。
6-函数f关于通过其平均值μ的轴对称,并且对于x x +∞和x⟶-∞渐近为零。
7-σ值越高,数据在平均值附近的离散度,噪声或距离越大。换句话说,钟形的σ越高,则越开放。另一方面,σ小表示骰子接近均值,钟形更封闭或更尖。
8-分布函数N(x;μ,σ)表示随机变量小于或等于x的概率。例如,在图1(上)中,变量x小于或等于1.5的概率P为84%并对应于概率密度函数f(x;μ,σ)下的面积-∞至x
置信区间
9-如果数据遵循正态分布,则其中68.26%位于μ-σ和μ+σ之间。
遵循正态分布的数据的10- 95.44%在μ-2σ和μ+2σ之间。
遵循正态分布的数据的11- 99.74%在μ-3σ和μ+3σ之间。
12-如果随机变量x遵循分布N(x;μ,σ),则该变量
z =(x-μ)/σ遵循标准正态分布N(z; 0.1)。
将变量x更改为z称为标准化或类型化,并且在将标准分布的表应用于遵循非标准正态分布的数据时非常有用。
正态分布的应用
为了应用正态分布,有必要对概率密度的积分进行计算,从分析的角度来看,这并不容易,而且并不总是有计算机程序可以对其进行数值计算。为此,使用归一化或标准化值的表,仅在μ= 0和σ= 1的情况下仅是正态分布。

标准化正态分布表(1/2部分)

标准化正态分布表(第2/2部分)
应当注意,这些表不包括负值。但是,使用高斯概率密度函数的对称性可以得到相应的值。下面显示的已解决练习表明在这些情况下该表的使用。
例
假设您有一组随机数据x,它们遵循均值10和标准差2的正态分布。您将被要求找出以下概率:
a)随机变量x小于或等于8。
b)小于或等于10。
c)变量x小于12。
d)x值在8到12之间的概率。
解:
a)要回答第一个问题,您只需计算:
N(x;μ,σ)
x = 8时,μ= 10且σ= 2。我们认识到它是一个整数,在基本函数中没有解析解,但是该解表示为误差函数erf(x)的函数。
另一方面,有可能以数字形式求解积分,这是许多计算器,电子表格和计算机程序(例如GeoGebra)所做的事情。下图显示了与第一种情况对应的数值解:

图2.概率密度f(x;μ,σ)。阴影区域表示P(x≤8)。(自行阐述)
答案是x小于8的概率为:
P(x≤8)= N(x = 8;μ= 10,σ= 2)= 0.1587
b)在这种情况下,我们尝试找出随机变量x低于均值的可能性,在这种情况下,该值值得10。答案不需要任何计算,因为我们知道一半的数据都在下面平均,另一半高于平均水平。因此,答案是:
P(x≤10)= N(x = 10;μ= 10,σ= 2)= 0.5
c)要回答这个问题,我们必须计算N(x = 12;μ= 10,σ= 2),这可以使用具有统计功能的计算器或通过GeoGebra等软件来完成:

图3.概率密度f(x;μ,σ)。阴影区域表示P(x≤12)。(自行阐述)
c部分的答案可以在图3中看到,并且是:
P(x≤12)= N(x = 12;μ= 10,σ= 2)= 0.8413。
d)为了找到随机变量x在8到12之间的概率,我们可以使用部分a和c的结果,如下所示:
P(8≤x≤12)= P(x≤12)-P(x≤8)= 0.8413-0.1587 = 0.6826 = 68.26%。
运动解决
公司股票的平均价格为25美元,标准差为4美元。确定以下可能性:
a)一项诉讼的费用少于$ 20。
b)费用大于30美元。
c)价格在20到30美元之间。
使用标准正态分布表查找答案。
解:
为了使用这些表,有必要传递给标准化或类型化的z变量:
归一化变量中的$ 20等于z =($ 20-$ 25)/ $ 4 = -5/4 = -1.25和
归一化变量中的$ 30等于z =($ 30-$ 25)/ $ 4 = +5/4 = +1.25。
a)$ 20的归一化变量等于-1.25,但是表中没有负值,因此我们将值+1.25定位为0.8944。
如果从该值减去0.5,则结果将是0到1.25之间的区域,顺便说一下,该区域与(-对称)等于-1.25到0之间的区域。相减的结果是0.8944- 0.5 = 0.3944,这是-1.25与0之间的区域。
但是有趣的是从-∞到-1.25的区域,这将是0.5-0.3944 = 0.1056。因此得出的结论是,股票低于20美元的概率为10.56%。
b)类型变量z中的$ 30为1.25。对于此值,该表显示数字0.8944,它对应于从-∞到+1.25的面积。+1.25和+∞之间的区域是(1-0.8944)= 0.1056。换句话说,股票成本超过30美元的概率为10.56%。
c)一项动作的成本在20美元至30美元之间的概率将按以下方式计算:
100%-10.56%-10.56%= 78.88%
参考文献
- 统计和概率。正态分布。从以下位置恢复:projectdescartes.org
- 代数 古典代数,概率演算。从geogebra.org恢复
- MathWorks。高斯分布。从以下位置恢复:es.mathworks.com
- Mendenhall,W.1981。《管理与经济学统计》。第三名 版。Grupo编辑Iberoamérica。
- Stat Trek。教自己统计。泊松分布。恢复自:stattrek.com,
- Triola,M.,2012年。《基本统计》。11号 Ed Pearson教育。
- 维哥大学。主要连续分布。从以下位置恢复:anapg.webs.uvigo.es
- 维基百科。正态分布。从以下网站恢复:es.wikipedia.org
