正态分布是一种钟形的概率模型,其中均值附近的取值最常见,离均值越远的取值会以对称的方式逐渐变少。如果你想理解钟形曲线、z 分数或正态分布公式,核心思想其实很简单:均值决定中心,标准差决定分布的宽窄。

只有当数据或实际情境与正态形状较为吻合时,这个模型才有用。在这个条件成立时,你可以估计典型范围,用 z 分数比较不同取值,并判断某个结果有多不寻常。

钟形曲线表示什么

如果一个变量服从正态分布,那么靠近均值的取值比远离均值的取值更常见。左右两侧互为镜像,所以高于均值 22 个标准差和低于均值 22 个标准差,同样都属于不常见的情况。

你经常会看到这样的记号:

XN(μ,σ2)X \sim N(\mu, \sigma^2)

这表示随机变量 XX 被建模为均值为 μ\mu、方差为 σ2\sigma^2 的正态分布。由于方差是 σ2\sigma^2,所以标准差就是 σ\sigma,且 σ>0\sigma > 0

用通俗的话理解正态分布公式

正态密度公式是

f(x)=1σ2πe(xμ)2/(2σ2)f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-\mu)^2/(2\sigma^2)}

你不需要死记公式中的每一部分,也能很好地使用这个概念。最重要的是,μ\mu 会让曲线向左或向右移动,而 σ\sigma 会让曲线变窄或变宽。

这个公式描述的是密度,不是某一个精确取值的概率。对于连续模型,概率来自区间,比如 P(X<80)P(X < 80)P(65X85)P(65 \le X \le 85)

均值、标准差和 z 分数如何联系起来

改变均值会让曲线向左或向右移动。改变标准差会让曲线变窄或变宽。较小的 σ\sigma 表示取值紧密集中在均值附近,较大的 σ\sigma 表示取值分布得更分散。

要把某个值与整个分布进行比较,可以使用 z 分数:

z=xμσz = \frac{x - \mu}{\sigma}

它用标准差作为单位来表示相对位置。如果 z=1.5z = 1.5,说明该值比均值高 1.51.5 个标准差。如果 z=2z = -2,说明它比均值低 22 个标准差。

对于正态模型,一个很实用的快捷方法是经验法则:

约有 68% 的取值落在 μ±σ 之内\text{约有 } 68\% \text{ 的取值落在 } \mu \pm \sigma \text{ 之内} 约有 95% 的取值落在 μ±2σ 之内\text{约有 } 95\% \text{ 的取值落在 } \mu \pm 2\sigma \text{ 之内} 约有 99.7% 的取值落在 μ±3σ 之内\text{约有 } 99.7\% \text{ 的取值落在 } \mu \pm 3\sigma \text{ 之内}

只有在正态模型确实合理时,才能使用这个法则。它是一个有用的近似结论,并不是对所有真实数据集都成立的保证。

z 分数与钟形曲线示例

假设考试成绩服从

XN(70,102)X \sim N(70, 10^2)

因此,平均分是 7070,标准差是 1010

先使用经验法则。大约 68%68\% 的分数会落在均值上下一个标准差的范围内:

70±1070 \pm 10

所以快速得到的区间是

60 to 8060 \text{ to } 80

大约 95%95\% 的分数会落在均值上下两个标准差的范围内:

70±2(10)=70±2070 \pm 2(10) = 70 \pm 20

所以这个区间是

50 to 9050 \text{ to } 90

现在看一位得了 8585 分的学生。其 z 分数为

z=857010=1.5z = \frac{85 - 70}{10} = 1.5

这表示该分数比均值高出 1.51.5 个标准差。这是最快也最有用的解读方式:这个分数明显高于平均水平,但还没有高到非常靠近尾部的程度。

正态分布题中的常见错误

把所有钟形图都当成正态分布

有些数据可能是偏态的、重尾的,或者有多个峰值。在这些情况下,即使图形看起来大致圆滑,正态模型也可能拟合得很差。

把密度和概率混为一谈

公式 f(x)f(x) 并不是 XX 恰好等于某个精确数值的概率。对于连续分布,单点概率是 00,所以我们研究的是区间概率。

不检查模型就直接使用经验法则

6868-9595-99.799.7 法则属于正态分布。它不能自动套用到任何数据集上。

混淆方差和标准差

方差是 σ2\sigma^2。z 分数使用的是 σ\sigma,不是 σ2\sigma^2

正态分布在什么时候使用

当测量值围绕某个中心值聚集,而极端值相对较少时,正态分布经常会出现。它常见于测量误差模型、考试成绩解释、质量控制,以及样本平均数的研究中。

但这并不意味着所有真实数据都服从正态分布。它的意思是:当数据形状、背景和假设都支持这种近似时,正态模型会是一个很有用的近似工具。

试着做一道类似的题

把上面的例子改成 XN(100,152)X \sim N(100, 15^2),并计算 130130 的 z 分数。然后求出覆盖大约 95%95\% 取值的区间。自己换一个不同的均值或标准差再做一遍,是观察钟形曲线如何变化的好方法。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →