卡方检验 | GPAI STEM

卡方检验用于判断分类计数数据与某个模型在“仅由随机性产生”情况下的期望结果是否相差过大。它适用于各类别中的计数，而不适用于平均值或原始测量值。

核心思想很简单：把你观察到的结果与原假设成立时应当出现的结果进行比较。如果差距足够大，卡方统计量就会变大，数据也就可以作为反对该原假设的证据。

这个检验实际在比较什么

在最常见的情形中，每个类别都有观测频数 $O$ 和期望频数 $E$ 。检验统计量为

\chi^2 = \sum \frac{(O - E)^2}{E}

当观测频数偏离期望频数越远时，这个数就越大。偏差越大的类别影响越明显，而期望频数较大的类别也会按相应方式进行缩放。

期望频数并不是随意猜出来的。它们来自原假设。对于拟合优度检验，原假设可能认为各类别出现的概率相同。对于独立性检验，原假设则认为两个分类变量彼此无关。

两种常见形式

“卡方检验”这个说法通常指以下两种之一：

拟合优度检验，用来判断一个分类变量是否服从某个声称的分布。
独立性检验，用来判断列联表中的两个分类变量是否有关联。

这两种情况都使用同一类统计量，但期望频数的计算方式取决于具体是哪一种检验。

例题：拟合优度检验

假设一家咖啡店想知道三种杯型是否被同样频繁地选择。在 $60$ 份订单中，观测频数为：

小杯： $26$
中杯： $18$
大杯： $16$

如果原假设认为三种杯型出现的概率相同，那么每个类别的期望频数为

E = \frac{60}{3} = 20

现在计算统计量：

\chi^2 = \frac{(26-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(16-20)^2}{20}

= \frac{36}{20} + \frac{4}{20} + \frac{16}{20}

= 1.8 + 0.2 + 0.8 = 2.8

这只是检验统计量，本身还不是最终结论。你需要把 $\chi^2 = 2.8$ 与相应自由度下的卡方分布进行比较。这里自由度是 $3 - 1 = 2$ ，因为共有三个类别，且没有根据数据估计任何参数。当 $df = 2$ 时，统计量 $2.8$ 在 $5\%$ 显著性水平下并不能构成反对“偏好相同”这一假设的强有力证据。

实际上的解读是：这些频数与完全相等并不一致，但差异还不足以让我们仅凭这个样本就有把握地认为真实偏好并不相等。

什么时候适合使用这个检验

当以下条件都满足时，可以使用卡方检验：

你的数据是各类别中的计数。
各次观测相互独立，或者对你所使用的模型来说足够接近独立。
对于你打算使用的卡方近似，期望频数不能太小。

在很多入门场景中，人们常用的经验法则是：每个类别的期望频数至少约为 $5$ 。这只是实用性的指导原则，不是放之四海而皆准的定律，但它是一个很有用的警示信号。

常见错误

把这个检验用于均值、测量值或百分比，而不是类别计数。
把观测频数当成期望频数。期望频数必须来自原假设。
忽略过小的期望频数，这会使常规的卡方近似不可靠。
认为“统计显著”就等于“实际重要”。这个检验只是在判断是否有证据反对原假设模型。

你会在哪些地方看到它

卡方检验常见于问卷调查、遗传学、质量控制、市场研究，以及任何结果会落入不同类别的场景。尤其当真正的问题是“某种模式是否令人意外”或“两个分类变量是否看起来有关联”时，它非常常用。

如果数据是数值型而不是分类型，通常应使用其他工具。例如，比较均值时往往会用到 $t$ 检验或方差分析（ANOVA）。

自己试一版

找一个小型分类频数表，在做任何计算之前先写下原假设。仅这一步通常就能避免卡方问题中最大的错误：公式用对了，但期望频数用错了。

需要解题帮助？

上传你的问题，几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →