平均数、中位数和众数是描述一组数据中心位置的三种方法。平均数就是“平均值”,中位数是把数据排序后的中间值,众数是出现次数最多的值。想快速判断怎么选:数据比较均衡时用平均数,存在离群值可能扭曲结果时用中位数,最常见的值最重要时用众数。

这些度量之所以可能给出不同答案,是因为它们对“中心”的定义不同。这也正是它们有用的原因。

平均数、中位数和众数速览

平均数会用到数据集中的每一个值:

mean=sum of all valuesnumber of values\text{mean} = \frac{\text{sum of all values}}{\text{number of values}}

因为每个值都会参与计算,所以一个特别大或特别小的数,可能会把平均数拉离我们直觉中的“典型水平”。

中位数是把数据按顺序排列后位于中间的值。如果数据个数是奇数,就只有一个中间值;如果数据个数是偶数,中位数就是中间两个值的平均数。

众数是出现次数最多的值。一组数据可能只有一个众数,也可能有多个众数;如果没有哪个值比其他值出现得更频繁,那么这组数据就没有众数。

含离群值的例题

使用数据集 2,3,3,4,202, 3, 3, 4, 20

平均数是

2+3+3+4+205=325=6.4\frac{2 + 3 + 3 + 4 + 20}{5} = \frac{32}{5} = 6.4

中位数是 33,因为在排好序的列表中,33 位于正中间。

众数也是 33,因为它出现的次数比其他任何值都多。

这个例子很重要,因为这组数据中有一个离群值:2020。这个值把平均数拉高到了 6.46.4,而中位数仍然是 33。如果你的目标是描述这组数据中的“典型值”,那么中位数通常是更好的概括方式。

平均数、中位数和众数的常见错误

求中位数前没有先排序

中位数依赖顺序。如果不先排序,你选出的“中间那个数”就不可靠。

把“平均值”一律当成平均数

在日常语言里,人们常常比较宽泛地使用“平均值”这个词。但在统计学中,你应该更精确。有时中位数或众数才是更有用的概括。

以为每组数据都有众数

数据集 1,2,3,41, 2, 3, 4 没有众数,因为没有任何值重复出现。一个数据集也可能有两个或更多众数,只要有多个值并列出现次数最多。

忽略离群值

如果某个值比其他值大很多或小很多,平均数可能会发生很大变化。这并不表示平均数错了,但它确实会改变这个数所传达的信息。

什么时候使用每一种集中趋势度量

当数据比较均衡,而且每个值都应该影响结果时,使用平均数。例如,一次难度比较稳定的小测成绩就是简单的例子。

当极端值可能扭曲中心位置时,使用中位数。收入、租金和房价数据就是常见情况,因为少数特别大的值会把平均数往上拉。

当最常见的值比算术中心更重要时,使用众数。比如商店里卖出的衬衫尺码,或者问卷中最常见的回答,都符合这种情况。

为什么学生要学习这个概念

集中趋势度量通常是理解数据的第一步。它们能帮助你先概括一列数值,然后再去比较不同组、观察离散程度,或判断数据是否偏斜。

如果数据是数值型的,而且比较稳定,平均数通常很有参考价值。如果数据是偏斜的,中位数通常更稳妥。如果问题关注的是“最常发生什么”,那么众数可能是唯一能直接回答问题的量。

试试类似的问题

取列表 5,6,6,7,305, 6, 6, 7, 30,求出这三个量。然后把 3030 换成 88,再比较发生了什么变化。这个小小的调整,会让你更容易看出离群值的作用。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →