平均数、中位数和众数是描述一组数据中心位置的三种方法。平均数就是“平均值”,中位数是把数据排序后的中间值,众数是出现次数最多的值。想快速判断怎么选:数据比较均衡时用平均数,存在离群值可能扭曲结果时用中位数,最常见的值最重要时用众数。
这些度量之所以可能给出不同答案,是因为它们对“中心”的定义不同。这也正是它们有用的原因。
平均数、中位数和众数速览
平均数会用到数据集中的每一个值:
因为每个值都会参与计算,所以一个特别大或特别小的数,可能会把平均数拉离我们直觉中的“典型水平”。
中位数是把数据按顺序排列后位于中间的值。如果数据个数是奇数,就只有一个中间值;如果数据个数是偶数,中位数就是中间两个值的平均数。
众数是出现次数最多的值。一组数据可能只有一个众数,也可能有多个众数;如果没有哪个值比其他值出现得更频繁,那么这组数据就没有众数。
含离群值的例题
使用数据集 。
平均数是
中位数是 ,因为在排好序的列表中, 位于正中间。
众数也是 ,因为它出现的次数比其他任何值都多。
这个例子很重要,因为这组数据中有一个离群值:。这个值把平均数拉高到了 ,而中位数仍然是 。如果你的目标是描述这组数据中的“典型值”,那么中位数通常是更好的概括方式。
平均数、中位数和众数的常见错误
求中位数前没有先排序
中位数依赖顺序。如果不先排序,你选出的“中间那个数”就不可靠。
把“平均值”一律当成平均数
在日常语言里,人们常常比较宽泛地使用“平均值”这个词。但在统计学中,你应该更精确。有时中位数或众数才是更有用的概括。
以为每组数据都有众数
数据集 没有众数,因为没有任何值重复出现。一个数据集也可能有两个或更多众数,只要有多个值并列出现次数最多。
忽略离群值
如果某个值比其他值大很多或小很多,平均数可能会发生很大变化。这并不表示平均数错了,但它确实会改变这个数所传达的信息。
什么时候使用每一种集中趋势度量
当数据比较均衡,而且每个值都应该影响结果时,使用平均数。例如,一次难度比较稳定的小测成绩就是简单的例子。
当极端值可能扭曲中心位置时,使用中位数。收入、租金和房价数据就是常见情况,因为少数特别大的值会把平均数往上拉。
当最常见的值比算术中心更重要时,使用众数。比如商店里卖出的衬衫尺码,或者问卷中最常见的回答,都符合这种情况。
为什么学生要学习这个概念
集中趋势度量通常是理解数据的第一步。它们能帮助你先概括一列数值,然后再去比较不同组、观察离散程度,或判断数据是否偏斜。
如果数据是数值型的,而且比较稳定,平均数通常很有参考价值。如果数据是偏斜的,中位数通常更稳妥。如果问题关注的是“最常发生什么”,那么众数可能是唯一能直接回答问题的量。
试试类似的问题
取列表 ,求出这三个量。然后把 换成 ,再比较发生了什么变化。这个小小的调整,会让你更容易看出离群值的作用。