平均数是用一个数来概括一组数值的方法。在学校里,“平均数”通常指算术平均数,但有时加权平均数或移动平均数才是更合适的选择,因为它们分别回答的是不同的问题。
当每个数值都应同等看待时,使用算术平均数。当某些数值比其他数值更重要时,使用加权平均数。当数据按时间顺序排列,且你想平滑短期波动时,使用移动平均数。
算术平均数:当每个数值都应同等看待时使用
算术平均数就是最常见的平均数:
当每个观测值都应有相同影响时,这种方法适用。如果某个数值应比另一个更重要,那么算术平均数就不是合适的概括方式。
平均数会用到这组数据中的每一个值,因此它既实用,也便于在不同组之间比较。但它也容易受到离群值影响,所以一个特别大或特别小的数,可能会把结果拉离你直觉上认为“典型”的水平。
加权平均数:当某些数值更重要时使用
加权平均数会给不同数值赋予不同的重要性:
这里, 表示一个数值, 表示它的权重。权重越大,这个数值对结果的影响就越大。
当题目已经说明某些部分更重要时,这就是正确的工具。课程成绩、按投资组合占比计算的投资收益,以及按数量计算的平均价格,都属于这种情况。
有一个条件很重要:总权重 不能为 。只有当权重确实符合你所建模的实际情况时,结果才有意义。
移动平均数:用于平滑随时间变化的数据
移动平均数用于按时间顺序排列的数据。它不是一次性对整组数据求平均,而是对最近一段滚动窗口中的数值求平均。
对于窗口长度为 的简单移动平均数:
它可以帮助平滑噪声较大的数据,让短期趋势更容易看出来。它不会消除波动,也不能预测未来。它只是根据你选定的窗口,对最近的数据做一个概括。
窗口长度很重要。窗口一变,移动平均数也会随之改变。窗口越长,曲线通常看起来越平滑,因为它的反应会更慢。
一个展示差异的完整例子
假设某位学生五周的练习成绩分别是 、、、 和 。
如果你想得到这五周的一个总体平均数,就使用算术平均数:
所以算术平均数是 。
现在假设老师希望最近的作业占更大比重,使用权重 。那么加权平均数是
所以加权平均数是 。因为较新的成绩更重要,所以结果上升了。
如果你想平滑最近的趋势,那么可以对最后三周使用一个 周移动平均数:
这并不能替代整门课程的总体平均分。它回答的是另一个问题:最近的表现大致如何?
同样的五个数,得出了三个不同的平均数,因为目标变了。这正是选择合适平均数时最关键的思想。
处理平均数时的常见错误
当数据本身已有权重时,仍使用算术平均数
如果测试类别、数量或百分比的重要性不同,直接求普通平均数可能会产生误导。只有当每个数值都应同等贡献时,等权平均才合理。
对“平均数的平均数”再求平均,却忽略原始权重
如果一个班有 名学生,另一个班有 名学生,通常不能把两个班的平均分当作同样大小的组再直接平均。你需要原始人数或相应权重。
忘记除以总权重
对于加权平均数,把数值乘以权重只是计算的一部分。你仍然必须再除以 。
说“移动平均数”却不说明窗口长度
如果不说明所用窗口,移动平均数这个说法就是不完整的。 日移动平均数和 日移动平均数并不能互换。
各类平均数分别在什么时候使用
当每个观测值都应同等计入时,比如考试成绩、测量结果或其他类似数据,使用算术平均数。
当题目已经赋予不同部分不同重要性时,比如成绩类别或销售数量,使用加权平均数。
当数据与时间有关,比如气温、销售额、流量或学习进度,而且原始数值在相邻时期之间波动较大时,使用移动平均数。
试着做一道类似的问题
从你自己的作业或学习数据中取五个数。先求算术平均数,再求一个“最后两个数权重加倍”的加权平均数,然后求最后一个窗口的 个数移动平均数。这样的快速比较,通常能看出你的问题真正需要的是哪一种平均数。