方差用来衡量一组数字围绕其平均值的离散程度。方差小,表示各个数值通常比较接近平均值。方差大,表示它们分布得更分散。
计算方差时,先求每个数值与平均值的差,再把这些差平方,最后求平均。平方这一步很重要,因为如果不平方,正偏差和负偏差会相互抵消。
方差公式:总体 vs. 样本
当你的数据包含了你想描述的整个群体中的所有数值时,使用总体方差公式:
当你的数据只是一个样本,而你想估计更大总体的离散程度时,使用样本方差公式:
两者唯一的区别在于分母。完整总体用 。样本估计用 。
方差的含义
方差并不告诉你数据中心在哪里。它告诉你数据通常离这个中心有多远。
如果两组数据的平均值相同,那么方差较大的那一组,其数值平均来说离平均值更远。由于偏差被平方,特别大的差距会产生更大的影响。
还有一个重要细节:方差的单位是原单位的平方。如果数据单位是米,那么方差单位就是平方米。这也是为什么在日常使用中,标准差通常更容易解释。
如何计算方差:完整示例
使用数据集 。
先求平均值:
现在用每个数值减去平均值,再将结果平方:
把这些平方后的偏差相加:
如果这 8 个数值就是完整总体,那么总体方差为:
如果把这 8 个数值看作来自更大总体的样本,那么样本方差为:
这个例子清楚地说明了核心思想:平方偏差是一样的,但最终结果会因为你除以 还是除以 而不同。
方差的常见错误
- 忘记对偏差平方。如果你直接对原始偏差求平均,正值和负值会相互抵消,这样就无法正确衡量离散程度。
- 混淆总体方差和样本方差。完整总体除以 ,用于估计更大总体的样本除以 。
- 忘记方差使用的是平方单位。方差很有用,但标准差通常更容易理解,因为它回到了原始单位。
- 认为方差大就一定不好。方差大只表示更分散,是否重要取决于具体情境。
方差的应用场景
只要你需要以一致的方式描述或比较离散程度,就会用到方差。
- 在统计学中,它有助于概括一组数据的分散程度。
- 在质量控制中,它可以帮助跟踪一个过程是否随着时间保持稳定。
- 在金融中,方差可用于描述收益波动的大小,不过它只是理解风险的一种方式。
- 在机器学习和数据分析中,它有助于描述不同观测值之间特征或误差的变化情况。
试着做一道类似的题
你可以自己试试,用两组平均值相同但离散程度不同的小数据集。分别计算它们的方差,看看分布更宽的那组是否得到更大的数值。只做这一次比较,通常就能真正理解这个概念。