抽样方法是从总体中选取样本所使用的规则。在统计学中,抽样方法很重要,因为有偏样本会在你进行任何计算之前就导致误导性的结果。
三种常见方法是简单随机抽样、分层抽样和系统抽样。该选哪一种,取决于总体情况、你手头的名单,以及重要群体是否需要单独得到代表。
抽样方法速览
简单随机抽样只依靠随机机会,因此总体中的每个成员都有相同的被抽中概率。
分层抽样先把总体划分为有意义的组,称为层,然后在每一层内随机抽样。当这些组与研究问题有关时,就应使用这种方法。
系统抽样从名单中的一个随机位置开始,然后每隔 个抽取一个。它速度快,但只有在名单顺序中不包含与你测量内容相关的重复模式时,效果才好。
什么时候使用每种抽样方法
当总体本身就是一个混合在一起的整体,而你主要希望通过随机性保证公平时,使用简单随机抽样。
当某些群体很重要,以至于普通随机样本可能漏掉它们或让它们代表不足时,使用分层抽样。
当你有一个很长的有序名单,并且想采用像“每隔 10 个名字取一个”这样的实用规则时,使用系统抽样。但有一个前提:如果名单顺序中隐藏着某种周期,这种方法就可能扭曲结果。
如果你想快速判断,可以问自己:
- 总体基本上是一个混合群体吗?用简单随机抽样。
- 某些特定群体是否需要可靠地被代表?用分层抽样。
- 你是否有一份很长且中性的名单,并且需要一种快速方法?用系统抽样。
例题:分层抽样让关键群体保留在样本中
假设一所学校想调查学习习惯。共有 名学生: 名高二学生和 名高三学生。学校想抽取 名学生作为样本。
如果使用简单随机抽样,结果可能接近真实比例,但随机性仍可能导致高二学生过多或高三学生过多。
如果使用分层抽样,学校会在样本中保持相同的比例:
因此,样本中包括 名高二学生和 名高三学生,并且在各年级内部随机抽取。这样做在这里很合理,因为年级可能会影响学习习惯,而学校希望两个群体都按与总体相同的比例得到代表。
分层抽样并不是在所有问题中都自动更好。只有当这些群体确实有意义,而且你在意每一组都能被充分代表时,它才有帮助。
系统抽样如何运作
设想同一所学校有一份 名学生的名单,想抽取 人作为样本。常见的间隔是
因此,学校可以先从 到 中随机选一个起点,然后从那里开始每隔 个学生抽取一个。
这种方法很高效,但也有弱点。如果名单是按某种重复方式排列的,比如按上课时段或项目分类,那么每第 个被选中的人就可能总是过于频繁地落在同一种类型的学生上。在这种情况下,这种方法的便利性反而会成为偏差的来源。
会使样本产生偏差的常见错误
把所有样本都叫作随机样本
一个样本并不会因为抽取者没有认真计划就自动变成随机样本。随机抽样必须有基于随机机会的规则。
在没有真实理由时使用分层抽样
这些分组应该与问题有关。如果各层只是随意划分,额外的复杂性可能并没有帮助。
忽视系统抽样中的顺序
只有当名单顺序不会相对于抽样间隔形成有害模式时,系统抽样才是安全的。
把样本和整个总体混为一谈
即使是好的样本,也仍然只是样本。它给出的是估计,而不是绝对确定的结论。
抽样方法用在哪里
抽样方法常见于问卷调查、民意调查、质量控制、实验、公共卫生研究和课堂数据项目。在每一种情况下,都是先选样本,再进行分析。
这就是为什么抽样属于统计学的起点,而不是终点。如果样本本身很弱,那么基于它得到的平均数、图表和结论也可能同样薄弱。
试试类似的问题
选一个你熟悉的总体,比如一个班级、一个社团,或一份产品清单。选择一种抽样方法,并用一句话说明理由。如果你选系统抽样,给出抽样间隔并检查是否存在重复模式。如果你选分层抽样,在计算样本量之前先说明为什么这些分组很重要。