在统计学中,数据类型说明一个变量表示的是什么。如果取值是像“红色”或“生物”这样的标签,那么数据就是定性的。如果取值是数值大小,那么数据就是定量的。接着,对于定量数据,通常还要再问一个问题:它是离散的计数,还是连续的测量?
这很重要,因为数据类型会影响哪些图表、汇总方式和模型是合适的。均值可以用于身高,但不能用于眼睛颜色。
定性数据与定量数据
定性数据表示类别
定性数据描述的是性质、分组或标签,而不是数值大小。例子包括汽车颜色、血型和国家。
这类数据也常被称为分类数据。
定量数据表示数值大小
定量数据记录的是一个数值大小。这个数字不只是标签;它表示多少、有几个,或者有多远。
例子包括年龄、身高、考试分数和宠物数量。
离散数据与连续数据
离散数据来自计数
离散数据是定量数据,通常来自计数。它的取值是在一个个允许的数值之间跳变,而不是填满整个区间。
一个班里的学生人数是离散的,因为你数的是完整的学生。按照通常的计数模型,像 个学生这样的值是没有意义的。
连续数据来自测量
连续数据是定量数据,通常来自测量。原则上,取值可以根据测量工具和具体情境,被记录得越来越精确。
身高、时间和温度都是标准例子。一个人的身高可能写成 cm、 cm 或 cm,这取决于你使用的精度。
示例:给学生数据分类
假设一所学校为每位学生记录以下四个变量:
- 班级
- 兄弟姐妹人数
- 上学路上所花时间
- 最喜欢的学科
下面来看如何分类。
班级是定性数据,因为它是一个分组标签。
兄弟姐妹人数是定量且离散的数据,因为它是计数: 等等。
上学路上所花时间是定量且连续的数据,因为它是测量得到的。你可能会把它四舍五入到最接近的分钟,但这个变量本身可以比这更细致地变化。
最喜欢的学科是定性数据,因为它表示一个类别,而不是一个数量。
这个例子展示了主要的判断路径。先问“标签还是数量?”如果是数量,再问“计数还是测量?”
如何判断你面对的是哪种数据类型
可以使用下面这个经验法则:
- 如果对这些值求平均数没有意义,那么这些数据很可能是定性的。
- 如果求平均数是有意义的,那么这些数据很可能是定量的。
- 如果定量取值来自对独立对象的计数,它们通常是离散的。
- 如果它们来自某个刻度上的测量,它们通常是连续的。
这是一个实用的快捷方法,不是严格证明。变量所处的具体情境仍然很重要。
统计学中关于数据类型的常见错误
把数字编码当成真实数量
如果问卷答案被编码为 、 和 ,这些数字仍然可能代表类别,而不是真实的数量。数据里出现数字,并不自动意味着这个变量是定量的。
认为所有整数值都是离散的
一个记录下来的测量值之所以看起来是整数,可能只是因为它被四舍五入了。例如,体重记为 、 和 千克,如果体重是测量得到的而不是数出来的,那么它仍然是连续数据。
混淆变量本身与它的存储方式
四舍五入到最接近一分钟的出行时间,通常会以整数形式存储,但这个变量本身仍然是连续的。记录格式并不总会改变其底层类型。
这些数据类型在统计学中的用途
当你选择图表、汇总方式或统计方法时,这种分类都很重要。
对于定性数据,条形图和频数表很常见。对于定量数据,直方图、箱线图、均值、中位数和标准差可能会很有用。
在选择概率模型时,离散与连续的区分也很重要。有些模型是为计数设计的,而另一些模型则适用于连续区间上的测量。
试着自己做一版
从日常生活中选出五个变量,例如鞋码、邮政编码、温度、电子邮件数量或发色,并对每一个进行分类。如果某个例子看起来有歧义,就说明决定它的条件,比如它是标签、计数还是测量。
如果你想再进一步,可以继续思考另一个问题:对于每个变量,哪种图表或汇总方式是合适的,哪种又是不合适的。