在统计学中,数据类型说明一个变量表示的是什么。如果取值是像“红色”或“生物”这样的标签,那么数据就是定性的。如果取值是数值大小,那么数据就是定量的。接着,对于定量数据,通常还要再问一个问题:它是离散的计数,还是连续的测量?

这很重要,因为数据类型会影响哪些图表、汇总方式和模型是合适的。均值可以用于身高,但不能用于眼睛颜色。

定性数据与定量数据

定性数据表示类别

定性数据描述的是性质、分组或标签,而不是数值大小。例子包括汽车颜色、血型和国家。

这类数据也常被称为分类数据。

定量数据表示数值大小

定量数据记录的是一个数值大小。这个数字不只是标签;它表示多少、有几个,或者有多远。

例子包括年龄、身高、考试分数和宠物数量。

离散数据与连续数据

离散数据来自计数

离散数据是定量数据,通常来自计数。它的取值是在一个个允许的数值之间跳变,而不是填满整个区间。

一个班里的学生人数是离散的,因为你数的是完整的学生。按照通常的计数模型,像 24.524.5 个学生这样的值是没有意义的。

连续数据来自测量

连续数据是定量数据,通常来自测量。原则上,取值可以根据测量工具和具体情境,被记录得越来越精确。

身高、时间和温度都是标准例子。一个人的身高可能写成 170170 cm、170.2170.2 cm 或 170.24170.24 cm,这取决于你使用的精度。

示例:给学生数据分类

假设一所学校为每位学生记录以下四个变量:

  • 班级
  • 兄弟姐妹人数
  • 上学路上所花时间
  • 最喜欢的学科

下面来看如何分类。

班级是定性数据,因为它是一个分组标签。

兄弟姐妹人数是定量且离散的数据,因为它是计数:0,1,2,3,0, 1, 2, 3, 等等。

上学路上所花时间是定量且连续的数据,因为它是测量得到的。你可能会把它四舍五入到最接近的分钟,但这个变量本身可以比这更细致地变化。

最喜欢的学科是定性数据,因为它表示一个类别,而不是一个数量。

这个例子展示了主要的判断路径。先问“标签还是数量?”如果是数量,再问“计数还是测量?”

如何判断你面对的是哪种数据类型

可以使用下面这个经验法则:

  1. 如果对这些值求平均数没有意义,那么这些数据很可能是定性的。
  2. 如果求平均数是有意义的,那么这些数据很可能是定量的。
  3. 如果定量取值来自对独立对象的计数,它们通常是离散的。
  4. 如果它们来自某个刻度上的测量,它们通常是连续的。

这是一个实用的快捷方法,不是严格证明。变量所处的具体情境仍然很重要。

统计学中关于数据类型的常见错误

把数字编码当成真实数量

如果问卷答案被编码为 112233,这些数字仍然可能代表类别,而不是真实的数量。数据里出现数字,并不自动意味着这个变量是定量的。

认为所有整数值都是离散的

一个记录下来的测量值之所以看起来是整数,可能只是因为它被四舍五入了。例如,体重记为 686872727575 千克,如果体重是测量得到的而不是数出来的,那么它仍然是连续数据。

混淆变量本身与它的存储方式

四舍五入到最接近一分钟的出行时间,通常会以整数形式存储,但这个变量本身仍然是连续的。记录格式并不总会改变其底层类型。

这些数据类型在统计学中的用途

当你选择图表、汇总方式或统计方法时,这种分类都很重要。

对于定性数据,条形图和频数表很常见。对于定量数据,直方图、箱线图、均值、中位数和标准差可能会很有用。

在选择概率模型时,离散与连续的区分也很重要。有些模型是为计数设计的,而另一些模型则适用于连续区间上的测量。

试着自己做一版

从日常生活中选出五个变量,例如鞋码、邮政编码、温度、电子邮件数量或发色,并对每一个进行分类。如果某个例子看起来有歧义,就说明决定它的条件,比如它是标签、计数还是测量。

如果你想再进一步,可以继续思考另一个问题:对于每个变量,哪种图表或汇总方式是合适的,哪种又是不合适的。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →