统计学中的数据类型——定性、定量、离散与连续

在统计学中，数据类型说明一个变量表示的是什么。如果取值是像“红色”或“生物”这样的标签，那么数据就是定性的。如果取值是数值大小，那么数据就是定量的。接着，对于定量数据，通常还要再问一个问题：它是离散的计数，还是连续的测量？

这很重要，因为数据类型会影响哪些图表、汇总方式和模型是合适的。均值可以用于身高，但不能用于眼睛颜色。

定性数据与定量数据

定性数据描述的是性质、分组或标签，而不是数值大小。例子包括汽车颜色、血型和国家。

这类数据也常被称为分类数据。

定量数据记录的是一个数值大小。这个数字不只是标签；它表示多少、有几个，或者有多远。

例子包括年龄、身高、考试分数和宠物数量。

离散数据是定量数据，通常来自计数。它的取值是在一个个允许的数值之间跳变，而不是填满整个区间。

一个班里的学生人数是离散的，因为你数的是完整的学生。按照通常的计数模型，像 $24.5$ 个学生这样的值是没有意义的。

连续数据是定量数据，通常来自测量。原则上，取值可以根据测量工具和具体情境，被记录得越来越精确。

身高、时间和温度都是标准例子。一个人的身高可能写成 $170$ cm、 $170.2$ cm 或 $170.24$ cm，这取决于你使用的精度。

假设一所学校为每位学生记录以下四个变量：

下面来看如何分类。

班级是定性数据，因为它是一个分组标签。

兄弟姐妹人数是定量且离散的数据，因为它是计数： $0, 1, 2, 3,$ 等等。

上学路上所花时间是定量且连续的数据，因为它是测量得到的。你可能会把它四舍五入到最接近的分钟，但这个变量本身可以比这更细致地变化。

最喜欢的学科是定性数据，因为它表示一个类别，而不是一个数量。

这个例子展示了主要的判断路径。先问“标签还是数量？”如果是数量，再问“计数还是测量？”

可以使用下面这个经验法则：

这是一个实用的快捷方法，不是严格证明。变量所处的具体情境仍然很重要。

如果问卷答案被编码为 $1$ 、 $2$ 和 $3$ ，这些数字仍然可能代表类别，而不是真实的数量。数据里出现数字，并不自动意味着这个变量是定量的。

一个记录下来的测量值之所以看起来是整数，可能只是因为它被四舍五入了。例如，体重记为 $68$ 、 $72$ 和 $75$ 千克，如果体重是测量得到的而不是数出来的，那么它仍然是连续数据。

四舍五入到最接近一分钟的出行时间，通常会以整数形式存储，但这个变量本身仍然是连续的。记录格式并不总会改变其底层类型。

当你选择图表、汇总方式或统计方法时，这种分类都很重要。

对于定性数据，条形图和频数表很常见。对于定量数据，直方图、箱线图、均值、中位数和标准差可能会很有用。

在选择概率模型时，离散与连续的区分也很重要。有些模型是为计数设计的，而另一些模型则适用于连续区间上的测量。

从日常生活中选出五个变量，例如鞋码、邮政编码、温度、电子邮件数量或发色，并对每一个进行分类。如果某个例子看起来有歧义，就说明决定它的条件，比如它是标签、计数还是测量。

如果你想再进一步，可以继续思考另一个问题：对于每个变量，哪种图表或汇总方式是合适的，哪种又是不合适的。

上传你的问题，几秒钟内获得经过验证的分步解答。