散点图用于展示两个数值变量之间的关系。每个点代表一对数值,因此你可以很快看出数据是上升、下降、分散、聚集,还是包含异常点。
这也让散点图成为回答大多数学生真正想问的问题的最快方法:“这些数据到底说明了什么?”在你计算相关系数或画出最佳拟合直线之前,图像本身就会告诉你这些总结是否有意义。
如何读懂散点图
横轴表示一个变量,纵轴表示另一个变量。如果某个学生学习了 小时,得分是 ,那么这个点就是 。
当所有点都画到图上后,先观察整体模式:
- 正相关:点通常从左到右上升。
- 负相关:点通常从左到右下降。
- 几乎没有明显相关性:点没有表现出明显的线性趋势。
还要检查是否存在聚类、间隔和离群点。真实数据几乎不会完全落在同一条直线上,所以目标是看出趋势,而不是追求完全对齐。
散点图中的相关性是什么意思
相关性描述的是线性关系的方向和强度。“线性”是关键条件:相关性是在概括这些点与一条直线趋势的匹配程度。
如果这些点聚集在一条向上倾斜的直线附近,相关性就是正的。如果它们聚集在一条向下倾斜的直线附近,相关性就是负的。如果这些点看起来分散,没有明确的直线方向,那么线性相关性就较弱,或者接近于零。
曲线模式也可能表示真实的关系。只是它未必具有很强的线性相关性。
什么时候最佳拟合直线有帮助
最佳拟合直线是一条用来表示点整体趋势的直线。它不需要穿过每一个点。它的作用是整体上尽量贴近这团点。
只有当散点图大致呈线性时,才适合使用最佳拟合直线。在这种情况下,这条直线有两个作用:
- 概括趋势
- 在已观察范围内进行粗略预测
如果图形是弯曲的、分成多个聚类,或者主要受离群点影响,那么一条直的最佳拟合线可能掩盖的信息比解释的还多。
散点图示例:学习时长与测验分数
假设一位老师记录了五名学生的学习时间和测验分数:
这些点从左到右上升,并且相当接近一条直线。这说明这种关系是正相关,并且大致呈线性。
因此,在这里使用相关性和最佳拟合直线都是合理的总结方式。你会预期最佳拟合直线具有正斜率,因为学习时间越长,测验分数通常也越高。
现在再加入一个额外的点 。整体趋势可能仍然是正的,但这个点是一个离群点,它可能会把最佳拟合直线向下拉。这就是为什么图像应该先于总结:图形会告诉你这个总结是否值得信赖。
散点图中的常见错误
把相关性当成因果关系
如果两个变量一起变化,并不自动意味着一个导致了另一个。可能有第三个因素同时影响了它们,或者这种模式比最初看起来更复杂。
把直线硬套到曲线模式上
有些数据遵循的是曲线而不是直线。在这种情况下,线性的最佳拟合直线可能会给出误导性的总结。
忽略离群点
一个异常点就可能大幅改变表面上的趋势。离群点不一定意味着数据有误,但如果不结合具体情境就直接忽略它们,是不应该的。
忘记一个点代表什么
散点图只适用于成对数据。每个点都必须来自同一个观测值,并且这个观测值同时具有一个 值和一个 值。
散点图在什么时候使用
当你想比较两个数值变量时,散点图会广泛用于统计学、科学、商业和社会研究中。常见例子包括身高与体重、广告投入与销售额,或者学习时间与考试分数。
它们在分析开始阶段尤其有用,因为它们能揭示单个公式可能掩盖的模式,例如聚类、间隔或离群点。
试试类似的问题
先取一小组成对数据,在计算相关性之前先把点画出来。问自己三个问题:这种模式是在上升还是下降?它看起来是否大致线性?有没有哪个点明显比其他点离得更远?
如果这种模式看起来大致线性,就可以继续用相关系数或简单的最佳拟合直线来分析同一组数据。这正是从图像走向总结的自然下一步。