散点图用于展示两个数值变量之间的关系。每个点代表一对数值,因此你可以很快看出数据是上升、下降、分散、聚集,还是包含异常点。

这也让散点图成为回答大多数学生真正想问的问题的最快方法:“这些数据到底说明了什么?”在你计算相关系数或画出最佳拟合直线之前,图像本身就会告诉你这些总结是否有意义。

如何读懂散点图

横轴表示一个变量,纵轴表示另一个变量。如果某个学生学习了 44 小时,得分是 7878,那么这个点就是 (4,78)(4,78)

当所有点都画到图上后,先观察整体模式:

  • 正相关:点通常从左到右上升。
  • 负相关:点通常从左到右下降。
  • 几乎没有明显相关性:点没有表现出明显的线性趋势。

还要检查是否存在聚类、间隔和离群点。真实数据几乎不会完全落在同一条直线上,所以目标是看出趋势,而不是追求完全对齐。

散点图中的相关性是什么意思

相关性描述的是线性关系的方向和强度。“线性”是关键条件:相关性是在概括这些点与一条直线趋势的匹配程度。

如果这些点聚集在一条向上倾斜的直线附近,相关性就是正的。如果它们聚集在一条向下倾斜的直线附近,相关性就是负的。如果这些点看起来分散,没有明确的直线方向,那么线性相关性就较弱,或者接近于零。

曲线模式也可能表示真实的关系。只是它未必具有很强的线性相关性。

什么时候最佳拟合直线有帮助

最佳拟合直线是一条用来表示点整体趋势的直线。它不需要穿过每一个点。它的作用是整体上尽量贴近这团点。

只有当散点图大致呈线性时,才适合使用最佳拟合直线。在这种情况下,这条直线有两个作用:

  • 概括趋势
  • 在已观察范围内进行粗略预测

如果图形是弯曲的、分成多个聚类,或者主要受离群点影响,那么一条直的最佳拟合线可能掩盖的信息比解释的还多。

散点图示例:学习时长与测验分数

假设一位老师记录了五名学生的学习时间和测验分数:

(1,55), (2,61), (3,68), (4,74), (5,81)(1,55),\ (2,61),\ (3,68),\ (4,74),\ (5,81)

这些点从左到右上升,并且相当接近一条直线。这说明这种关系是正相关,并且大致呈线性。

因此,在这里使用相关性和最佳拟合直线都是合理的总结方式。你会预期最佳拟合直线具有正斜率,因为学习时间越长,测验分数通常也越高。

现在再加入一个额外的点 (5,40)(5,40)。整体趋势可能仍然是正的,但这个点是一个离群点,它可能会把最佳拟合直线向下拉。这就是为什么图像应该先于总结:图形会告诉你这个总结是否值得信赖。

散点图中的常见错误

把相关性当成因果关系

如果两个变量一起变化,并不自动意味着一个导致了另一个。可能有第三个因素同时影响了它们,或者这种模式比最初看起来更复杂。

把直线硬套到曲线模式上

有些数据遵循的是曲线而不是直线。在这种情况下,线性的最佳拟合直线可能会给出误导性的总结。

忽略离群点

一个异常点就可能大幅改变表面上的趋势。离群点不一定意味着数据有误,但如果不结合具体情境就直接忽略它们,是不应该的。

忘记一个点代表什么

散点图只适用于成对数据。每个点都必须来自同一个观测值,并且这个观测值同时具有一个 xx 值和一个 yy 值。

散点图在什么时候使用

当你想比较两个数值变量时,散点图会广泛用于统计学、科学、商业和社会研究中。常见例子包括身高与体重、广告投入与销售额,或者学习时间与考试分数。

它们在分析开始阶段尤其有用,因为它们能揭示单个公式可能掩盖的模式,例如聚类、间隔或离群点。

试试类似的问题

先取一小组成对数据,在计算相关性之前先把点画出来。问自己三个问题:这种模式是在上升还是下降?它看起来是否大致线性?有没有哪个点明显比其他点离得更远?

如果这种模式看起来大致线性,就可以继续用相关系数或简单的最佳拟合直线来分析同一组数据。这正是从图像走向总结的自然下一步。

需要解题帮助?

上传你的问题,几秒钟内获得经过验证的分步解答。

打开 GPAI Solver →