산점도는 두 개의 수치형 변수 사이의 관계를 보여주는 그래프입니다. 각 점은 하나의 값의 쌍을 나타내므로, 데이터가 증가하는지, 감소하는지, 퍼져 있는지, 군집을 이루는지, 또는 특이한 점이 있는지를 빠르게 확인할 수 있습니다.

그래서 산점도는 많은 학생들이 실제로 궁금해하는 질문, 즉 "이 데이터에서 무슨 일이 일어나고 있지?"에 가장 빨리 답해 주는 도구입니다. 상관관계를 계산하거나 최적합선을 그리기 전에, 그런 요약이 애초에 의미가 있는지 그래프가 먼저 알려 줍니다.

산점도 읽는 법

가로축에는 한 변수를, 세로축에는 다른 변수를 나타냅니다. 예를 들어 어떤 학생이 44시간 공부해서 7878점을 받았다면, 그 점은 (4,78)(4,78)입니다.

점들을 그래프에 찍은 뒤에는 전체적인 패턴을 살펴보세요.

  • 양의 상관관계: 점들이 왼쪽에서 오른쪽으로 갈수록 올라가는 경향이 있습니다.
  • 음의 상관관계: 점들이 왼쪽에서 오른쪽으로 갈수록 내려가는 경향이 있습니다.
  • 뚜렷한 상관관계가 거의 없거나 없음: 점들이 강한 선형 경향을 보이지 않습니다.

또한 군집, 빈 구간, 이상치도 확인해야 합니다. 실제 데이터는 거의 절대 정확히 한 직선 위에 놓이지 않으므로, 목표는 완벽한 일치가 아니라 경향을 파악하는 것입니다.

산점도에서 상관관계의 의미

상관관계는 선형 관계의 방향과 강도를 설명합니다. 여기서 핵심 조건은 "선형"이라는 점입니다. 즉, 상관관계는 점들이 직선 경향과 얼마나 잘 맞는지를 요약하는 값입니다.

점들이 우상향하는 직선 주변에 모여 있으면 상관관계는 양수입니다. 점들이 우하향하는 직선 주변에 모여 있으면 상관관계는 음수입니다. 점들이 뚜렷한 직선 방향 없이 흩어져 보이면 선형 상관관계는 약하거나 00에 가깝습니다.

곡선 형태의 패턴도 실제 관계를 보여줄 수 있습니다. 다만 그 관계가 강한 선형 상관관계를 가지지 않을 수 있습니다.

최적합선이 도움이 되는 경우

최적합선은 점들의 전체적인 경향을 나타내기 위해 그리는 직선입니다. 이 선이 모든 점을 반드시 지나갈 필요는 없습니다. 중요한 것은 전체적으로 점들의 분포에 가깝게 놓이는 것입니다.

최적합선은 산점도가 대체로 선형일 때만 사용하세요. 이 경우, 이 선은 두 가지에 도움이 됩니다.

  • 경향 요약하기
  • 관측된 범위 안에서 대략적인 예측하기

패턴이 곡선이거나, 여러 군집으로 나뉘어 있거나, 이상치의 영향이 크다면 직선 최적합선은 설명하는 것보다 숨기는 것이 더 많을 수 있습니다.

산점도 예시: 공부 시간과 퀴즈 점수

어떤 교사가 다섯 학생의 공부 시간과 퀴즈 점수를 기록했다고 해 봅시다.

(1,55), (2,61), (3,68), (4,74), (5,81)(1,55),\ (2,61),\ (3,68),\ (4,74),\ (5,81)

이 점들은 왼쪽에서 오른쪽으로 갈수록 올라가며, 직선에 비교적 가깝게 놓여 있습니다. 즉, 이 관계는 양의 관계이고 대체로 선형적입니다.

따라서 여기서는 상관관계와 최적합선 모두 적절한 요약이 됩니다. 공부 시간이 길수록 퀴즈 점수도 높아지는 경향이 있으므로, 최적합선의 기울기는 양수일 것이라고 예상할 수 있습니다.

이제 (5,40)(5,40)이라는 점 하나를 추가해 봅시다. 전체 경향은 여전히 양수일 수 있지만, 이 점은 이상치이며 최적합선을 아래로 끌어내릴 수 있습니다. 그래서 요약보다 그래프를 먼저 봐야 합니다. 그림이 그 요약을 믿을 만한지 알려 주기 때문입니다.

산점도에서 흔한 실수

상관관계를 인과관계로 여기는 것

두 변수가 함께 움직인다고 해서 자동으로 한 변수가 다른 변수를 일으킨다는 뜻은 아닙니다. 제3의 요인이 둘 다에 영향을 줄 수도 있고, 패턴이 처음 보이는 것보다 더 복잡할 수도 있습니다.

곡선 패턴에 억지로 직선을 맞추는 것

어떤 데이터는 직선이 아니라 곡선을 따릅니다. 이런 경우 선형 최적합선은 오해를 부르는 요약이 될 수 있습니다.

이상치를 무시하는 것

특이한 점 하나가 전체 경향을 크게 바꿀 수 있습니다. 이상치가 항상 데이터 오류를 뜻하는 것은 아니지만, 맥락을 확인하지 않고 무시해서는 안 됩니다.

점 하나가 무엇을 나타내는지 잊는 것

산점도는 짝지어진 데이터에서만 의미가 있습니다. 각 점은 반드시 xx값과 yy값을 모두 가진 하나의 관측값에서 나와야 합니다.

산점도가 사용되는 경우

산점도는 두 개의 수치형 변수를 비교하고 싶을 때 통계, 과학, 비즈니스, 사회 연구 등에서 사용됩니다. 흔한 예로는 키와 몸무게, 광고비와 매출, 공부 시간과 시험 점수가 있습니다.

특히 분석의 시작 단계에서 매우 유용합니다. 하나의 공식만으로는 가려질 수 있는 군집, 빈 구간, 이상치 같은 패턴을 드러내기 때문입니다.

비슷한 문제를 직접 해보기

상관관계를 계산하기 전에, 짝지어진 데이터의 작은 집합을 골라 점들을 먼저 스케치해 보세요. 그리고 세 가지를 물어보세요. 패턴이 올라가거나 내려가는가, 대체로 선형처럼 보이는가, 다른 점들보다 유난히 멀리 떨어진 점이 있는가?

패턴이 대체로 선형처럼 보인다면, 같은 데이터를 상관계수나 간단한 최적합선으로 더 살펴보세요. 이것이 그림에서 요약으로 넘어가는 자연스러운 다음 단계입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →