산점도는 두 개의 수치형 변수 사이의 관계를 보여주는 그래프입니다. 각 점은 하나의 값의 쌍을 나타내므로, 데이터가 증가하는지, 감소하는지, 퍼져 있는지, 군집을 이루는지, 또는 특이한 점이 있는지를 빠르게 확인할 수 있습니다.
그래서 산점도는 많은 학생들이 실제로 궁금해하는 질문, 즉 "이 데이터에서 무슨 일이 일어나고 있지?"에 가장 빨리 답해 주는 도구입니다. 상관관계를 계산하거나 최적합선을 그리기 전에, 그런 요약이 애초에 의미가 있는지 그래프가 먼저 알려 줍니다.
산점도 읽는 법
가로축에는 한 변수를, 세로축에는 다른 변수를 나타냅니다. 예를 들어 어떤 학생이 시간 공부해서 점을 받았다면, 그 점은 입니다.
점들을 그래프에 찍은 뒤에는 전체적인 패턴을 살펴보세요.
- 양의 상관관계: 점들이 왼쪽에서 오른쪽으로 갈수록 올라가는 경향이 있습니다.
- 음의 상관관계: 점들이 왼쪽에서 오른쪽으로 갈수록 내려가는 경향이 있습니다.
- 뚜렷한 상관관계가 거의 없거나 없음: 점들이 강한 선형 경향을 보이지 않습니다.
또한 군집, 빈 구간, 이상치도 확인해야 합니다. 실제 데이터는 거의 절대 정확히 한 직선 위에 놓이지 않으므로, 목표는 완벽한 일치가 아니라 경향을 파악하는 것입니다.
산점도에서 상관관계의 의미
상관관계는 선형 관계의 방향과 강도를 설명합니다. 여기서 핵심 조건은 "선형"이라는 점입니다. 즉, 상관관계는 점들이 직선 경향과 얼마나 잘 맞는지를 요약하는 값입니다.
점들이 우상향하는 직선 주변에 모여 있으면 상관관계는 양수입니다. 점들이 우하향하는 직선 주변에 모여 있으면 상관관계는 음수입니다. 점들이 뚜렷한 직선 방향 없이 흩어져 보이면 선형 상관관계는 약하거나 에 가깝습니다.
곡선 형태의 패턴도 실제 관계를 보여줄 수 있습니다. 다만 그 관계가 강한 선형 상관관계를 가지지 않을 수 있습니다.
최적합선이 도움이 되는 경우
최적합선은 점들의 전체적인 경향을 나타내기 위해 그리는 직선입니다. 이 선이 모든 점을 반드시 지나갈 필요는 없습니다. 중요한 것은 전체적으로 점들의 분포에 가깝게 놓이는 것입니다.
최적합선은 산점도가 대체로 선형일 때만 사용하세요. 이 경우, 이 선은 두 가지에 도움이 됩니다.
- 경향 요약하기
- 관측된 범위 안에서 대략적인 예측하기
패턴이 곡선이거나, 여러 군집으로 나뉘어 있거나, 이상치의 영향이 크다면 직선 최적합선은 설명하는 것보다 숨기는 것이 더 많을 수 있습니다.
산점도 예시: 공부 시간과 퀴즈 점수
어떤 교사가 다섯 학생의 공부 시간과 퀴즈 점수를 기록했다고 해 봅시다.
이 점들은 왼쪽에서 오른쪽으로 갈수록 올라가며, 직선에 비교적 가깝게 놓여 있습니다. 즉, 이 관계는 양의 관계이고 대체로 선형적입니다.
따라서 여기서는 상관관계와 최적합선 모두 적절한 요약이 됩니다. 공부 시간이 길수록 퀴즈 점수도 높아지는 경향이 있으므로, 최적합선의 기울기는 양수일 것이라고 예상할 수 있습니다.
이제 이라는 점 하나를 추가해 봅시다. 전체 경향은 여전히 양수일 수 있지만, 이 점은 이상치이며 최적합선을 아래로 끌어내릴 수 있습니다. 그래서 요약보다 그래프를 먼저 봐야 합니다. 그림이 그 요약을 믿을 만한지 알려 주기 때문입니다.
산점도에서 흔한 실수
상관관계를 인과관계로 여기는 것
두 변수가 함께 움직인다고 해서 자동으로 한 변수가 다른 변수를 일으킨다는 뜻은 아닙니다. 제3의 요인이 둘 다에 영향을 줄 수도 있고, 패턴이 처음 보이는 것보다 더 복잡할 수도 있습니다.
곡선 패턴에 억지로 직선을 맞추는 것
어떤 데이터는 직선이 아니라 곡선을 따릅니다. 이런 경우 선형 최적합선은 오해를 부르는 요약이 될 수 있습니다.
이상치를 무시하는 것
특이한 점 하나가 전체 경향을 크게 바꿀 수 있습니다. 이상치가 항상 데이터 오류를 뜻하는 것은 아니지만, 맥락을 확인하지 않고 무시해서는 안 됩니다.
점 하나가 무엇을 나타내는지 잊는 것
산점도는 짝지어진 데이터에서만 의미가 있습니다. 각 점은 반드시 값과 값을 모두 가진 하나의 관측값에서 나와야 합니다.
산점도가 사용되는 경우
산점도는 두 개의 수치형 변수를 비교하고 싶을 때 통계, 과학, 비즈니스, 사회 연구 등에서 사용됩니다. 흔한 예로는 키와 몸무게, 광고비와 매출, 공부 시간과 시험 점수가 있습니다.
특히 분석의 시작 단계에서 매우 유용합니다. 하나의 공식만으로는 가려질 수 있는 군집, 빈 구간, 이상치 같은 패턴을 드러내기 때문입니다.
비슷한 문제를 직접 해보기
상관관계를 계산하기 전에, 짝지어진 데이터의 작은 집합을 골라 점들을 먼저 스케치해 보세요. 그리고 세 가지를 물어보세요. 패턴이 올라가거나 내려가는가, 대체로 선형처럼 보이는가, 다른 점들보다 유난히 멀리 떨어진 점이 있는가?
패턴이 대체로 선형처럼 보인다면, 같은 데이터를 상관계수나 간단한 최적합선으로 더 살펴보세요. 이것이 그림에서 요약으로 넘어가는 자연스러운 다음 단계입니다.