상관계수라고 하면 보통 피어슨 상관계수(Pearson's correlation coefficient), 즉 rr을 뜻합니다. 이는 두 수치형 변수 사이의 선형 관계의 방향과 강도를 측정합니다.

rr이 양수이면 두 변수는 함께 증가하는 경향이 있습니다. rr이 음수이면 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있습니다. rr00에 가까우면, 피어슨의 rr은 선형 패턴이 거의 없다고 말하는 것이지 관계가 전혀 없다고 말하는 것은 아닙니다.

피어슨의 rr은 데이터가 짝으로 주어지고, 두 변수 모두 수치형이며, 직선 형태의 경향을 요약하고 싶을 때 가장 유용합니다.

상관계수가 알려주는 것

피어슨의 rr은 두 변수가 함께 어떻게 변하는지를 표준화해서 나타낸 값입니다. 짝지어진 표본 데이터에 대해 공식은 다음과 같습니다.

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

분자는 두 변수가 같은 방향으로 움직이는 경향이 있으면 양수가 되고, 반대 방향으로 움직이면 음수가 됩니다. 분모는 각 변수의 퍼짐을 이용해 그 공동 움직임의 크기를 다시 조정합니다.

피어슨의 rr이 정의될 때는 반드시 다음을 만족합니다.

1r1-1 \le r \le 1

한 변수가 전혀 변하지 않으면 분모가 00이 되므로, 피어슨의 rr은 정의되지 않습니다.

양수, 음수, 0에 가까운 값을 어떻게 해석할까

먼저 부호를 봅니다.

  • r>0r > 0: 양의 선형 연관
  • r<0r < 0: 음의 선형 연관
  • r=0r = 0: 선형 연관 없음

그다음 크기 r|r|를 봅니다. 값이 11에 가까울수록 점들이 직선 패턴에 더 가깝게 놓입니다. 값이 00에 가까울수록 선형 패턴은 더 약합니다.

"약한", "중간", "강한" 같은 표현은 조심해서 써야 합니다. 이런 기준은 맥락에 따라 달라집니다. 어떤 분야에서는 r=0.3r = 0.3도 중요할 수 있지만, 다른 분야에서는 의사결정을 뒷받침하기에 너무 작을 수 있습니다.

가장 안전한 습관은 rr을 산점도와 함께 읽는 것입니다. 이 숫자는 눈에 보이는 패턴을 요약한 값일 뿐, 그림을 대신할 수는 없습니다.

계산 예시: r=0.9r = 0.9 구하기

짝지어진 데이터가 다음과 같다고 합시다.

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

먼저 평균을 구합니다.

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

이제 평균으로부터의 편차를 나열합니다.

  • xx에 대해: 2,1,0,1,2-2, -1, 0, 1, 2
  • yy에 대해: 2,1,1,0,2-2, -1, 1, 0, 2

짝지어진 편차를 곱해서 더합니다.

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

이제 두 제곱합을 계산합니다.

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

따라서

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

이 값은 이 표본에서 강한 양의 선형 연관이 있음을 뜻합니다. xx가 증가할수록 yy도 대체로 증가하며, 점들은 우상향 직선에 비교적 가깝게 놓이게 됩니다.

상관관계를 해석할 때 흔한 실수

상관관계를 인과관계로 보는 것

상관이 높다고 해서 한 변수가 다른 변수를 일으킨다는 뜻은 아닙니다. 제3의 요인이 둘 다에 영향을 줄 수도 있고, 관측된 데이터에서 우연히 그런 관계가 나타났을 수도 있습니다.

피어슨의 rr이 선형만 본다는 점을 잊는 것

피어슨의 rr은 선형 연관을 잘 측정합니다. 관계가 곡선 형태라면, 변수들이 분명히 관련되어 있어도 상관계수는 작게 나올 수 있습니다.

이상치를 무시하는 것

특이한 점 하나가 rr을 크게 바꿀 수 있습니다. 산점도에 이상치가 있으면, 상관계수는 전체 패턴에 대해 오해를 부르는 이야기를 할 수 있습니다.

조건에 맞지 않는데 피어슨의 rr을 사용하는 것

피어슨의 rr은 짝지어진 수치형 데이터와 선형 연관을 위해 설계되었습니다. 한 변수가 범주형이거나 패턴이 분명히 곡선이라면, 이 계수는 실제로 알고 싶은 질문에 답하지 못할 수 있습니다.

0에 가까운 값을 과하게 해석하는 것

00에 가까운 값은 "선형 연관이 거의 없다"는 뜻이지, "어떤 관계도 없다"는 뜻이 아닙니다.

피어슨 상관계수는 언제 쓰일까

피어슨의 rr은 통계학, 과학, 경제학, 사회과학 연구, 머신러닝에서 짝지어진 수치형 데이터를 빠르게 요약하는 데 널리 쓰입니다. 특히 선형회귀 같은 모델로 넘어가기 전에 직선 형태의 패턴이 있는지 알고 싶을 때 가장 유용합니다.

실제로는 산점도를 먼저 보는 것이 좋습니다. 상관계수는 요약값이지, 데이터를 직접 보는 일을 대신하는 것은 아닙니다.

비슷한 문제를 직접 해보기

이미 잘 알고 있는 작은 데이터셋을 하나 골라 점들을 찍어 보고, rr을 계산하기 전에 경향이 양수인지, 음수인지, 아니면 불분명한지 먼저 추정해 보세요. 이런 빠른 비교는 상관계수가 실제로 무엇을 말하는지 감을 기르는 가장 좋은 방법 중 하나입니다.

한 걸음 더 나아가고 싶다면, 같은 데이터를 단순 선형회귀선으로도 살펴보세요. 그러면 상관과 예측이 서로 관련은 있지만 같지는 않다는 점을 더 쉽게 볼 수 있습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →