상관계수라고 하면 보통 피어슨 상관계수(Pearson's correlation coefficient), 즉 을 뜻합니다. 이는 두 수치형 변수 사이의 선형 관계의 방향과 강도를 측정합니다.
이 양수이면 두 변수는 함께 증가하는 경향이 있습니다. 이 음수이면 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있습니다. 이 에 가까우면, 피어슨의 은 선형 패턴이 거의 없다고 말하는 것이지 관계가 전혀 없다고 말하는 것은 아닙니다.
피어슨의 은 데이터가 짝으로 주어지고, 두 변수 모두 수치형이며, 직선 형태의 경향을 요약하고 싶을 때 가장 유용합니다.
상관계수가 알려주는 것
피어슨의 은 두 변수가 함께 어떻게 변하는지를 표준화해서 나타낸 값입니다. 짝지어진 표본 데이터에 대해 공식은 다음과 같습니다.
분자는 두 변수가 같은 방향으로 움직이는 경향이 있으면 양수가 되고, 반대 방향으로 움직이면 음수가 됩니다. 분모는 각 변수의 퍼짐을 이용해 그 공동 움직임의 크기를 다시 조정합니다.
피어슨의 이 정의될 때는 반드시 다음을 만족합니다.
한 변수가 전혀 변하지 않으면 분모가 이 되므로, 피어슨의 은 정의되지 않습니다.
양수, 음수, 0에 가까운 값을 어떻게 해석할까
먼저 부호를 봅니다.
- : 양의 선형 연관
- : 음의 선형 연관
- : 선형 연관 없음
그다음 크기 를 봅니다. 값이 에 가까울수록 점들이 직선 패턴에 더 가깝게 놓입니다. 값이 에 가까울수록 선형 패턴은 더 약합니다.
"약한", "중간", "강한" 같은 표현은 조심해서 써야 합니다. 이런 기준은 맥락에 따라 달라집니다. 어떤 분야에서는 도 중요할 수 있지만, 다른 분야에서는 의사결정을 뒷받침하기에 너무 작을 수 있습니다.
가장 안전한 습관은 을 산점도와 함께 읽는 것입니다. 이 숫자는 눈에 보이는 패턴을 요약한 값일 뿐, 그림을 대신할 수는 없습니다.
계산 예시: 구하기
짝지어진 데이터가 다음과 같다고 합시다.
먼저 평균을 구합니다.
이제 평균으로부터의 편차를 나열합니다.
- 에 대해:
- 에 대해:
짝지어진 편차를 곱해서 더합니다.
이제 두 제곱합을 계산합니다.
따라서
이 값은 이 표본에서 강한 양의 선형 연관이 있음을 뜻합니다. 가 증가할수록 도 대체로 증가하며, 점들은 우상향 직선에 비교적 가깝게 놓이게 됩니다.
상관관계를 해석할 때 흔한 실수
상관관계를 인과관계로 보는 것
상관이 높다고 해서 한 변수가 다른 변수를 일으킨다는 뜻은 아닙니다. 제3의 요인이 둘 다에 영향을 줄 수도 있고, 관측된 데이터에서 우연히 그런 관계가 나타났을 수도 있습니다.
피어슨의 이 선형만 본다는 점을 잊는 것
피어슨의 은 선형 연관을 잘 측정합니다. 관계가 곡선 형태라면, 변수들이 분명히 관련되어 있어도 상관계수는 작게 나올 수 있습니다.
이상치를 무시하는 것
특이한 점 하나가 을 크게 바꿀 수 있습니다. 산점도에 이상치가 있으면, 상관계수는 전체 패턴에 대해 오해를 부르는 이야기를 할 수 있습니다.
조건에 맞지 않는데 피어슨의 을 사용하는 것
피어슨의 은 짝지어진 수치형 데이터와 선형 연관을 위해 설계되었습니다. 한 변수가 범주형이거나 패턴이 분명히 곡선이라면, 이 계수는 실제로 알고 싶은 질문에 답하지 못할 수 있습니다.
0에 가까운 값을 과하게 해석하는 것
에 가까운 값은 "선형 연관이 거의 없다"는 뜻이지, "어떤 관계도 없다"는 뜻이 아닙니다.
피어슨 상관계수는 언제 쓰일까
피어슨의 은 통계학, 과학, 경제학, 사회과학 연구, 머신러닝에서 짝지어진 수치형 데이터를 빠르게 요약하는 데 널리 쓰입니다. 특히 선형회귀 같은 모델로 넘어가기 전에 직선 형태의 패턴이 있는지 알고 싶을 때 가장 유용합니다.
실제로는 산점도를 먼저 보는 것이 좋습니다. 상관계수는 요약값이지, 데이터를 직접 보는 일을 대신하는 것은 아닙니다.
비슷한 문제를 직접 해보기
이미 잘 알고 있는 작은 데이터셋을 하나 골라 점들을 찍어 보고, 을 계산하기 전에 경향이 양수인지, 음수인지, 아니면 불분명한지 먼저 추정해 보세요. 이런 빠른 비교는 상관계수가 실제로 무엇을 말하는지 감을 기르는 가장 좋은 방법 중 하나입니다.
한 걸음 더 나아가고 싶다면, 같은 데이터를 단순 선형회귀선으로도 살펴보세요. 그러면 상관과 예측이 서로 관련은 있지만 같지는 않다는 점을 더 쉽게 볼 수 있습니다.