분산은 숫자들이 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다. 분산이 작으면 값들이 평균에 비교적 가깝게 모여 있다는 뜻입니다. 분산이 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.
분산을 계산하려면 각 값이 평균에서 얼마나 떨어져 있는지 구하고, 그 거리를 제곱한 뒤, 그 값을 평균냅니다. 제곱이 중요한 이유는 그렇지 않으면 양의 편차와 음의 편차가 서로 상쇄되기 때문입니다.
분산 공식: 모집단 vs. 표본
데이터가 설명하려는 집단의 모든 값을 포함하고 있다면 모집단 분산 공식을 사용합니다:
데이터가 일부 표본에 불과하고, 더 큰 모집단의 퍼짐 정도를 추정하려는 경우에는 표본 분산 공식을 사용합니다:
두 공식의 차이는 분모뿐입니다. 전체 모집단이면 을 사용합니다. 표본으로 추정할 때는 을 사용합니다.
분산이 의미하는 것
분산은 중심이 어디에 있는지를 알려주지 않습니다. 대신 데이터가 그 중심에서 얼마나 떨어져 있는 경향이 있는지를 알려줍니다.
두 데이터 집합의 평균이 같다면, 분산이 더 큰 쪽은 값들이 평균에서 평균적으로 더 멀리 떨어져 있습니다. 편차를 제곱하기 때문에, 유난히 큰 차이는 더 큰 영향을 미칩니다.
중요한 점이 하나 있습니다. 분산의 단위는 제곱 단위입니다. 데이터가 미터 단위라면 분산은 제곱미터 단위가 됩니다. 그래서 일상적으로 해석할 때는 표준편차가 더 이해하기 쉬운 경우가 많습니다.
분산 계산 방법: 예제 풀이
데이터 집합 를 사용해 봅시다.
먼저 평균을 구합니다:
이제 각 값에서 평균을 빼고 그 결과를 제곱합니다:
이 제곱된 편차들을 모두 더합니다:
이 여덟 개의 값이 전체 모집단이라면, 모집단 분산은 다음과 같습니다:
같은 여덟 개의 값을 더 큰 모집단에서 뽑은 표본으로 본다면, 표본 분산은 다음과 같습니다:
이 예제는 핵심 아이디어를 분명하게 보여줍니다. 제곱된 편차의 합은 같지만, 으로 나누는지 로 나누는지에 따라 최종 답이 달라집니다.
분산에서 자주 하는 실수
- 편차를 제곱하는 것을 빼먹는 경우. 원래 편차를 그대로 평균내면 양수와 음수가 상쇄되어 퍼짐 정도를 제대로 측정할 수 없습니다.
- 모집단 분산과 표본 분산을 혼동하는 경우. 전체 모집단이면 으로 나누고, 더 큰 모집단을 추정하는 표본이면 로 나눕니다.
- 분산이 제곱 단위를 사용한다는 점을 잊는 경우. 분산도 유용하지만, 원래 단위로 돌아오는 표준편차가 읽기 더 쉬운 경우가 많습니다.
- 분산이 크면 항상 나쁘다고 생각하는 경우. 분산이 크다는 것은 단지 더 퍼져 있다는 뜻일 뿐입니다. 그것이 중요한지는 맥락에 따라 다릅니다.
분산은 언제 사용될까
분산은 퍼짐 정도를 일관된 방식으로 설명하거나 비교해야 할 때 사용됩니다.
- 통계학에서는 데이터 집합이 얼마나 흩어져 있는지를 요약하는 데 도움이 됩니다.
- 품질 관리에서는 어떤 과정이 시간이 지나도 일관되게 유지되는지 추적하는 데 도움이 될 수 있습니다.
- 금융에서는 수익률이 얼마나 변동하는지를 설명하는 데 분산이 사용되지만, 위험을 보는 한 가지 방법일 뿐입니다.
- 머신러닝과 데이터 분석에서는 특성이나 오차가 관측값들 사이에서 어떻게 달라지는지를 설명하는 데 도움이 됩니다.
비슷한 문제를 직접 풀어보세요
평균은 같지만 퍼짐 정도가 다른 두 개의 작은 데이터 집합을 직접 만들어 보세요. 두 집합의 분산을 각각 계산한 뒤, 더 넓게 퍼진 데이터 집합이 더 큰 값을 가지는지 확인해 보세요. 이 한 번의 비교만으로도 개념이 훨씬 잘 이해되는 경우가 많습니다.