분산 — 공식, 계산 방법 및 예시

분산은 숫자들이 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다. 분산이 작으면 값들이 평균에 비교적 가깝게 모여 있다는 뜻입니다. 분산이 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.

분산을 계산하려면 각 값이 평균에서 얼마나 떨어져 있는지 구하고, 그 거리를 제곱한 뒤, 그 값을 평균냅니다. 제곱이 중요한 이유는 그렇지 않으면 양의 편차와 음의 편차가 서로 상쇄되기 때문입니다.

분산 공식: 모집단 vs. 표본

데이터가 설명하려는 집단의 모든 값을 포함하고 있다면 모집단 분산 공식을 사용합니다:

\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

데이터가 일부 표본에 불과하고, 더 큰 모집단의 퍼짐 정도를 추정하려는 경우에는 표본 분산 공식을 사용합니다:

s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

두 공식의 차이는 분모뿐입니다. 전체 모집단이면 $N$ 을 사용합니다. 표본으로 추정할 때는 $n-1$ 을 사용합니다.

분산은 중심이 어디에 있는지를 알려주지 않습니다. 대신 데이터가 그 중심에서 얼마나 떨어져 있는 경향이 있는지를 알려줍니다.

두 데이터 집합의 평균이 같다면, 분산이 더 큰 쪽은 값들이 평균에서 평균적으로 더 멀리 떨어져 있습니다. 편차를 제곱하기 때문에, 유난히 큰 차이는 더 큰 영향을 미칩니다.

중요한 점이 하나 있습니다. 분산의 단위는 제곱 단위입니다. 데이터가 미터 단위라면 분산은 제곱미터 단위가 됩니다. 그래서 일상적으로 해석할 때는 표준편차가 더 이해하기 쉬운 경우가 많습니다.

데이터 집합 $2, 4, 4, 4, 5, 5, 7, 9$ 를 사용해 봅시다.

먼저 평균을 구합니다:

\bar{x} = \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5

이제 각 값에서 평균을 빼고 그 결과를 제곱합니다:

$(2-5)^2 = 9$
$(4-5)^2 = 1$
$(4-5)^2 = 1$
$(4-5)^2 = 1$
$(5-5)^2 = 0$
$(5-5)^2 = 0$
$(7-5)^2 = 4$
$(9-5)^2 = 16$

이 제곱된 편차들을 모두 더합니다:

9+1+1+1+0+0+4+16 = 32

이 여덟 개의 값이 전체 모집단이라면, 모집단 분산은 다음과 같습니다:

\sigma^2 = \frac{32}{8} = 4

같은 여덟 개의 값을 더 큰 모집단에서 뽑은 표본으로 본다면, 표본 분산은 다음과 같습니다:

s^2 = \frac{32}{7} \approx 4.57

이 예제는 핵심 아이디어를 분명하게 보여줍니다. 제곱된 편차의 합은 같지만, $N$ 으로 나누는지 $n-1$ 로 나누는지에 따라 최종 답이 달라집니다.

분산은 퍼짐 정도를 일관된 방식으로 설명하거나 비교해야 할 때 사용됩니다.

평균은 같지만 퍼짐 정도가 다른 두 개의 작은 데이터 집합을 직접 만들어 보세요. 두 집합의 분산을 각각 계산한 뒤, 더 넓게 퍼진 데이터 집합이 더 큰 값을 가지는지 확인해 보세요. 이 한 번의 비교만으로도 개념이 훨씬 잘 이해되는 경우가 많습니다.

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.