분산은 숫자들이 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다. 분산이 작으면 값들이 평균에 비교적 가깝게 모여 있다는 뜻입니다. 분산이 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.

분산을 계산하려면 각 값이 평균에서 얼마나 떨어져 있는지 구하고, 그 거리를 제곱한 뒤, 그 값을 평균냅니다. 제곱이 중요한 이유는 그렇지 않으면 양의 편차와 음의 편차가 서로 상쇄되기 때문입니다.

분산 공식: 모집단 vs. 표본

데이터가 설명하려는 집단의 모든 값을 포함하고 있다면 모집단 분산 공식을 사용합니다:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

데이터가 일부 표본에 불과하고, 더 큰 모집단의 퍼짐 정도를 추정하려는 경우에는 표본 분산 공식을 사용합니다:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

두 공식의 차이는 분모뿐입니다. 전체 모집단이면 NN을 사용합니다. 표본으로 추정할 때는 n1n-1을 사용합니다.

분산이 의미하는 것

분산은 중심이 어디에 있는지를 알려주지 않습니다. 대신 데이터가 그 중심에서 얼마나 떨어져 있는 경향이 있는지를 알려줍니다.

두 데이터 집합의 평균이 같다면, 분산이 더 큰 쪽은 값들이 평균에서 평균적으로 더 멀리 떨어져 있습니다. 편차를 제곱하기 때문에, 유난히 큰 차이는 더 큰 영향을 미칩니다.

중요한 점이 하나 있습니다. 분산의 단위는 제곱 단위입니다. 데이터가 미터 단위라면 분산은 제곱미터 단위가 됩니다. 그래서 일상적으로 해석할 때는 표준편차가 더 이해하기 쉬운 경우가 많습니다.

분산 계산 방법: 예제 풀이

데이터 집합 2,4,4,4,5,5,7,92, 4, 4, 4, 5, 5, 7, 9를 사용해 봅시다.

먼저 평균을 구합니다:

xˉ=2+4+4+4+5+5+7+98=408=5\bar{x} = \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5

이제 각 값에서 평균을 빼고 그 결과를 제곱합니다:

  • (25)2=9(2-5)^2 = 9
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (55)2=0(5-5)^2 = 0
  • (55)2=0(5-5)^2 = 0
  • (75)2=4(7-5)^2 = 4
  • (95)2=16(9-5)^2 = 16

이 제곱된 편차들을 모두 더합니다:

9+1+1+1+0+0+4+16=329+1+1+1+0+0+4+16 = 32

이 여덟 개의 값이 전체 모집단이라면, 모집단 분산은 다음과 같습니다:

σ2=328=4\sigma^2 = \frac{32}{8} = 4

같은 여덟 개의 값을 더 큰 모집단에서 뽑은 표본으로 본다면, 표본 분산은 다음과 같습니다:

s2=3274.57s^2 = \frac{32}{7} \approx 4.57

이 예제는 핵심 아이디어를 분명하게 보여줍니다. 제곱된 편차의 합은 같지만, NN으로 나누는지 n1n-1로 나누는지에 따라 최종 답이 달라집니다.

분산에서 자주 하는 실수

  • 편차를 제곱하는 것을 빼먹는 경우. 원래 편차를 그대로 평균내면 양수와 음수가 상쇄되어 퍼짐 정도를 제대로 측정할 수 없습니다.
  • 모집단 분산과 표본 분산을 혼동하는 경우. 전체 모집단이면 NN으로 나누고, 더 큰 모집단을 추정하는 표본이면 n1n-1로 나눕니다.
  • 분산이 제곱 단위를 사용한다는 점을 잊는 경우. 분산도 유용하지만, 원래 단위로 돌아오는 표준편차가 읽기 더 쉬운 경우가 많습니다.
  • 분산이 크면 항상 나쁘다고 생각하는 경우. 분산이 크다는 것은 단지 더 퍼져 있다는 뜻일 뿐입니다. 그것이 중요한지는 맥락에 따라 다릅니다.

분산은 언제 사용될까

분산은 퍼짐 정도를 일관된 방식으로 설명하거나 비교해야 할 때 사용됩니다.

  • 통계학에서는 데이터 집합이 얼마나 흩어져 있는지를 요약하는 데 도움이 됩니다.
  • 품질 관리에서는 어떤 과정이 시간이 지나도 일관되게 유지되는지 추적하는 데 도움이 될 수 있습니다.
  • 금융에서는 수익률이 얼마나 변동하는지를 설명하는 데 분산이 사용되지만, 위험을 보는 한 가지 방법일 뿐입니다.
  • 머신러닝과 데이터 분석에서는 특성이나 오차가 관측값들 사이에서 어떻게 달라지는지를 설명하는 데 도움이 됩니다.

비슷한 문제를 직접 풀어보세요

평균은 같지만 퍼짐 정도가 다른 두 개의 작은 데이터 집합을 직접 만들어 보세요. 두 집합의 분산을 각각 계산한 뒤, 더 넓게 퍼진 데이터 집합이 더 큰 값을 가지는지 확인해 보세요. 이 한 번의 비교만으로도 개념이 훨씬 잘 이해되는 경우가 많습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →