산포도는 데이터 집합이 얼마나 퍼져 있는지를 알려줍니다. 가장 기본적인 세 가지 척도는 범위, 분산, 표준편차입니다. 범위는 최솟값과 최댓값만 사용하고, 분산은 평균으로부터의 제곱거리의 평균을 측정하며, 표준편차는 분산의 제곱근이므로 퍼짐의 정도를 원래 단위로 다시 나타냅니다.
핵심만 빠르게 정리하면, 범위는 대략적인 확인에 쓰고, 분산은 공식적인 통계 계산에 쓰며, 표준편차는 해석하기 쉬운 산포 척도가 필요할 때 사용합니다.
범위, 분산, 표준편차 한눈에 보기
범위는 최솟값에서 최댓값까지의 거리입니다:
계산은 빠르지만 두 값만 사용합니다. 극단값 하나만 있어도 값이 크게 달라질 수 있습니다.
분산은 각 값이 평균에서 얼마나 떨어져 있는지를, 그 거리를 제곱한 뒤 평균내어 측정합니다.
전체 모집단에 대해서는
더 큰 모집단을 추정하기 위한 표본에 대해서는
데이터가 관심 있는 전체 모집단 그 자체일 때만 을 사용합니다. 더 큰 집단에서 뽑은 표본이라면 을 사용합니다.
표준편차는 분산의 제곱근입니다:
또는 표본의 경우
표준편차는 원래 단위로 표현되므로, 보통 분산보다 읽고 해석하기가 쉽습니다.
예제로 보기: 범위는 같지만 퍼짐은 다름
다음 두 데이터 집합을 비교해 봅시다:
- 집합 A:
- 집합 B:
두 집합은 최솟값도 같고, 최댓값도 같고, 평균도 같습니다.
각 집합에 대해
그리고
따라서 범위만 보면 둘의 폭은 같다고 말할 수 있습니다. 하지만 평균 주변에 값들이 배치된 방식은 서로 다릅니다.
집합 A
평균으로부터의 편차는
이를 제곱하면
편차 제곱의 합은 입니다. 데이터를 모집단으로 보면
그리고
집합 B
평균으로부터의 편차는
이를 제곱하면
편차 제곱의 합은 이므로
그리고
두 집합의 범위는 같지만, 집합 B의 분산과 표준편차가 더 큽니다. 이것이 핵심입니다. 범위는 양 끝값만 보지만, 분산과 표준편차는 데이터 전체를 사용합니다.
산포도를 다룰 때 흔한 실수
흔한 실수 중 하나는 범위가 같으면 퍼짐도 같다고 생각하는 것입니다. 위의 예시는 왜 그것이 틀린지 보여줍니다.
또 다른 실수는 분산을 원래 단위로 해석하는 것입니다. 그렇지 않습니다. 데이터의 단위가 미터라면 분산의 단위는 제곱미터입니다.
세 번째 실수는 모집단 공식과 표본 공식을 혼동하는 것입니다. 올바른 분모는 상황에 따라 달라집니다. 전체 모집단이면 , 표본이면 을 사용합니다.
또한 분산과 표준편차는 이상치에 민감하다는 점도 기억하면 좋습니다. 큰 편차를 제곱한 뒤 평균내기 때문입니다.
각 척도가 유용한 경우
데이터가 얼마나 넓게 퍼져 있는지 빠르게 처음 확인하고 싶다면 범위를 사용하세요.
다른 통계 방법 안에서 산포 척도가 필요하다면 분산을 사용하세요. 확률과 통계의 많은 공식은 나중에 보고서에서 표준편차를 제시하더라도, 실제로는 분산을 바탕으로 만들어집니다.
데이터와 같은 단위로 산포를 실용적으로 설명하고 싶다면 표준편차를 사용하세요. 교실에서의 요약이나 실제 상황의 요약에서 가장 읽기 쉬운 선택인 경우가 많습니다.
비슷한 문제를 직접 해보기
평균과 범위는 같지만 서로 다른 두 개의 짧은 데이터 집합을 만들어 보고, 분산과 표준편차를 비교해 보세요. 다음 단계로 넘어가고 싶다면, 손으로 먼저 계산한 뒤 풀이 도구에서 자신만의 예제를 시도해 보세요.