상자그림(box plot)은 box-and-whisker plot이라고도 하며, 데이터 집합의 중심이 어디에 있고 얼마나 퍼져 있는지를 보여 줍니다. 중앙값, 데이터의 가운데 , 그리고 양끝에 가까운 값들을 강조해서 전체적인 분포 모양을 빠르게 파악할 수 있게 해 줍니다.
핵심 기준점은 제1사분위수 , 중앙값, 제3사분위수 , 그리고 사분위범위 입니다. 여기서 바로 중요한 점이 하나 있습니다. 사분위수는 하나의 보편적인 규칙으로 정해지지 않습니다. 수업, 교과서, 또는 소프트웨어에서 특정한 사분위수 계산 방법을 사용한다면 처음부터 끝까지 그 방법을 일관되게 써야 합니다.
상자그림이 한눈에 보여 주는 것
상자는 부터 까지 이어지므로 데이터의 가운데 를 담고 있습니다. 상자 안의 선은 중앙값입니다.
수염은 상자 바깥으로 데이터가 얼마나 뻗어 있는지를 보여 줍니다. 어떤 상자그림에서는 최솟값과 최댓값까지 이어집니다. 다른 경우에는 이상치로 처리되지 않는 가장 극단적인 값까지만 이어집니다. 따라서 수염의 의미를 판단하려면 먼저 어떤 규칙을 쓰는지 알아야 합니다.
사분위수와 IQR의 작동 방식
사분위범위는 데이터의 가운데 절반이 얼마나 퍼져 있는지를 나타냅니다.
이 클수록 가운데 절반의 데이터가 더 넓게 퍼져 있다는 뜻입니다. 이 작을수록 더 촘촘하게 모여 있다는 뜻입니다.
상자그림을 단계별로 그리는 방법
항상 같은 순서로 진행하세요.
- 데이터를 작은 값부터 큰 값까지 정렬합니다.
- 중앙값을 찾습니다.
- 사용해야 하는 사분위수 규칙에 따라 과 를 구합니다.
- 수직선 또는 수평선 위에 , 중앙값, 를 표시합니다.
- 부터 까지 상자를 그리고, 그 안에 중앙값 선을 그립니다.
- 수업이나 소프트웨어에서 요구하는 규칙에 따라 수염을 추가합니다.
예제로 보기: 상자그림을 위한 사분위수 구하기
다음과 같이 정렬된 데이터 집합에서 시작해 봅시다.
값이 개이므로 중앙값은 다섯 번째 값입니다.
이 예제에서는 아래쪽 절반과 위쪽 절반을 구할 때 전체 중앙값을 제외하는, 교실에서 흔히 쓰는 규칙을 사용합니다.
아래쪽 절반은
이므로
위쪽 절반은
이므로
이제 사분위범위를 구합니다.
이렇게 하면 상자의 핵심 기준값이 정해집니다.
수염이 최솟값과 최댓값까지 간다면, 수염은 와 까지 뻗습니다. 따라서 상자는 부터 까지이고, 중앙값 선은 에 있으며, 전체 그래프는 부터 까지 이어집니다.
상자그림을 빠르게 읽는 방법
먼저 중앙값을 보고 데이터의 중심이 어디인지 파악합니다.
그다음 상자의 너비를 확인합니다. 상자가 좁으면 가운데 절반의 데이터가 촘촘하게 모여 있다는 뜻입니다. 상자가 넓으면 더 넓게 퍼져 있다는 뜻입니다.
마지막으로 수염의 길이와 상자 안에서 중앙값의 위치를 비교합니다. 한쪽이 눈에 띄게 더 길다면, 그쪽으로 분포가 더 길게 늘어져 있을 수 있습니다.
상자그림에서 자주 하는 실수
정렬 단계를 건너뛰지 마세요. 데이터가 순서대로 되어 있지 않으면 중앙값과 사분위수가 잘못됩니다.
모든 상자그림이 같은 사분위수 규칙이나 같은 수염 규칙을 쓴다고 가정하지 마세요. 서로 다른 규칙으로 만들었다면 둘 다 맞는 그래프라도 모양이 다를 수 있습니다.
상자의 양끝을 최솟값과 최댓값으로 읽지 마세요. 보통은 과 를 나타냅니다.
상자가 더 넓다고 해서 그 구간에 "데이터가 더 많다"고 생각하지 마세요. 그것은 그 구간의 값들이 수직선 또는 수평선 위에서 더 넓은 범위를 차지한다는 뜻입니다.
상자그림이 유용한 경우
상자그림은 모든 값을 하나하나 나열하지 않고도 중심과 퍼짐 정도를 빠르게 보고 싶을 때 유용합니다. 특히 두 개 이상의 집단을 나란히 비교할 때 매우 도움이 됩니다.
통계 수업, 실험 보고서, 그리고 모든 값을 자세히 나열하는 것보다 중앙값과 가운데 절반의 데이터가 더 중요한 상황에서 자주 사용됩니다.
직접 해 보기
짧고 정렬된 데이터 집합을 하나 골라 다섯 수치 요약을 구한 뒤, 손으로 상자그림을 스케치해 보세요. 그런 다음 그래프 도구와 비교해서 사용한 사분위수 규칙과 수염 규칙이 결과와 일치하는지 확인해 보세요.