상자수염그림은 데이터 집합의 중심, 산포, 그리고 가능한 왜도를 한눈에 보여 줍니다. 이 그래프는 5수치 요약인 최솟값, 제1사분위수 Q1Q_1, 중앙값, 제3사분위수 Q3Q_3, 최댓값으로 만들어집니다. 수업이나 소프트웨어에서 1.5×IQR1.5 \times IQR 규칙을 사용한다면, 수염은 절대적인 최솟값과 최댓값 대신 이상치가 아닌 값 중 가장 극단적인 값에서 멈출 수 있습니다.

상자는 Q1Q_1부터 Q3Q_3까지 이어지므로 데이터의 가운데 50%50\%를 담고 있습니다. 상자 안의 선은 중앙값입니다. 수염은 그 가운데 절반을 넘어 데이터가 얼마나 멀리 퍼져 있는지를 보여 줍니다.

상자수염그림이 보여 주는 것

상자그림은 세 가지 질문에 빠르게 답하는 데 도움이 됩니다:

  • 가운데는 어디인가? 중앙값을 보세요.
  • 가운데 절반은 얼마나 퍼져 있는가? 상자의 너비를 보세요.
  • 양쪽 꼬리는 균형이 맞는가? 두 수염을 비교하세요.

상자의 너비는 사분위범위이며, IQR=Q3Q1IQR = Q_3 - Q_1입니다. IQRIQR이 클수록 데이터의 가운데 절반이 더 넓게 퍼져 있다는 뜻입니다. 한쪽 수염이 다른 쪽보다 훨씬 길다면, 데이터가 그 방향으로 치우쳐 있을 수 있습니다.

많은 상자그림은 가능한 이상치를 표시하기 위해 1.5×IQR1.5 \times IQR 규칙도 사용합니다. 이 경우 수염은 이상치가 아닌 값 중 가장 극단적인 값에서 멈춥니다. 그래서 같은 데이터라도 수염 규칙이 다르면 올바른 두 상자그림의 모양이 조금 다를 수 있습니다.

데이터에서 상자그림까지 예제로 보기

다음과 같이 정렬된 데이터 집합을 사용해 봅시다.

3, 5, 6, 7, 8, 9, 12, 153,\ 5,\ 6,\ 7,\ 8,\ 9,\ 12,\ 15

값이 88개이므로 중앙값은 가운데 두 값의 평균입니다:

median=7+82=7.5\text{median} = \frac{7 + 8}{2} = 7.5

데이터 개수가 짝수이므로 목록을 같은 크기의 두 부분으로 나눕니다. 아래쪽 절반은 3,5,6,73, 5, 6, 7이므로

Q1=5+62=5.5Q_1 = \frac{5 + 6}{2} = 5.5

위쪽 절반은 8,9,12,158, 9, 12, 15이므로

Q3=9+122=10.5Q_3 = \frac{9 + 12}{2} = 10.5

따라서 5수치 요약은 다음과 같습니다:

min=3,Q1=5.5,median=7.5,Q3=10.5,max=15\text{min} = 3,\quad Q_1 = 5.5,\quad \text{median} = 7.5,\quad Q_3 = 10.5,\quad \text{max} = 15

이제 사분위범위를 계산합니다:

IQR=Q3Q1=10.55.5=5IQR = Q_3 - Q_1 = 10.5 - 5.5 = 5

널리 쓰이는 1.5×IQR1.5 \times IQR 이상치 규칙을 사용하면 경계값은 다음과 같습니다:

Q11.5(IQR)=5.57.5=2Q_1 - 1.5(IQR) = 5.5 - 7.5 = -2

그리고

Q3+1.5(IQR)=10.5+7.5=18Q_3 + 1.5(IQR) = 10.5 + 7.5 = 18

모든 데이터 값이 2-21818 사이에 있으므로, 이 규칙에서는 가능한 이상치가 없습니다. 이 데이터 집합에서는 상자가 5.55.5에서 10.510.5까지 이어지고, 중앙값 선은 7.57.5에 있으며, 수염은 331515까지 뻗습니다.

상자그림을 빠르게 읽는 방법

먼저 중앙값 선부터 보세요. 이 선은 데이터의 중심이 어디에 있는지 알려 줍니다.

그다음 상자의 너비와 수염의 길이를 비교하세요. 상자는 값의 가운데 50%50\%가 어디에 있는지를 보여 주고, 수염은 그 구간을 넘어 꼬리가 얼마나 뻗어 있는지를 보여 줍니다.

마지막으로 비대칭성을 살펴보세요. 중앙값이 상자 안에서 한쪽으로 치우쳐 있거나 한쪽 수염이 다른 쪽보다 훨씬 길다면, 분포가 중심을 기준으로 균형 잡혀 있지 않을 수 있습니다.

상자수염그림에서 자주 하는 실수

흔한 실수 중 하나는 상자의 양 끝을 최솟값과 최댓값으로 읽는 것입니다. 보통 그것들은 전체 데이터의 양 끝값이 아니라 Q1Q_1Q3Q_3를 나타냅니다.

또 다른 실수는 모든 상자그림이 같은 수염 규칙을 쓴다고 가정하는 것입니다. 어떤 수염은 최솟값과 최댓값까지 뻗고, 어떤 수염은 이상치가 아닌 값 중 가장 극단적인 값에서 멈춥니다.

또한 사분위수는 정렬된 데이터에 따라 결정된다는 점을 잊기 쉽습니다. 값을 먼저 정렬하지 않으면 사분위수와 중앙값이 잘못됩니다.

상자그림이 유용한 경우

상자수염그림은 값의 전체 목록 대신 분포를 빠르게 요약하고 싶을 때 유용합니다. 통계 수업, 실험 결과 요약, 품질 관리, 집단 간 비교에서 자주 사용됩니다.

특히 이상치나 왜도가 중요할 때 더 도움이 됩니다. 중앙값과 사분위수는 평균 하나만 보는 것보다 보통 더 안정적이기 때문입니다.

비슷한 데이터 집합으로 연습해 보기

짧고 정렬된 데이터 집합을 하나 정한 뒤, 5수치 요약을 쓰고 이상치를 따지기 전에 먼저 상자를 스케치해 보세요. 비슷한 통계 문제에서 사분위수와 중앙값을 확인하고 싶다면, 먼저 직접 정렬된 목록을 만든 다음 풀이 도구에서 자신만의 예제를 시도해 보세요.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →