누적도수는 도수분포표에서 도수를 차례대로 더해 가는 합계입니다. 어떤 값이나 계급 경계 이하에 관측값이 몇 개인지를 알려 주므로 중앙값, 사분위수, 백분위수를 찾을 때 유용합니다.

오자이브는 이 누적합을 그래프로 나타낸 것입니다. 표와 그래프를 함께 읽을 수 있게 되면 계급자료 문제를 훨씬 쉽게 풀 수 있습니다.

누적도수의 정의

계급의 도수가 f1,f2,,fkf_1, f_2, \dots, f_k라면, kk번째 계급까지의 누적도수는

Fk=f1+f2++fkF_k = f_1 + f_2 + \cdots + f_k

입니다.

각 행은 전체 합계에 계급 하나를 더한 것입니다. 어떤 계급의 끝에서 누적도수가 2828이라면, 그 계급 이하에 있는 관측값이 2828개라는 뜻입니다.

비계급자료에서는 누적도수가 단순히 차례대로 세어 나간 개수입니다. 계급자료에서는 계급구간별로 누적한 개수입니다.

오자이브로 백분위수를 읽는 방법

오자이브는 누적도수를 계급 경계에 대해 그린 그래프입니다. 연속형 계급자료에서는 보통 다음과 같이 그립니다.

  • 가로축에는 상한 계급 경계
  • 세로축에는 누적도수

그다음 점들을 매끄러운 곡선이나 꺾은선으로 이습니다. 누적도수는 줄어들지 않으므로 그래프는 계속 올라갑니다.

오자이브의 가장 중요한 용도는 정렬된 자료에서 위치를 읽는 것입니다. 전체 도수가 NN이면 다음과 같습니다.

  • 중앙값은 대략 N/2N/2번째 값
  • 제1사분위수는 대략 N/4N/4번째 값
  • 제3사분위수는 대략 3N/43N/4번째 값
  • pp번째 백분위수는 대략 (p/100)N(p/100)N번째 값

그래프에서는 먼저 세로축에서 그 위치를 잡고, 가로로 오자이브까지 이동한 뒤, 다시 아래로 내려와 가로축에서 값을 추정합니다.

예제: 중앙값과 75번째 백분위수

4040명의 학생 시험 점수가 다음과 같이 계급으로 묶여 있다고 합시다.

점수 도수 누적도수
0-10 22 22
10-20 55 77
20-30 99 1616
30-40 1212 2828
40-50 88 3636
50-60 44 4040

전체 도수는 N=40N = 40입니다.

표에서 중앙값 구하기

중앙값은 N/2=20N/2 = 20번째 값입니다.

누적도수를 보면:

  • 20-30까지의 누적합은 1616
  • 30-40까지의 누적합은 2828

따라서 2020번째 값은 3030-4040 계급에 있습니다.

계급자료의 추정값을 구하려면, 그 계급 안의 값들이 비교적 고르게 퍼져 있다고 볼 수 있을 때만 보간을 사용합니다. 그러면

medianL+N/2Fbeforefw\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

여기서:

  • L=30L = 30은 계급의 하한 경계
  • Fbefore=16F_{\text{before}} = 16은 그 계급 이전까지의 누적도수
  • f=12f = 12는 그 계급의 도수
  • w=10w = 10은 계급의 너비

입니다.

따라서

median30+20161210=30+401233.3\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

이 추정값은 정확한 값이 아닙니다. 3030-4040 계급 안의 값들이 비교적 매끄럽게 퍼져 있다는 가정에 의존합니다.

75번째 백분위수 추정하기

7575번째 백분위수는 (75/100)40=30(75/100) \cdot 40 = 30번째 값입니다.

누적도수에서:

  • 30-40까지의 누적합은 2828
  • 40-50까지의 누적합은 3636

따라서 3030번째 값은 4040-5050 계급에 있습니다.

같은 보간 아이디어를 쓰면,

P7540+3028810=42.5P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

오자이브에서는 누적도수 축에서 3030을 표시하고, 가로로 곡선까지 이동한 뒤, 아래로 내려와 점수 축에서 약 42.542.5를 읽게 됩니다.

누적도수에서 자주 하는 실수

도수와 누적도수를 혼동하기

도수는 한 계급 안에 있는 관측값의 개수를 말합니다. 누적도수는 그 계급과 그보다 앞선 모든 계급을 합한 관측값의 개수입니다.

위치를 잘못 사용하는 경우

중앙값이나 백분위수의 위치는 전체 도수 NN으로부터 정합니다. 전체 도수를 잘못 쓰면 그다음 단계도 모두 틀어집니다.

계급자료의 추정값을 정확한 값으로 보는 경우

오자이브나 보간으로 얻는 값은 계급 안에서의 추정값이지, 원자료의 정확한 값이 아닙니다. 이 추정은 그 구간 안에서 자료가 어떻게 분포하는지에 따라 달라집니다.

가로축 값을 잘못 찍는 경우

계급자료의 오자이브는 보통 계급 경계, 특히 상한 계급 경계를 기준으로 그립니다. 계급값의 중앙을 사용하면 의미가 달라집니다.

누적도수는 언제 사용하나요?

누적도수는 단순히 계급별 개수보다 자료에서의 순서상 위치가 필요할 때 사용합니다. 시험 점수 요약, 소득 분포, 품질 관리 자료처럼 개별 구간의 개수보다 백분위수나 중앙값이 더 중요한 상황이 여기에 해당합니다.

원자료가 많아서 긴 관측값 목록보다 계급표가 더 읽기 쉬울 때 특히 유용합니다.

비슷한 누적도수 문제를 직접 해보기

작은 계급표를 하나 정해 오자이브를 그리기 전에 먼저 누적도수 열을 만들어 보세요. 그런 다음 그래프에서 중앙값과 한 개의 백분위수를 읽고, 표를 이용한 추정값과 비교해 보세요.

한 번 더 확인하고 싶다면 N=50N = 50인 경우를 직접 만들어 2020번째, 2525번째, 4545번째 값이 어디에 들어가는지 생각해 보세요. 이렇게 하면 개념이 훨씬 잘 잡힙니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →