도수분포는 데이터 집합에서 각 값, 범주, 또는 구간이 얼마나 자주 나타나는지를 보여 주는 표나 그래프입니다. 데이터가 많으면 가까운 값들을 계급구간으로 묶는 경우가 많고, 각 구간에 들어 있는 개수가 도수입니다.
이 개념이 유용한 이유는 원자료를 그대로 보면 한눈에 파악하기 어렵기 때문입니다. 도수분포를 사용하면 값이 어디에 몰려 있는지, 어디에서 드물어지는지, 어떤 결과가 가장 흔한지를 빠르게 볼 수 있습니다.
도수분포표와 묶은 도수분포표
묶지 않은 자료에서는 표에 각 값을 따로 적을 수 있습니다. 점수가 이라면 의 도수는 세 번 나타나므로 입니다.
더 큰 수치 자료 집합에서는 정확한 값들을 -, -, - 같은 구간으로 묶는 경우가 많습니다. 이런 형태를 묶은 도수분포라고 합니다.
계급구간은 어떻게 작동할까
계급구간은 서로 가까운 값들을 하나의 집단으로 모으기 위해 사용하는 범위입니다. 잘 만든 묶은 표에서는 모든 관측값이 정확히 하나의 계급에만 들어가고, 계급끼리는 겹치지 않습니다.
예를 들어 -, -, - 같은 구간을 쓰면 같은 값은 정확히 하나의 계급에만 속합니다. 이런 명확한 규칙이 중요합니다. 계급의 경계가 겹치면 표의 의미가 모호해집니다.
계급의 너비는 각 구간의 크기입니다. 계급이 -, -, -라면 너비는 일정합니다. 이것은 히스토그램을 그릴 때 중요합니다. 계급 너비가 같을 때만 막대 높이를 직접 비교해도 안전합니다.
예제로 보기: 도수분포 읽기
한 교사가 학생 명의 퀴즈 점수를 기록하고 다음과 같이 구간으로 묶었다고 합시다.
| 점수 구간 | 도수 |
|---|---|
| - | |
| - | |
| - | |
| - | |
| - |
- 구간의 도수가 가장 크므로, 가장 흔한 점수대는 이 구간입니다. 그렇다고 모든 학생이 같은 점수를 받았다는 뜻은 아닙니다. 명의 학생이 이 구간 안의 어딘가에 속하는 점수를 받았다는 뜻입니다.
도수를 모두 더하면 전체 학생 수가 됩니다.
개수 대신 비율을 알고 싶다면 상대도수를 사용합니다.
- 구간의 상대도수는 다음과 같습니다.
즉 학생의 가 점에서 점 사이를 받았습니다.
도수분포 그래프: 막대그래프일까, 히스토그램일까?
도수분포는 표, 막대그래프, 또는 히스토그램으로 나타낼 수 있습니다. 어떤 그래프가 맞는지는 데이터의 종류에 따라 달라집니다.
좋아하는 과일이나 교통수단 종류처럼 서로 구별되는 범주를 셀 때는 막대그래프를 사용합니다. 범주가 분리되어 있으므로 막대 사이도 떨어져 있습니다.
수치 자료를 구간으로 묶을 때는 히스토그램을 사용합니다. 구간이 연속적인 척도를 나타내므로 막대가 서로 붙어 있습니다.
모든 계급구간의 너비가 같다면 히스토그램에서 더 높은 막대는 더 큰 도수를 뜻합니다. 하지만 계급 너비가 다르면 높이만으로 판단하면 오해할 수 있습니다. 이 경우에는 막대의 높이만이 아니라 넓이가 도수를 나타내도록 도수밀도를 사용해야 합니다.
도수분포표에서 자주 하는 실수
범주와 구간을 혼동하기
범주를 나타내는 막대그래프와 묶은 수치 자료를 나타내는 히스토그램은 같은 의미가 아닙니다. 잘못된 그래프를 쓰면 데이터의 구조가 가려질 수 있습니다.
겹치는 계급 사용하기
구간에는 분명한 규칙이 필요합니다. -과 -처럼 설정하면, 값 이 정확히 어디에 들어가는지 따로 정하지 않는 한 문제가 생깁니다.
묶으면 세부 정보가 숨는다는 점 잊기
묶은 도수분포는 데이터를 요약해 주지만, 원래의 모든 값을 그대로 보존하지는 않습니다. 점수를 구간으로 묶으면 전체적인 패턴은 더 쉽게 보이지만, 그만큼 정확한 정보 일부는 잃게 됩니다.
너비가 다른 막대를 같은 방식으로 비교하기
한 계급구간의 너비가 다른 계급의 두 배라면, 그 히스토그램은 계급 너비가 같은 히스토그램과 같은 방식으로 읽으면 안 됩니다. 조건이 중요합니다. 계급 너비가 같을 때는 높이를 직접 비교할 수 있지만, 같지 않을 때는 그렇지 않습니다.
도수분포는 언제 사용될까
도수분포는 통계, 교실 수업, 설문조사, 품질 관리, 실험실 작업에서 흔히 사용됩니다. 원자료 목록이 길어져서 훑어보기만으로는 패턴이 잘 보이지 않을 때 특히 유용합니다.
또한 히스토그램, 누적도수, 묶은 자료의 평균, 산포의 추정 같은 관련 개념으로 나아가는 출발점이 되기도 합니다.
비슷한 문제를 직접 해보기
학습지, 실험, 또는 점수 목록에서 개에서 개 정도의 수를 골라 보세요. 먼저 묶지 않은 도수표를 만들고, 그다음 같은 데이터를 계급구간으로 다시 묶어 보세요. 두 버전을 비교해 보면 도수분포가 무엇을 눈에 띄게 해 주는지, 또 묶는 과정에서 어떤 세부 정보가 가려지는지를 가장 빠르게 이해할 수 있습니다.