히스토그램은 부터 , 부터 처럼 수치 데이터를 구간으로 나누었을 때, 각 구간에 값이 얼마나 자주 들어가는지를 보여 줍니다. 계급의 너비는 각 구간의 크기이고, 도수는 그 구간에 들어가는 값의 개수입니다.
히스토그램을 빠르게 읽으려면 먼저 가로축의 구간 표시를 확인하고, 가장 높은 막대를 찾은 뒤, 막대가 낮아지거나 사라지는 부분을 보세요. 그러면 데이터가 어디에 몰려 있고 어디가 드문지 알 수 있습니다.
히스토그램이 알려 주는 것
히스토그램은 구간으로 묶인 수치 데이터에 사용하며, 이 구간을 계급 또는 빈(bin)이라고도 합니다. 막대가 서로 붙어 있는 이유는 각 구간이 수직선 위에서 서로 이어져 있기 때문입니다.
그래서 히스토그램은 막대그래프와 같지 않습니다. 막대그래프는 운동 종목이나 색깔처럼 서로 다른 범주를 비교합니다. 히스토그램은 분포의 모양을 보여 줍니다.
도수와 계급의 너비
한 계급의 도수는 그 구간에 들어 있는 관측값의 개수입니다. 예를 들어 부터 구간에 시험 점수 개가 있다면, 그 계급의 도수는 입니다.
계급의 너비는 구간의 크기입니다. 부터 까지의 계급이라면 계급의 너비는 입니다. 모든 계급의 너비가 같을 때는 막대가 높을수록 도수가 더 큽니다.
계급의 너비가 같지 않다면 막대 높이를 바로 비교하면 안 됩니다. 많은 과정에서는 이때 세로축을 도수밀도로 바꾸므로, 막대의 높이만이 아니라 넓이가 도수를 나타내게 됩니다.
따라서 막대를 비교하기 전에 계급의 너비가 같은지, 그리고 세로축이 무엇을 나타내는지 먼저 확인해야 합니다.
계급의 너비가 같은 히스토그램 예시
어떤 히스토그램이 다음과 같은 퀴즈 점수를 요약한다고 해 봅시다.
| 점수 구간 | 도수 |
|---|---|
| to | |
| to | |
| to | |
| to | |
| to |
각 계급의 너비가 모두 이므로 막대 높이를 직접 비교할 수 있습니다.
가장 높은 막대는 부터 구간이므로, 이 구간에 점수가 가장 많이 들어 있습니다. 대부분의 점수는 부터 사이에 있고, 보다 낮거나 보다 높은 점수는 몇 개 되지 않습니다.
분명한 요약은 다음과 같습니다. 점수는 가운데에 몰려 있으며, 가장 많이 모인 구간은 부터 입니다.
히스토그램을 단계별로 읽는 법
먼저 가로축부터 보면서 각 막대가 어떤 구간을 나타내는지 확인하세요. 그다음 계급의 너비가 모두 같은지 살펴보세요.
너비가 같다면 가장 높은 막대가 가장 흔한 구간을 뜻합니다. 그 후 전체적인 모양을 봅니다. 중심은 어디인지, 빈 구간은 어디인지, 어느 한쪽이 더 길게 뻗는지를 확인하세요.
너비가 같지 않다면 높이를 비교하기 전에 잠시 멈추세요. 그래프가 도수를 쓰는지, 도수밀도를 쓰는지 알아야 올바르게 비교할 수 있습니다.
자주 하는 실수
히스토그램과 막대그래프를 혼동하기
히스토그램에서는 구간이 이어져 있으므로 막대가 보통 서로 붙어 있습니다. 막대그래프에서는 범주가 서로 분리되어 있으므로 막대 사이에 간격이 있는 것이 자연스럽습니다.
계급의 너비를 무시하기
학생들은 구간의 너비가 모두 같은지 확인하지 않고 높이만 비교하는 경우가 많습니다. 이것이 가능한 것은 계급의 너비가 모두 같을 때이거나, 세로축이 이미 도수밀도로 조정되어 있을 때뿐입니다.
구간의 끝값을 대충 다루기
묶은 자료에서는 계급의 경계에 대해 일관된 규칙이 필요합니다. 예를 들어 점수 은 두 계급에 동시에 들어가면 안 되고, 한 계급에만 속해야 합니다. 보통은 표시 방식이나 문맥이 어느 쪽 끝값을 포함하는지 알려 줍니다.
원자료를 정확히 알 수 있다고 기대하기
히스토그램은 묶은 자료를 요약한 것입니다. 전체적인 패턴은 잘 보여 주지만, 줄기와 잎 그림처럼 원래의 각 값을 모두 되살릴 수는 없습니다.
히스토그램이 유용한 경우
히스토그램은 수치 데이터가 어떻게 분포하는지 빠르게 파악하고 싶을 때 유용합니다. 통계, 과학 실험, 시험 점수, 응답 시간, 품질 관리 데이터에서 자주 사용됩니다.
특히 요약 통계를 계산하기 전에 보면 도움이 됩니다. 데이터가 균형적인지, 치우쳐 있는지, 몰려 있는지, 또는 유난히 넓게 퍼져 있는지를 먼저 보여 주기 때문입니다.
실전에서 해 볼 다음 단계
작은 수치 데이터 집합을 하나 골라 같은 너비의 구간으로 나눈 뒤, 손으로 히스토그램을 그려 보세요. 그런 다음 평균이나 중앙값을 계산하기 전에 분포의 모양을 한 문장으로 설명해 보세요. 더 나아가고 싶다면 계급의 너비를 다르게 해서 직접 다시 만들어 보고, 그림이 어떻게 달라지는지 확인해 보세요.