평균, 중앙값, 최빈값은 데이터 집합의 중심을 설명하는 세 가지 방법입니다. 평균은 산술평균이고, 중앙값은 데이터를 크기순으로 정렬했을 때 가운데에 오는 값이며, 최빈값은 가장 자주 나타나는 값입니다. 빠르게 정리하면, 데이터가 비교적 고르게 분포하면 평균을 쓰고, 이상치가 결과를 왜곡할 수 있으면 중앙값을 쓰며, 가장 흔한 값이 중요하면 최빈값을 씁니다.

이 척도들은 "중심"을 서로 다르게 정의하기 때문에 서로 다른 답을 줄 수 있습니다. 바로 그 점 때문에 유용합니다.

평균, 중앙값, 최빈값 한눈에 보기

평균은 데이터 집합의 모든 값을 사용합니다:

mean=sum of all valuesnumber of values\text{mean} = \frac{\text{sum of all values}}{\text{number of values}}

모든 값이 반영되기 때문에, 유난히 크거나 작은 값 하나가 평균을 우리가 느끼는 전형적인 값에서 멀어지게 만들 수 있습니다.

중앙값은 데이터를 순서대로 나열했을 때 가운데에 오는 값입니다. 값의 개수가 홀수이면 가운데 값이 하나 있습니다. 값의 개수가 짝수이면 중앙값은 가운데 두 값의 평균입니다.

최빈값은 가장 자주 나타나는 값입니다. 데이터 집합에는 최빈값이 하나 있을 수도 있고, 둘 이상 있을 수도 있으며, 어떤 값도 다른 값보다 더 자주 나타나지 않으면 최빈값이 없을 수도 있습니다.

이상치가 있는 예제

데이터 집합 2,3,3,4,202, 3, 3, 4, 20을 사용해 봅시다.

평균은

2+3+3+4+205=325=6.4\frac{2 + 3 + 3 + 4 + 20}{5} = \frac{32}{5} = 6.4

입니다.

중앙값은 정렬된 목록에서 가운데 값이 33이므로 33입니다.

최빈값도 33인데, 다른 어떤 값보다 더 자주 나타나기 때문입니다.

이 예제가 중요한 이유는 데이터에 이상치인 2020이 있기 때문입니다. 이 값 하나가 평균을 6.46.4까지 끌어올리지만, 중앙값은 33으로 유지됩니다. 이 집합의 전형적인 값을 설명하는 것이 목표라면, 보통 중앙값이 더 좋은 요약값입니다.

평균, 중앙값, 최빈값에서 자주 하는 실수

중앙값을 구하기 전에 정렬하지 않기

중앙값은 순서에 따라 달라집니다. 목록을 먼저 정렬하지 않으면, 고른 가운데 수를 믿기 어렵습니다.

"평균"이 항상 산술평균이라고 생각하기

일상에서는 "평균"이라는 말을 넓게 쓰는 경우가 많습니다. 하지만 통계에서는 더 정확해야 합니다. 때로는 중앙값이나 최빈값이 더 유용한 요약을 제공합니다.

모든 데이터 집합에 최빈값이 있다고 가정하기

집합 1,2,3,41, 2, 3, 4에는 반복되는 값이 없으므로 최빈값이 없습니다. 또 여러 값이 가장 높은 빈도로 같게 나타나면 최빈값이 두 개 이상일 수도 있습니다.

이상치를 무시하기

값 하나가 나머지보다 훨씬 크거나 작으면 평균이 크게 달라질 수 있습니다. 그렇다고 평균이 틀린 것은 아니지만, 그 수가 전달하는 의미는 달라집니다.

중심 경향의 각 척도를 언제 써야 할까

데이터가 비교적 고르게 분포하고 모든 값이 결과에 영향을 주어야 한다면 평균을 사용하세요. 일정한 난이도의 퀴즈 점수는 간단한 예입니다.

극단적인 값이 중심을 왜곡할 수 있다면 중앙값을 사용하세요. 소득, 임대료, 주택 가격 데이터가 대표적이며, 아주 큰 값 몇 개가 평균을 위로 끌어올릴 수 있습니다.

산술적인 중심보다 가장 흔한 값이 더 중요하다면 최빈값을 사용하세요. 가게에서 가장 많이 팔린 셔츠 사이즈나 설문조사에서 가장 흔한 응답이 이런 경우에 해당합니다.

학생들이 이 개념을 배우는 이유

중심 경향의 척도는 데이터를 이해하는 첫걸음인 경우가 많습니다. 집단을 비교하거나, 퍼짐을 살펴보거나, 데이터가 치우쳐 있는지 판단하기 전에 값들의 목록을 요약하는 데 도움이 됩니다.

데이터가 수치형이고 비교적 안정적이라면 평균이 유익한 경우가 많습니다. 데이터가 치우쳐 있다면 중앙값이 더 안전한 선택인 경우가 많습니다. 무엇이 가장 자주 일어나는지를 묻는 문제라면, 최빈값만이 그 질문에 직접 답할 수도 있습니다.

비슷한 문제를 풀어 보세요

목록 5,6,6,7,305, 6, 6, 7, 30에서 세 가지 척도를 모두 구해 보세요. 그런 다음 303088로 바꾸고 무엇이 달라지는지 비교해 보세요. 이 한 번의 조정만으로도 이상치의 역할이 훨씬 더 잘 보입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →