통계의 자료형 — 질적, 양적, 이산형과 연속형

통계에서 자료형은 변수가 무엇을 나타내는지 알려줍니다. 값이 "빨강"이나 "생물"처럼 이름표라면 그 자료는 질적 자료입니다. 값이 수치적인 양이라면 그 자료는 양적 자료입니다. 그리고 양적 자료라면 보통 한 가지를 더 묻습니다. 그것이 이산형 개수인지, 아니면 연속형 측정값인지입니다.

이 구분은 중요한데, 자료형에 따라 어떤 그래프, 요약값, 모델이 적절한지가 달라지기 때문입니다. 예를 들어 평균은 키를 설명하는 데는 도움이 되지만, 눈 색깔에는 의미가 없습니다.

질적 자료와 양적 자료

질적 자료는 범주를 뜻합니다

질적 자료는 수치적인 양이 아니라 성질, 집단, 또는 이름표를 설명합니다. 예로는 자동차 색, 혈액형, 나라가 있습니다.

이런 자료는 범주형 자료라고도 자주 부릅니다.

양적 자료는 수치적인 양을 뜻합니다

양적 자료는 수치적인 양을 기록합니다. 이 숫자는 단순한 이름표가 아니라, 얼마나 많은지, 몇 개인지, 얼마나 먼지를 나타냅니다.

예로는 나이, 키, 시험 점수, 반려동물 수가 있습니다.

이산형 자료와 연속형 자료

이산형 자료는 셈에서 나옵니다

이산형 자료는 보통 세기에서 나오는 양적 자료입니다. 값은 어떤 구간을 빽빽하게 채우는 것이 아니라, 허용되는 한 값에서 다음 값으로 띄엄띄엄 이동합니다.

한 학급의 학생 수는 학생을 정수로 세기 때문에 이산형입니다. 일반적인 셈의 모델에서는 $24.5$ 명 같은 값은 의미가 없습니다.

연속형 자료는 측정에서 나옵니다

연속형 자료는 보통 측정에서 나오는 양적 자료입니다. 원칙적으로는 측정 도구와 상황에 따라 값을 점점 더 정밀하게 기록할 수 있습니다.

키, 시간, 온도는 대표적인 예입니다. 사람의 키는 사용하는 정밀도에 따라 $170$ cm, $170.2$ cm, $170.24$ cm처럼 적을 수 있습니다.

예제로 보기: 학생 자료 분류하기

어떤 학교가 각 학생에 대해 다음 네 가지 변수를 기록한다고 해 봅시다.

학급
형제자매 수
등교 시간
좋아하는 과목

이제 이것들을 어떻게 분류하는지 봅시다.

학급은 집단을 나타내는 이름표이므로 질적 자료입니다.

형제자매 수는 개수를 세는 값이므로 양적 자료이면서 이산형입니다: $0, 1, 2, 3,$ 등.

등교 시간은 측정하는 값이므로 양적 자료이면서 연속형입니다. 가장 가까운 1분으로 반올림해 기록할 수는 있지만, 원래 변수는 그보다 더 세밀하게 달라질 수 있습니다.

좋아하는 과목은 양이 아니라 범주의 이름이므로 질적 자료입니다.

이 예제는 기본적인 판단 순서를 보여줍니다. 먼저 "이름표인가, 양인가?"를 묻습니다. 양이라면 다시 "개수인가, 측정값인가?"를 묻습니다.

자료형을 구별하는 방법

다음과 같은 실용적인 기준을 써 보세요.

값을 평균내는 것이 의미 없다면, 그 자료는 아마 질적 자료입니다.
평균을 내는 것이 의미 있다면, 그 자료는 아마 양적 자료입니다.
양적 값이 서로 떨어진 개체를 세어서 나온 것이라면, 보통 이산형입니다.
눈금 위에서 측정한 값이라면, 보통 연속형입니다.

이것은 형식적인 증명이 아니라 실용적인 지름길입니다. 변수의 맥락은 여전히 중요합니다.

통계에서 자료형과 관련해 흔히 하는 실수

숫자 코드를 실제 양으로 취급하기

설문 응답이 $1$ , $2$ , $3$ 으로 코딩되어 있어도, 그 숫자는 실제 양이 아니라 범주를 뜻할 수 있습니다. 자료에 숫자가 있다고 해서 자동으로 양적 변수가 되는 것은 아닙니다.

모든 정수값이 이산형이라고 가정하기

기록된 측정값이 정수로 보이는 것은 단지 반올림했기 때문일 수 있습니다. 예를 들어 몸무게가 $68$ , $72$ , $75$ 킬로그램으로 적혀 있어도, 세어서 얻은 값이 아니라 측정한 값이라면 여전히 연속형 자료입니다.

변수와 저장 방식 혼동하기

등교 시간을 가장 가까운 1분으로 반올림하면 정수로 저장되는 경우가 많지만, 변수 자체는 여전히 연속형입니다. 기록 형식이 항상 본래의 자료형을 바꾸는 것은 아닙니다.

이런 자료형은 통계에서 어디에 쓰일까

이 분류는 그래프, 요약값, 통계 방법을 고를 때마다 중요합니다.

질적 자료에는 막대그래프와 도수분포표가 흔히 쓰입니다. 양적 자료에는 히스토그램, 상자그림, 평균, 중앙값, 표준편차가 유용할 수 있습니다.

이산형과 연속형의 구분은 확률모형을 고를 때도 중요합니다. 어떤 모형은 개수를 위해 만들어졌고, 다른 모형은 연속적인 측정값을 위해 만들어졌습니다.

직접 해 보기

신발 사이즈, 우편번호, 온도, 이메일 수, 머리카락 색처럼 일상생활의 변수 다섯 개를 골라 각각 분류해 보세요. 애매하게 느껴지는 경우가 있다면, 그 값이 이름표인지, 개수인지, 측정값인지처럼 판단을 가르는 조건을 함께 적어 보세요.

한 단계 더 나아가고 싶다면, 각 변수에 대해 어떤 그래프나 요약값이 적절한지, 그리고 어떤 것은 적절하지 않은지도 따져 보세요.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →