카이제곱 검정

카이제곱 검정은 범주형 도수 자료가 우연만으로 기대되는 값에서 너무 크게 벗어나는지를 확인하는 방법입니다. 평균이나 원자료가 아니라, 범주별로 집계된 개수에 사용합니다.

핵심 아이디어는 간단합니다. 귀무가설이 참이라고 할 때 관측한 값과 기대되는 값을 비교하는 것입니다. 차이가 충분히 크면 카이제곱 통계량도 커지고, 그 데이터는 해당 귀무모형에 반대되는 증거로 해석됩니다.

검정이 실제로 비교하는 것

가장 흔한 설정에서는 각 범주에 대해 관측도수 $O$ 와 기대도수 $E$ 가 있습니다. 검정통계량은 다음과 같습니다.

\chi^2 = \sum \frac{(O - E)^2}{E}

이 값은 관측도수가 기대도수에서 더 멀어질수록 커집니다. 차이가 큰 경우 더 크게 반영되며, 기대도수가 큰 범주는 그에 맞게 비율이 조정됩니다.

기대도수는 대충 추정해서 정하는 값이 아닙니다. 그것은 귀무가설에서 나옵니다. 적합도 검정에서는 귀무가설이 각 범주가 동일한 확률을 가진다고 말할 수 있습니다. 독립성 검정에서는 귀무가설이 두 범주형 변수가 서로 관련이 없다고 말합니다.

대표적인 두 가지 형태

"카이제곱 검정"이라는 말은 보통 다음 둘 중 하나를 뜻합니다.

적합도 검정: 하나의 범주형 변수가 주장된 분포를 따르는지 묻습니다.
독립성 검정: 분할표에서 두 범주형 변수 사이에 관련이 있는지 묻습니다.

두 경우 모두 같은 계열의 통계량을 사용하지만, 기대도수를 계산하는 방식은 형태에 따라 달라집니다.

예제: 적합도 검정

어떤 카페가 세 가지 음료 크기가 똑같이 자주 선택되는지 알고 싶다고 해 봅시다. 총 $60$ 건의 주문에서 관측도수는 다음과 같습니다.

Small: $26$
Medium: $18$
Large: $16$

귀무가설이 세 크기가 모두 같은 확률로 선택된다고 하면, 각 범주의 기대도수는

E = \frac{60}{3} = 20

이제 통계량을 계산합니다.

\chi^2 = \frac{(26-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(16-20)^2}{20}

= \frac{36}{20} + \frac{4}{20} + \frac{16}{20}

= 1.8 + 0.2 + 0.8 = 2.8

이 값은 검정통계량이지, 그 자체로 최종 결론은 아닙니다. $\chi^2 = 2.8$ 을 적절한 자유도를 가진 카이제곱분포와 비교해야 합니다. 여기서는 범주가 세 개이고 데이터에서 추정한 모수가 없으므로 자유도는 $3 - 1 = 2$ 입니다. $df = 2$ 일 때 통계량 $2.8$ 은 $5\%$ 유의수준에서 동일한 선호를 기각할 만큼 강한 증거는 아닙니다.

실제로는 이렇게 해석할 수 있습니다. 도수는 완전히 같지는 않지만, 이 표본만으로 진짜 선호가 서로 다르다고 자신 있게 말할 정도로 차이가 크지는 않습니다.

언제 이 검정이 적절한가

다음이 모두 참일 때 카이제곱 검정을 사용합니다.

데이터가 범주별 도수로 이루어져 있다.
관측값들이 서로 독립이거나, 적어도 사용하는 모형에 비추어 충분히 독립적이다.
사용하려는 카이제곱 근사가 성립할 만큼 기대도수가 너무 작지 않다.

많은 입문 과정에서는 각 범주의 기대도수가 적어도 $5$ 정도는 되어야 한다는 경험칙을 사용합니다. 이것은 절대적인 법칙은 아니지만, 실용적인 경고 신호로는 매우 유용합니다.

흔한 실수

범주별 도수 대신 평균, 측정값, 백분율에 이 검정을 사용하는 것.
관측도수를 기대도수처럼 다루는 것. 기대도수는 반드시 귀무가설에서 나와야 합니다.
기대도수가 작은 경우를 무시하는 것. 그러면 보통의 카이제곱 근사가 신뢰하기 어려워질 수 있습니다.
"통계적으로 유의하다"를 "실제로 중요하다"와 같은 뜻으로 생각하는 것. 이 검정은 귀무모형에 반대되는 증거만 다룹니다.

어디에서 볼 수 있나

카이제곱 검정은 설문조사, 유전학, 품질 관리, 시장 조사처럼 결과가 범주로 나뉘는 거의 모든 분야에서 등장합니다. 특히 어떤 패턴이 놀라운지, 또는 두 범주형 변수가 관련되어 보이는지가 진짜 질문일 때 자주 쓰입니다.

데이터가 범주형이 아니라 수치형이라면 보통 다른 도구가 더 적절합니다. 예를 들어 평균 비교는 대개 $t$ 검정이나 ANOVA로 이어집니다.

직접 해 보기

작은 범주별 도수표를 하나 정하고, 계산을 시작하기 전에 먼저 귀무가설을 적어 보세요. 이 한 단계만으로도 카이제곱 문제에서 가장 큰 실수, 즉 공식을 맞게 쓰면서 기대도수를 잘못 넣는 일을 대개 막을 수 있습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →