카이제곱 검정은 범주형 도수 자료가 우연만으로 기대되는 값에서 너무 크게 벗어나는지를 확인하는 방법입니다. 평균이나 원자료가 아니라, 범주별로 집계된 개수에 사용합니다.

핵심 아이디어는 간단합니다. 귀무가설이 참이라고 할 때 관측한 값과 기대되는 값을 비교하는 것입니다. 차이가 충분히 크면 카이제곱 통계량도 커지고, 그 데이터는 해당 귀무모형에 반대되는 증거로 해석됩니다.

검정이 실제로 비교하는 것

가장 흔한 설정에서는 각 범주에 대해 관측도수 OO와 기대도수 EE가 있습니다. 검정통계량은 다음과 같습니다.

χ2=(OE)2E\chi^2 = \sum \frac{(O - E)^2}{E}

이 값은 관측도수가 기대도수에서 더 멀어질수록 커집니다. 차이가 큰 경우 더 크게 반영되며, 기대도수가 큰 범주는 그에 맞게 비율이 조정됩니다.

기대도수는 대충 추정해서 정하는 값이 아닙니다. 그것은 귀무가설에서 나옵니다. 적합도 검정에서는 귀무가설이 각 범주가 동일한 확률을 가진다고 말할 수 있습니다. 독립성 검정에서는 귀무가설이 두 범주형 변수가 서로 관련이 없다고 말합니다.

대표적인 두 가지 형태

"카이제곱 검정"이라는 말은 보통 다음 둘 중 하나를 뜻합니다.

  1. 적합도 검정: 하나의 범주형 변수가 주장된 분포를 따르는지 묻습니다.
  2. 독립성 검정: 분할표에서 두 범주형 변수 사이에 관련이 있는지 묻습니다.

두 경우 모두 같은 계열의 통계량을 사용하지만, 기대도수를 계산하는 방식은 형태에 따라 달라집니다.

예제: 적합도 검정

어떤 카페가 세 가지 음료 크기가 똑같이 자주 선택되는지 알고 싶다고 해 봅시다. 총 6060건의 주문에서 관측도수는 다음과 같습니다.

  • Small: 2626
  • Medium: 1818
  • Large: 1616

귀무가설이 세 크기가 모두 같은 확률로 선택된다고 하면, 각 범주의 기대도수는

E=603=20E = \frac{60}{3} = 20

이제 통계량을 계산합니다.

χ2=(2620)220+(1820)220+(1620)220\chi^2 = \frac{(26-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(16-20)^2}{20} =3620+420+1620= \frac{36}{20} + \frac{4}{20} + \frac{16}{20} =1.8+0.2+0.8=2.8= 1.8 + 0.2 + 0.8 = 2.8

이 값은 검정통계량이지, 그 자체로 최종 결론은 아닙니다. χ2=2.8\chi^2 = 2.8을 적절한 자유도를 가진 카이제곱분포와 비교해야 합니다. 여기서는 범주가 세 개이고 데이터에서 추정한 모수가 없으므로 자유도는 31=23 - 1 = 2입니다. df=2df = 2일 때 통계량 2.82.85%5\% 유의수준에서 동일한 선호를 기각할 만큼 강한 증거는 아닙니다.

실제로는 이렇게 해석할 수 있습니다. 도수는 완전히 같지는 않지만, 이 표본만으로 진짜 선호가 서로 다르다고 자신 있게 말할 정도로 차이가 크지는 않습니다.

언제 이 검정이 적절한가

다음이 모두 참일 때 카이제곱 검정을 사용합니다.

  1. 데이터가 범주별 도수로 이루어져 있다.
  2. 관측값들이 서로 독립이거나, 적어도 사용하는 모형에 비추어 충분히 독립적이다.
  3. 사용하려는 카이제곱 근사가 성립할 만큼 기대도수가 너무 작지 않다.

많은 입문 과정에서는 각 범주의 기대도수가 적어도 55 정도는 되어야 한다는 경험칙을 사용합니다. 이것은 절대적인 법칙은 아니지만, 실용적인 경고 신호로는 매우 유용합니다.

흔한 실수

  1. 범주별 도수 대신 평균, 측정값, 백분율에 이 검정을 사용하는 것.
  2. 관측도수를 기대도수처럼 다루는 것. 기대도수는 반드시 귀무가설에서 나와야 합니다.
  3. 기대도수가 작은 경우를 무시하는 것. 그러면 보통의 카이제곱 근사가 신뢰하기 어려워질 수 있습니다.
  4. "통계적으로 유의하다"를 "실제로 중요하다"와 같은 뜻으로 생각하는 것. 이 검정은 귀무모형에 반대되는 증거만 다룹니다.

어디에서 볼 수 있나

카이제곱 검정은 설문조사, 유전학, 품질 관리, 시장 조사처럼 결과가 범주로 나뉘는 거의 모든 분야에서 등장합니다. 특히 어떤 패턴이 놀라운지, 또는 두 범주형 변수가 관련되어 보이는지가 진짜 질문일 때 자주 쓰입니다.

데이터가 범주형이 아니라 수치형이라면 보통 다른 도구가 더 적절합니다. 예를 들어 평균 비교는 대개 tt 검정이나 ANOVA로 이어집니다.

직접 해 보기

작은 범주별 도수표를 하나 정하고, 계산을 시작하기 전에 먼저 귀무가설을 적어 보세요. 이 한 단계만으로도 카이제곱 문제에서 가장 큰 실수, 즉 공식을 맞게 쓰면서 기대도수를 잘못 넣는 일을 대개 막을 수 있습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →