카이제곱 검정은 범주형 도수 자료가 우연만으로 기대되는 값에서 너무 크게 벗어나는지를 확인하는 방법입니다. 평균이나 원자료가 아니라, 범주별로 집계된 개수에 사용합니다.
핵심 아이디어는 간단합니다. 귀무가설이 참이라고 할 때 관측한 값과 기대되는 값을 비교하는 것입니다. 차이가 충분히 크면 카이제곱 통계량도 커지고, 그 데이터는 해당 귀무모형에 반대되는 증거로 해석됩니다.
검정이 실제로 비교하는 것
가장 흔한 설정에서는 각 범주에 대해 관측도수 와 기대도수 가 있습니다. 검정통계량은 다음과 같습니다.
이 값은 관측도수가 기대도수에서 더 멀어질수록 커집니다. 차이가 큰 경우 더 크게 반영되며, 기대도수가 큰 범주는 그에 맞게 비율이 조정됩니다.
기대도수는 대충 추정해서 정하는 값이 아닙니다. 그것은 귀무가설에서 나옵니다. 적합도 검정에서는 귀무가설이 각 범주가 동일한 확률을 가진다고 말할 수 있습니다. 독립성 검정에서는 귀무가설이 두 범주형 변수가 서로 관련이 없다고 말합니다.
대표적인 두 가지 형태
"카이제곱 검정"이라는 말은 보통 다음 둘 중 하나를 뜻합니다.
- 적합도 검정: 하나의 범주형 변수가 주장된 분포를 따르는지 묻습니다.
- 독립성 검정: 분할표에서 두 범주형 변수 사이에 관련이 있는지 묻습니다.
두 경우 모두 같은 계열의 통계량을 사용하지만, 기대도수를 계산하는 방식은 형태에 따라 달라집니다.
예제: 적합도 검정
어떤 카페가 세 가지 음료 크기가 똑같이 자주 선택되는지 알고 싶다고 해 봅시다. 총 건의 주문에서 관측도수는 다음과 같습니다.
- Small:
- Medium:
- Large:
귀무가설이 세 크기가 모두 같은 확률로 선택된다고 하면, 각 범주의 기대도수는
이제 통계량을 계산합니다.
이 값은 검정통계량이지, 그 자체로 최종 결론은 아닙니다. 을 적절한 자유도를 가진 카이제곱분포와 비교해야 합니다. 여기서는 범주가 세 개이고 데이터에서 추정한 모수가 없으므로 자유도는 입니다. 일 때 통계량 은 유의수준에서 동일한 선호를 기각할 만큼 강한 증거는 아닙니다.
실제로는 이렇게 해석할 수 있습니다. 도수는 완전히 같지는 않지만, 이 표본만으로 진짜 선호가 서로 다르다고 자신 있게 말할 정도로 차이가 크지는 않습니다.
언제 이 검정이 적절한가
다음이 모두 참일 때 카이제곱 검정을 사용합니다.
- 데이터가 범주별 도수로 이루어져 있다.
- 관측값들이 서로 독립이거나, 적어도 사용하는 모형에 비추어 충분히 독립적이다.
- 사용하려는 카이제곱 근사가 성립할 만큼 기대도수가 너무 작지 않다.
많은 입문 과정에서는 각 범주의 기대도수가 적어도 정도는 되어야 한다는 경험칙을 사용합니다. 이것은 절대적인 법칙은 아니지만, 실용적인 경고 신호로는 매우 유용합니다.
흔한 실수
- 범주별 도수 대신 평균, 측정값, 백분율에 이 검정을 사용하는 것.
- 관측도수를 기대도수처럼 다루는 것. 기대도수는 반드시 귀무가설에서 나와야 합니다.
- 기대도수가 작은 경우를 무시하는 것. 그러면 보통의 카이제곱 근사가 신뢰하기 어려워질 수 있습니다.
- "통계적으로 유의하다"를 "실제로 중요하다"와 같은 뜻으로 생각하는 것. 이 검정은 귀무모형에 반대되는 증거만 다룹니다.
어디에서 볼 수 있나
카이제곱 검정은 설문조사, 유전학, 품질 관리, 시장 조사처럼 결과가 범주로 나뉘는 거의 모든 분야에서 등장합니다. 특히 어떤 패턴이 놀라운지, 또는 두 범주형 변수가 관련되어 보이는지가 진짜 질문일 때 자주 쓰입니다.
데이터가 범주형이 아니라 수치형이라면 보통 다른 도구가 더 적절합니다. 예를 들어 평균 비교는 대개 검정이나 ANOVA로 이어집니다.
직접 해 보기
작은 범주별 도수표를 하나 정하고, 계산을 시작하기 전에 먼저 귀무가설을 적어 보세요. 이 한 단계만으로도 카이제곱 문제에서 가장 큰 실수, 즉 공식을 맞게 쓰면서 기대도수를 잘못 넣는 일을 대개 막을 수 있습니다.