가설검정

가설검정은 표본 데이터가 출발점이 되는 주장과 너무 맞지 않는지 묻는 방법입니다. 이 출발점이 되는 주장을 귀무가설이라고 하며, $H_0$ 로 씁니다.

이 방법은 $H_0$ 가 참인지 거짓인지 증명하지 않습니다. 대신 더 좁은 질문을 합니다. 만약 $H_0$ 가 참이라면, 지금처럼 극단적인 데이터가 우리가 의심해야 할 만큼 드문 일인가?

핵심 아이디어

모든 가설검정에는 서로 경쟁하는 두 진술이 있습니다.

귀무가설 $H_0$ : 검정의 기본 기준이 되는 주장
대립가설 $H_1$ 또는 $H_a$ : 데이터가 $H_0$ 에 반하는 충분한 증거를 주면 지지하게 되는 주장

그다음 결과를 보기 전에 유의수준 $\alpha$ 를 정합니다. 보통 $0.05$ 를 많이 씁니다. 이것은 $H_0$ 를 기각하기 전에 어느 정도의 증거를 요구할지 정하는 기준선입니다.

가능한 결과는 두 가지입니다.

$H_0$ 기각: 데이터가 귀무모형과 충분히 일치하지 않음
$H_0$ 기각 실패: 데이터가 귀무모형을 배제할 만큼 강하지 않음

"기각 실패"는 "참으로 받아들인다"와 같은 뜻이 아닙니다. 단지 표본이 $H_0$ 에 반하는 충분히 강한 증거를 제공하지 못했다는 뜻입니다.

일반적인 절차

보통의 흐름은 다음과 같습니다.

$H_0$ 와 $H_1$ 을 분명하게 적습니다.
$\alpha$ 와 데이터 및 가정에 맞는 검정을 선택합니다.
표본으로부터 검정통계량을 계산합니다.
그 통계량을 $p$ 값으로 바꾸거나 임계값과 비교합니다.
결정을 내리고, 맥락에 맞게 해석합니다.

검정통계량은 상황에 따라 달라집니다. $z$ -검정, $t$ -검정, 카이제곱검정 등은 모두 가설검정의 예입니다. 가설검정 전체에 공통으로 적용되는 하나의 공식이 있는 것은 아닙니다.

$p$ 값의 의미

$p$ 값은 $H_0$ 가 참이고 검정의 가정들이 성립한다고 할 때, 관측된 결과만큼 또는 그보다 더 극단적인 결과가 나올 확률입니다.

$p$ 값이 작다는 것은 $H_0$ 아래에서 그 데이터가 드물다는 뜻입니다. 그래서 작은 $p$ 값은 귀무가설에 반하는 증거로 해석됩니다.

하지만 이것이 뜻하는 것은 아닙니다.

$H_0$ 가 거짓일 확률
결과가 막연한 일상적 의미에서 "우연히" 일어났을 확률
효과의 크기나 중요성

가설검정의 주요 유형

검정은 두 가지 방식으로 묶어 보면 유용합니다.

방향에 따른 분류

단측검정은 한 방향의 변화만 찾습니다.

우측검정: 귀무가설의 주장보다 큰 값이 $H_1$ 을 지지합니다.
좌측검정: 귀무가설의 주장보다 작은 값이 $H_1$ 을 지지합니다.

양측검정은 어느 방향이든 차이를 찾습니다. $H_1$ 이 "같지 않다"라면 기각역은 양쪽 꼬리에 나뉘어 있습니다.

데이터 상황에 따른 분류

$z$ -검정은 모집단 표준편차를 알거나, 정당한 큰표본 근사를 사용하는 일부 평균 검정 상황에서 쓰입니다.
$t$ -검정은 모집단 표준편차를 모르고 조건이 적절할 때 평균에 대해 자주 사용됩니다.
카이제곱검정은 범주형 도수 데이터에 사용됩니다.

어떤 검정이 맞는지는 변수의 종류, 표본 설계, 가정에 따라 달라집니다. 질문보다 공식을 먼저 고르는 것은 흔한 실수입니다.

예제로 보기

어떤 충전 기계는 병당 평균 $500$ mL를 채워야 한다고 가정해 봅시다. 품질관리 팀이 병 $36$ 개를 표본으로 뽑았고, 표본평균이 $496$ mL였습니다.

이 예제에서는 모집단 표준편차가 $\sigma = 12$ mL로 알려져 있고, 표본추출 조건이 단일표본 $z$ -검정을 정당화한다고 가정합니다.

가설을 세우면 다음과 같습니다.

H_0: \mu = 500

H_1: \mu < 500

관심이 덜 채워지는 경우이므로 이는 좌측검정입니다.

표준오차는

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

따라서 검정통계량은

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

좌측 $z$ -검정에서 $\alpha = 0.05$ 이면 임계값은 대략 $-1.645$ 입니다. $-2 < -1.645$ 이므로 결과는 기각역에 들어갑니다.

따라서 $5\%$ 유의수준에서 $H_0$ 를 기각합니다. 맥락에 맞게 말하면, 이 표본은 기계가 평균적으로 덜 채우고 있다는 증거를 제공합니다.

이 결론은 검정의 가정에 의존합니다. 가정이 적절하지 않다면 계산이 맞더라도 결론은 신뢰하기 어려울 수 있습니다.

제1종 오류와 제2종 오류

가설검정에는 항상 오류의 위험이 있습니다.

제1종 오류는 $H_0$ 가 참인데도 기각하는 경우입니다. 그 확률은 $\alpha$ 로 통제합니다.

제2종 오류는 $H_1$ 이 참인데도 $H_0$ 를 기각하지 못하는 경우입니다. 그 확률은 보통 $\beta$ 로 씁니다.

$\alpha$ 를 낮추면 거짓 경보는 줄어들지만, 다른 조건이 같다면 실제 효과를 발견하기도 더 어려워질 수 있습니다. 이런 상충관계 때문에 표본 크기가 중요합니다.

흔한 실수

흔한 실수 중 하나는 유의하지 않은 결과가 효과가 없음을 증명한다고 말하는 것입니다. 보통은 단지 데이터를 통해 그 효과를 검출할 만큼 증거가 강하지 않았다는 뜻입니다.

또 다른 실수는 통계적 유의성을 실제적 중요성과 같게 보는 것입니다. 아주 작은 효과도 표본이 매우 크면 통계적으로 유의할 수 있습니다.

또한 독립성, 분포의 형태, 분산, 데이터 유형에 대한 가정을 무시한 채 검정을 사용하는 경우도 많습니다. 보기에는 그럴듯한 $p$ 값이 나와도, 맞지 않는 검정을 정당화해 주지는 않습니다.

가설검정은 언제 쓰일까

가설검정은 과학, 제조, 의학, 설문조사, A/B 테스트, 정책 분석 등에서 사용됩니다. 목표는 대체로 같습니다. 표본이 기본 주장에 의문을 제기할 만큼 충분한 증거를 주는지 판단하는 것입니다.

실제로 좋은 검정은 계산만으로 끝나지 않습니다. 타당한 귀무가설, 설득력 있는 설계, 그리고 검정이 실제로 말해 줄 수 있는 범위에 맞는 해석도 필요합니다.

직접 해보기

같은 병 충전 예제에서 표본평균만 $498$ mL로 바꿔 보세요. 검정통계량을 다시 계산하고, $\alpha = 0.05$ 에서 결정이 바뀌는지 확인해 보세요. 이렇게 하면 표본 결과가 귀무가설의 값에 가까워질수록 증거가 어떻게 강해지거나 약해지는지 빠르게 볼 수 있습니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →