T-검정 — 종류, 공식, 언제 사용하는가

T-검정은 표본평균, 또는 두 표본평균의 차이가 단순한 무작위 변동만으로 기대되는 수준보다 큰지 판단하는 데 도움을 줍니다. 결과 변수가 수치형이고 모집단 표준편차를 모를 때 사용하며, 이는 실제 상황에서 가장 흔한 경우입니다.

가장 중요한 조건은 검정이 데이터의 설계와 맞아야 한다는 점입니다. T-검정은 범주형 개수 데이터가 아니라 평균에 관한 질문에 쓰입니다. 또한 표본이 매우 작고 강한 왜도나 뚜렷한 이상치가 있으면 주의가 필요합니다.

T-검정이 측정하는 것

기본 아이디어는 항상 같습니다:

t = \frac{\text{observed difference}}{\text{estimated standard error}}

평균 차이가 크면 이 통계량은 커지고, 데이터의 잡음이 크거나 표본이 작으면 작아집니다.

귀무가설이 참이고 조건이 적절하다면, 이 통계량은 정규 $z$ 분포가 아니라 $t$ 분포를 따릅니다. $t$ 분포는 특히 표본이 작을 때 꼬리가 더 두꺼워서, 결과를 유의하다고 판단하는 데 더 신중합니다.

어떤 종류의 T-검정을 사용해야 할까

일표본 t-검정

표본이 하나이고 그 평균을 기준값 $\mu_0$ 와 비교하고 싶을 때 사용합니다.

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

예: 한 표본의 평균 포장 무게를 목표값 $100$ 그램과 비교합니다.

이표본 t-검정

서로 독립인 두 집단의 평균을 비교하고 싶을 때 사용합니다. 예를 들어 서로 다른 방법으로 수업을 받은 두 학급을 비교하는 경우입니다.

모집단 분산이 같다고 강하게 가정할 이유가 없다면, 보통은 Welch의 t-검정이 더 안전한 기본 선택입니다:

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Welch 검정의 자유도는 단순히 $n_1 + n_2 - 2$ 가 아니므로, 이 부분은 보통 소프트웨어가 처리합니다.

대응표본 t-검정

전후 비교 데이터나 짝지어진 쌍에 사용합니다. 이 검정은 두 원자료 열을 따로 분석하는 것이 아닙니다. 각 쌍의 차이에 대해 수행합니다.

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

많은 대응표본 문제에서 귀무값은 $\mu_{d,0} = 0$ 이며, 이는 평균 변화가 0이라는 뜻입니다.

T-검정이 적절한 경우

다음 조건이 모두 어느 정도 만족되면 T-검정이 잘 맞습니다:

결과 변수는 수치형이다.
의도적으로 대응 설계를 사용하는 경우가 아니라면, 선택한 설계 안에서 관측값들은 서로 독립이다.
질문이 평균 또는 평균 차이에 관한 것이다.
표본이 너무 작고 이상치나 강한 왜도로 심하게 왜곡되어 평균과 표준편차가 오해를 부를 정도는 아니다.

모집단 표준편차를 정확히 알고 있다면, 교과서적인 $z$ -검정이 직접적인 대안이 됩니다. 하지만 실제로는 $\sigma$ 를 모르는 경우가 대부분이므로 T-검정이 흔히 사용됩니다.

예제로 보는 일표본 t-검정

어떤 포장 공정의 평균이 $100$ 그램이어야 한다고 가정해 봅시다. 무작위로 $25$ 개의 포장을 표본으로 뽑았더니 다음과 같았습니다.

\bar{x} = 102, \quad s = 4

참평균이 $100$ 그램과 다른지 알고 싶습니다.

이 경우는 하나의 표본을 기준값과 비교하는 것이므로, 올바른 검정은 일표본 t-검정입니다.

먼저 가설을 세웁니다:

H_0: \mu = 100

H_1: \mu \ne 100

표준오차는 다음과 같습니다:

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

이제 검정통계량을 계산합니다:

t = \frac{102 - 100}{0.8} = 2.5

자유도는 다음과 같습니다:

df = n - 1 = 24

양측검정에서 $df = 24$ 일 때 $t = 2.5$ 이면 p값은 $0.05$ 보다 작습니다. 즉, 이 결과는 $5\%$ 유의수준에서 통계적으로 유의하므로 $H_0$ 를 기각합니다.

맥락 속에서 해석하면, 이 표본은 공정의 평균이 $100$ 그램과 다르다는 근거를 제공합니다. 이 결론은 표본이 대체로 독립적이고 이상치 때문에 심하게 왜곡되지 않았다는 가정에 의존합니다.

T-검정에서 흔한 실수

흔한 실수 중 하나는 잘못된 검정 종류를 고르는 것입니다. 같은 사람, 기계 또는 단위를 두 번 측정했다면 데이터는 대응되어 있으므로, 독립 이표본 t-검정은 적절하지 않습니다.

또 다른 실수는 “통계적으로 유의하지 않다”를 “차이가 없다”로 해석하는 것입니다. 보통 이는 표본이 귀무가설에 반대되는 충분히 강한 근거를 제공하지 못했다는 뜻입니다.

세 번째 실수는 데이터 점검을 건너뛰는 것입니다. 표본이 아주 작고 극단적인 이상치가 하나 있으면 공식은 여전히 숫자를 내놓지만, 결론은 신뢰하기 어려울 수 있습니다.

T-검정은 어디에 쓰일까

T-검정은 실험, 품질 관리, 의학, 심리학, 교육, 그리고 결과가 수치형인 A/B 비교에서 흔히 사용됩니다. 평균, 변동성, 불확실성, 의사결정을 하나의 방법으로 연결해 주기 때문에 통계적 추론의 대표적인 입문 도구 중 하나입니다.

비슷한 문제를 풀어보기

예제에서 표본평균을 $102$ 대신 $101$ 로 바꾸고, $n = 25$ 와 $s = 4$ 는 그대로 유지해 보세요. t 통계량을 다시 계산하고, $5\%$ 수준에서도 근거가 여전히 충분한지 판단해 보세요. 표본평균이 귀무값에 가까워질수록 결론이 어떻게 달라지는지 확인하는 데 좋은 다음 단계입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →