신뢰구간은 표본 데이터를 바탕으로 모집단 모수의 가능한 값들을 나타내는 범위입니다. 기초 통계 문제에서는 보통 다음과 같이 만듭니다.
오차한계는 표본에 얼마나 불확실성이 있는지, 그리고 얼마나 높은 신뢰수준을 원하는지에 따라 달라집니다. 신뢰수준이 높을수록 구간은 더 넓어집니다. 데이터가 더 정밀할수록 구간은 더 좁아집니다.
신뢰구간의 뜻을 쉽게 설명하면
신뢰구간을 볼 때 가장 안전한 해석은, 하나의 완성된 구간이 아니라 그 구간을 만드는 방법에 관한 것입니다. 같은 표본추출 과정을 여러 번 반복하고 매번 같은 방식으로 구간을 다시 만든다면, 그 구간들 중 약 가 참모수를 포함합니다.
즉, 신뢰구간은 추정값 주변의 불확실성을 보여 주는 방법입니다. 가능한 범위를 제시하는 것이지, 보장을 뜻하는 것은 아닙니다.
신뢰구간 공식
일반적인 구조는 다음과 같습니다.
모평균에 대해서는 자주 쓰이는 두 가지 형태가 있습니다.
이 형태는 모집단 표준편차 를 알고 있거나, 임계값을 사용하는 정규근사가 타당할 때 사용합니다.
이 형태는 를 모를 때 표본표준편차 로 산포를 추정하는 경우에 사용합니다. 표본 크기가 작을 때는 보통 모집단이 대체로 정규분포를 따른다는 조건과 함께 사용합니다.
이와 같은 패턴은 여러 상황에서 나타나지만, 표준오차는 평균, 비율, 그 밖의 모수에 따라 달라집니다.
신뢰구간의 폭을 바꾸는 요인
가장 중요한 요소는 세 가지입니다.
- 신뢰수준이 높을수록 구간은 더 넓어집니다.
- 표본 크기가 클수록 보통 구간은 더 좁아집니다.
- 데이터의 변동성이 클수록 구간은 더 넓어집니다.
이것이 핵심적인 절충 관계입니다. 더 높은 신뢰는 보통 더 낮은 정밀도를 대가로 합니다.
95% 신뢰구간 예제
크기가 인 표본의 평균이 이고, 모집단 표준편차를 로 알고 있다고 합시다. 구간을 사용해 모평균의 신뢰구간을 구해 봅시다.
먼저 다음 식에서 시작합니다.
신뢰수준에서는 을 사용합니다.
이제 표준오차를 계산합니다.
따라서 오차한계는
구간을 만들면
이고, 이는 다음과 같습니다.
실제로는 이렇게 해석할 수 있습니다. 모형의 조건이 타당하고 데이터가 이 표본추출 과정에서 나왔다면, 와 사이의 값들은 모평균의 가능한 값으로 볼 수 있습니다.
신뢰구간에서 자주 하는 실수
흔한 실수 중 하나는 이 특정 구간 안에 참모수가 있을 확률이 라고 말하는 것입니다. 표준적인 빈도주의 통계에서는 모수는 고정되어 있고, 장기적으로 성공률을 가지는 것은 구간을 만드는 절차입니다.
또 다른 실수는 조건을 확인하지 않고 잘못된 공식을 사용하는 것입니다. 구간, 구간, 비율에 대한 구간은 같은 표준오차를 사용하지 않습니다.
학생들은 모수에 대한 신뢰구간과 원자료의 퍼짐을 혼동하기도 합니다. 신뢰구간은 추정값의 불확실성에 관한 것이지, 대부분의 개별 관측값이 어디에 놓이는지를 나타내는 것은 아닙니다.
신뢰구간은 언제 사용하나요?
신뢰구간은 여론조사, 실험, 품질관리, 의학, 경제학, 일상적인 데이터 보고 등에서 자주 등장합니다. 표본을 사용해 더 큰 모집단에 대해 말하고자 할 때 유용합니다.
실제로는 어떤 기준값이나 다른 추정값과 비교할 때 신뢰구간이 특히 중요합니다. 좁은 구간은 넓은 구간보다 더 정밀한 결론을 뒷받침합니다.
비슷한 문제를 직접 해보세요
, , 일 때 신뢰구간을 직접 구해 보세요. 그런 다음 표본 크기만 바꾸고 오차한계가 어떻게 달라지는지 살펴보세요. 이것은 왜 표본이 클수록 보통 더 좁은 구간이 만들어지는지 감을 빠르게 익히는 좋은 방법입니다.