표본추출 방법은 모집단에서 표본을 고르는 규칙입니다. 통계에서는 계산을 하기 전부터 편향된 표본이 잘못된 결과를 만들 수 있기 때문에, 어떤 방법을 쓰는지가 중요합니다.
대표적인 세 가지 방법은 단순무작위추출, 층화추출, 계통추출입니다. 어떤 방법이 적절한지는 모집단의 특성, 가지고 있는 목록, 그리고 중요한 집단을 따로 대표시켜야 하는지에 따라 달라집니다.
표본추출 방법 한눈에 보기
단순무작위추출은 오직 우연에만 의존하므로, 모집단의 각 구성원이 뽑힐 가능성이 모두 같습니다.
층화추출은 모집단을 의미 있는 집단인 층(strata)으로 나눈 뒤, 각 집단 안에서 무작위로 표본을 뽑는 방법입니다. 이 집단들이 질문과 관련이 있을 때 사용합니다.
계통추출은 목록에서 무작위 시작점을 정한 뒤, 매 번째 항목을 뽑는 방법입니다. 빠르다는 장점이 있지만, 목록의 순서에 측정하려는 것과 관련된 반복 패턴이 없어야 잘 작동합니다.
각 표본추출 방법은 언제 사용할까
모집단이 이미 하나의 섞인 집단이고, 우연에 의한 공정성이 가장 중요하다면 단순무작위추출을 사용합니다.
어떤 집단들이 중요해서 단순한 무작위 표본으로는 빠지거나 과소대표될 수 있다면 층화추출을 사용합니다.
길고 정렬된 목록이 있고, "10번째마다 한 명씩 뽑기" 같은 실용적인 규칙이 필요하다면 계통추출을 사용합니다. 다만 조건이 중요합니다. 목록의 순서에 숨은 주기가 있으면 결과가 왜곡될 수 있습니다.
빠르게 판단하고 싶다면 이렇게 물어보세요.
- 모집단이 사실상 하나의 섞인 집단인가? 그렇다면 단순무작위추출.
- 특정 집단이 확실히 대표되어야 하는가? 그렇다면 층화추출.
- 길고 중립적인 목록이 있고 빠른 방법이 필요한가? 그렇다면 계통추출.
예제로 보기: 층화추출은 중요한 집단을 표본에 유지한다
어떤 학교가 학습 습관을 조사하려고 한다고 해 봅시다. 학생은 총 명이며, 고등학교 2학년이 명, 3학년이 명입니다. 학교는 명의 표본을 원합니다.
단순무작위표본을 사용하면 실제 비율과 비슷하게 나올 수도 있지만, 우연 때문에 2학년이 너무 많거나 3학년이 너무 많아질 수도 있습니다.
층화추출을 사용하면 표본에서도 같은 비율을 유지합니다.
따라서 표본에는 2학년 명과 3학년 명이 포함되고, 각 학년 안에서 무작위로 뽑습니다. 여기서는 학년이 학습 습관에 영향을 줄 수 있으므로, 모집단과 같은 비율로 두 집단이 모두 대표되게 하는 것이 타당합니다.
층화추출이 모든 문제에서 자동으로 더 좋은 것은 아닙니다. 집단 구분이 의미 있고, 각 집단을 잘 대표하는 것이 중요할 때 도움이 됩니다.
계통추출은 어떻게 작동할까
같은 학교에 학생 명의 명단이 있고, 그중 명을 표본으로 뽑고 싶다고 해 봅시다. 흔히 쓰는 간격은 다음과 같습니다.
그러면 학교는 부터 사이에서 무작위 시작점을 하나 고른 뒤, 그다음부터는 매 번째 학생을 뽑을 수 있습니다.
이 방법은 효율적이지만 약점도 있습니다. 명단이 반 배정이나 프로그램처럼 반복되는 방식으로 정렬되어 있다면, 매 번째 선택이 같은 유형의 학생에게 지나치게 자주 걸릴 수 있습니다. 그런 경우에는 편리함이 오히려 편향의 원인이 됩니다.
표본에 편향을 만드는 흔한 실수
모든 표본을 무작위라고 부르기
선택한 사람이 치밀하게 계획하지 않았다고 해서 그 표본이 무작위인 것은 아닙니다. 무작위추출에는 우연에 기반한 규칙이 필요합니다.
집단 구분에 분명한 이유 없이 층화추출 사용하기
집단은 질문과 관련이 있어야 합니다. 층이 임의적이라면, 복잡성만 늘고 도움이 되지 않을 수 있습니다.
계통추출에서 목록의 순서를 무시하기
계통추출은 목록의 순서가 간격과 관련해 해로운 패턴을 만들지 않을 때만 안전합니다.
표본과 모집단 전체를 혼동하기
좋은 표본이라도 여전히 표본일 뿐입니다. 표본은 추정값을 줄 뿐, 완전한 확실성을 주지는 않습니다.
표본추출 방법은 어디에 쓰일까
표본추출 방법은 설문조사, 여론조사, 품질 관리, 실험, 공중보건 연구, 교실 데이터 프로젝트 등에서 사용됩니다. 어떤 경우든 먼저 표본을 고르고, 분석은 그다음에 이루어집니다.
그래서 표본추출은 통계의 마지막이 아니라 시작에 속합니다. 표본이 약하면, 그 표본으로 만든 평균, 그래프, 결론도 약해질 수 있습니다.
비슷한 문제를 직접 해 보세요
학급, 동아리, 상품 목록처럼 자신이 잘 아는 모집단을 하나 정해 보세요. 표본추출 방법 하나를 고르고, 왜 그 방법을 쓰는지 한 문장으로 설명해 보세요. 계통추출을 고른다면 간격을 제시하고 반복 패턴이 있는지 확인하세요. 층화추출을 고른다면 표본 크기를 계산하기 전에 왜 그 집단 구분이 중요한지 설명해 보세요.