標本抽出法とは、母集団から標本を選ぶためのルールです。統計では、この方法が重要です。なぜなら、偏った標本は、計算を始める前から誤解を招く結果につながるからです。
代表的な3つの方法は、単純無作為抽出、層化抽出、系統抽出です。どれを選ぶべきかは、母集団の性質、手元にある名簿、そして重要な集団を別々に代表させる必要があるかどうかによって決まります。
標本抽出法の概要
単純無作為抽出は、偶然だけを使って選ぶ方法で、母集団の各メンバーが等しい確率で選ばれます。
層化抽出は、母集団を意味のあるグループに分け、そのグループを層と呼びます。そのうえで、各層の中で無作為に抽出します。こうしたグループ分けが問題にとって重要なときに使います。
系統抽出は、名簿上のランダムな位置から始めて、その後は 個おきに選ぶ方法です。速くて便利ですが、名簿の並び順に、測りたい内容と関係する繰り返しパターンがない場合にだけうまく機能します。
それぞれの標本抽出法を使う場面
単純無作為抽出は、母集団がすでに1つの混ざった集団であり、主に偶然による公平さを重視したいときに使います。
層化抽出は、ある集団が重要で、単純な無作為抽出ではその集団が抜け落ちたり、十分に含まれなかったりするおそれがあるときに使います。
系統抽出は、長い順序付きの名簿があり、「10人おきに1人選ぶ」のような実用的なルールを使いたいときに向いています。ただし条件があります。名簿の並びに隠れた周期性があると、結果がゆがむことがあります。
すぐに判断したいなら、次のように考えてみましょう。
- 母集団は基本的に1つの混ざった集団ですか? 単純無作為抽出を使います。
- 特定の集団を確実に代表させる必要がありますか? 層化抽出を使います。
- 長くて中立的な名簿があり、速い方法が必要ですか? 系統抽出を使います。
例題:層化抽出は重要な集団を標本に残せる
ある学校が学習習慣について調査したいとします。生徒は 人いて、内訳は高校3年生が 人、高校4年生が 人です。学校は 人の標本を取りたいと考えています。
単純無作為抽出では、結果は実際の割合に近くなるかもしれませんが、偶然によって高校3年生や高校4年生が多すぎる標本になる可能性もあります。
層化抽出では、学校は標本の中でも同じ割合を保ちます。
したがって、標本には高校3年生が 人、高校4年生が 人含まれ、それぞれの学年の中で無作為に選ばれます。ここでこの方法が適切なのは、学年が学習習慣に影響するかもしれず、学校が母集団と同じ割合で両方の集団を含めたいからです。
層化抽出は、どんな問題でも自動的に優れているわけではありません。グループ分けに意味があり、それぞれをしっかり代表させたいときに役立ちます。
系統抽出のしくみ
同じ学校に 人の生徒名簿があり、そこから 人の標本を取りたいとします。よく使われる間隔は
です。
そこで学校は、まず から の間でランダムな開始位置を1つ選び、その後は 人おきに生徒を選びます。
これは効率的ですが、弱点もあります。名簿が授業時限やコースのように繰り返しのある並び方になっていると、 人おきの選び方によって同じタイプの生徒ばかりが多く選ばれるかもしれません。その場合、この方法の便利さが偏りの原因になってしまいます。
標本に偏りを生むよくあるミス
どの標本もランダムだと思い込む
選ぶ人が深く考えずに選んだからといって、その標本がランダムとは限りません。無作為抽出には、偶然に基づく明確なルールが必要です。
グループ分けに意味がないのに層化抽出を使う
グループは、その問題にとって意味がある必要があります。層の分け方が恣意的なら、複雑になるだけで役に立たないかもしれません。
系統抽出で並び順を無視する
系統抽出が安全なのは、名簿の並び順が抽出間隔に対して有害なパターンを作らない場合だけです。
標本と母集団全体を混同する
良い標本であっても、あくまで標本です。得られるのは推定であり、完全な確実性ではありません。
標本抽出法が使われる場面
標本抽出法は、アンケート調査、世論調査、品質管理、実験、公衆衛生の研究、授業でのデータ分析課題などで使われます。どの場合でも、まず標本を選び、その後で分析を行います。
だからこそ、標本抽出は統計の最後ではなく最初に位置づけられます。標本が弱ければ、そこから作られる平均、グラフ、結論も弱くなってしまいます。
類題に挑戦してみよう
クラス、部活動、商品リストなど、自分がよく知っている母集団を1つ選びましょう。そして、1つの標本抽出法を選んで、その理由を1文で説明してください。系統抽出を選ぶなら間隔も示し、繰り返しパターンがないか確認しましょう。層化抽出を選ぶなら、標本サイズを計算する前に、なぜそのグループ分けが重要なのかを説明しましょう。