仮説検定

仮説検定は、標本データが出発点となる主張と比べて、どの程度食い違って見えるかを確かめる方法です。その出発点となる主張を帰無仮説といい、 $H_0$ と書きます。

この方法は、 $H_0$ が真か偽かを証明するものではありません。もっと限定した問いを扱います。つまり、もし $H_0$ が真だとしたら、観測されたこれほど極端なデータは、疑うべきほど珍しいのかを考えます。

基本的な考え方

どの仮説検定にも、競合する2つの主張があります。

帰無仮説 $H_0$ ：検定の対象となる基準の主張。
対立仮説 $H_1$ または $H_a$ ：データが $H_0$ に反する十分な証拠を与えたときに支持する主張。

次に、有意水準 $\alpha$ を結果を見る前に決めます。よく使われるのは $0.05$ です。これは、 $H_0$ を棄却する前にどれだけ強い証拠を求めるかの基準です。

起こりうる結論は2つです。

$H_0$ を棄却する：データが帰無モデルと十分に一致していない。
$H_0$ を棄却できない：データは帰無モデルを退けるほど強くない。

「棄却できない」は、「正しいと認める」と同じではありません。単に、その標本からは $H_0$ に反する十分に強い証拠が得られなかったという意味です。

典型的な手順

通常の流れは次のとおりです。

$H_0$ と $H_1$ を明確に書く。
$\alpha$ を決め、データと前提条件に合った検定を選ぶ。
標本から検定統計量を計算する。
その統計量から $p$ 値を求めるか、臨界値と比較する。
結論を出し、文脈に沿って解釈する。

検定統計量は状況によって異なります。 $z$ 検定、 $t$ 検定、カイ二乗検定などは、いずれも仮説検定の例です。仮説検定全体に共通する1つの公式があるわけではありません。

$p$ 値の意味

$p$ 値とは、 $H_0$ が真であり、かつ検定の前提条件が成り立っていると仮定したときに、観測された結果と同じかそれ以上に極端な結果が得られる確率です。

$p$ 値が小さいということは、 $H_0$ のもとではそのデータが珍しいことを意味します。だからこそ、小さい $p$ 値は帰無仮説に反する証拠とみなされます。

ただし、これは次の意味ではありません。

$H_0$ が偽である確率。
結果が「あくまで偶然」で起きた確率という日常的で曖昧な意味。
効果の大きさや重要性。

仮説検定の主な種類

検定は、役立つ2つの観点から分類できます。

方向による分類

片側検定は、1つの方向への変化だけを調べます。

右片側検定：帰無仮説の主張より大きい値が $H_1$ を支持する。
左片側検定：帰無仮説の主張より小さい値が $H_1$ を支持する。

両側検定は、どちらの方向の差も調べます。 $H_1$ が「等しくない」である場合、棄却域は両側の裾に分かれます。

データの状況による分類

$z$ 検定は、母標準偏差が既知である場合や、十分に妥当な大標本近似を使う平均の検定で用いられます。
$t$ 検定は、母標準偏差が未知で、条件が妥当なときの平均の検定でよく使われます。
カイ二乗検定は、カテゴリーデータの度数に対して用いられます。

適切な検定は、変数の種類、標本の取り方、前提条件によって決まります。問いより先に公式を選んでしまうのは、よくある誤りです。

例題

ある充填機は、1本あたり平均 $500$ mL を入れるはずだとします。品質管理チームが $36$ 本を標本として取り、標本平均が $496$ mL だったとします。

この例では、母標準偏差が $\sigma = 12$ mL と既知であり、標本抽出の条件から1標本 $z$ 検定が妥当だとします。

仮説を立てると、

H_0: \mu = 500

H_1: \mu < 500

となります。

これは、少なめに充填されていることが問題だから、左片側検定です。

標準誤差は

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

です。

したがって、検定統計量は

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

となります。

左片側の $z$ 検定で $\alpha = 0.05$ のとき、臨界値はおよそ $-1.645$ です。 $-2 < -1.645$ なので、この結果は棄却域に入ります。

したがって、 $5\%$ 水準で $H_0$ を棄却します。文脈に沿って言えば、この標本は、その機械が平均的に少なめに充填している証拠を与えています。

ただし、この結論は検定の前提条件に依存します。前提が適切でなければ、計算が正しくても結論は信頼できないかもしれません。

第1種の誤りと第2種の誤り

仮説検定には、常に誤りのリスクがあります。

第1種の誤りとは、 $H_0$ が真なのに棄却してしまうことです。その確率は $\alpha$ によって管理されます。

第2種の誤りとは、 $H_1$ が真なのに $H_0$ を棄却できないことです。その確率は通常 $\beta$ と書きます。

$\alpha$ を小さくすると、誤って棄却する可能性は下がりますが、ほかの条件が同じなら、本当にある効果を見つけにくくなることもあります。このトレードオフがあるため、標本サイズは重要です。

よくある間違い

よくある間違いの1つは、有意でない結果から「効果はない」と言ってしまうことです。通常それが意味するのは、効果を検出するほどデータが強くなかったということだけです。

もう1つの間違いは、統計的有意性を実用的な重要性と同一視することです。ごく小さな効果でも、標本サイズが非常に大きければ統計的に有意になることがあります。

また、独立性、分布の形、分散、データ型に関する前提を無視して検定を使ってしまうこともあります。見た目がきれいな $p$ 値でも、合っていない検定を正当化することはできません。

仮説検定が使われる場面

仮説検定は、科学、製造、医療、調査、A/Bテスト、政策分析などで使われます。目的はたいてい同じで、標本が基準となる主張に疑問を投げかけるだけの十分な証拠を与えているかを判断することです。

実際には、よい検定は計算だけで決まりません。妥当な帰無仮説、根拠のある設計、そして検定が実際に言えることに合った解釈も必要です。

自分でも試してみよう

同じボトル充填の例で、標本平均を $498$ mL に変えてみてください。検定統計量を計算し直し、 $\alpha = 0.05$ で結論が変わるか確かめてみましょう。標本結果が帰無仮説の値に近づくにつれて、証拠が強くなったり弱くなったりする様子を手早く確認できます。

問題の解き方でお困りですか？

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。

GPAI Solver を開く →