t検定 — 種類・公式・使い方

t検定は、標本平均、または2つの標本平均の差が、単なる偶然のばらつきだけでは説明しにくいほど大きいかどうかを判断するための検定です。結果変数が数値で、母標準偏差が未知のときに使いますが、これは実際のデータではごく普通の状況です。

重要なのは、検定の種類がデータの設計に合っていることです。t検定は平均に関する問いのための方法であり、カテゴリの度数には使いません。また、標本が非常に小さい場合は、強い歪みや明らかな外れ値があると注意が必要です。

t検定が測っているもの

基本的な考え方は常に同じです。

t = \frac{\text{observed difference}}{\text{estimated standard error}}

平均の差が大きいほど、この統計量は大きくなります。逆に、データのばらつきが大きい場合や標本サイズが小さい場合は小さくなります。

帰無仮説のもとで、かつ条件がおおむね満たされていれば、この統計量は正規分布の $z$ 分布ではなく $t$ 分布に従います。 $t$ 分布は、特に標本が小さいときに裾が厚いため、有意だと判断するのにより慎重です。

どの種類のt検定を使うべきか

1標本t検定

1つの標本があり、その平均を基準値 $\mu_0$ と比較したいときに使います。

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

例：ある標本における商品の平均重量を、目標値 $100$ グラムと比較する。

2標本t検定

異なる方法で教えた2つのクラスのように、独立した2群の平均を比較したいときに使います。

母分散が等しいと強く仮定する理由がないなら、通常はWelchのt検定を使うのがより安全な標準的選択です。

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Welchの検定における自由度は、単純に $n_1 + n_2 - 2$ とはならないため、その部分は通常ソフトウェアが処理します。

対応のあるt検定

前後比較データや対応のあるペアに使います。この検定は2列の生データを別々に扱うのではありません。各ペアの差に対して行います。

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

多くの対応のある問題では、帰無仮説の値は $\mu_{d,0} = 0$ で、平均変化がゼロであることを意味します。

t検定が適切な場面

次の条件がだいたい満たされているとき、t検定は適しています。

結果変数が数値である。
意図的に対応のある設計を使っている場合を除き、観測値がその設計の中で独立である。
問いが平均または平均差に関するものである。
標本が極端に小さく、外れ値や強い歪みによって平均や標準偏差が当てにならなくなるほどではない。

もし母標準偏差が正確に既知なら、教科書的には $z$ 検定が直接の代替になります。実際には $\sigma$ はたいてい未知なので、t検定がよく使われます。

例題：1標本t検定

ある包装工程の平均は $100$ グラムであるはずだとします。そこで、 $25$ 個の製品を無作為に抽出したところ、

\bar{x} = 102, \quad s = 4

となりました。

真の平均が $100$ グラムと異なるかどうかを知りたいとします。

これは1つの標本を基準値と比較する問題なので、正しい検定は1標本t検定です。

まず仮説を立てます。

H_0: \mu = 100

H_1: \mu \ne 100

標準誤差は

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

です。

次に、検定統計量を計算します。

t = \frac{102 - 100}{0.8} = 2.5

自由度は

df = n - 1 = 24

です。

両側検定で $df = 24$ のとき、 $t = 2.5$ に対応する p値は $0.05$ 未満です。つまり、この結果は $5\%$ 水準で統計的に有意なので、 $H_0$ を棄却します。

文脈に沿って言えば、この標本は工程の平均が $100$ グラムと異なることを示す証拠を与えています。ただし、この結論は標本が十分に独立であり、外れ値によって大きく歪められていないことを前提としています。

t検定でよくある間違い

よくある間違いの1つは、検定の種類を誤って選ぶことです。同じ人、機械、または対象を2回測定しているなら、そのデータは対応のあるデータなので、独立2標本t検定は適切ではありません。

もう1つの間違いは、「統計的に有意ではない」を「差がない」と読んでしまうことです。通常それは、標本が帰無仮説に反する十分に強い証拠を与えなかった、という意味です。

3つ目の間違いは、データの確認を省くことです。標本が極端に小さく、1つの極端な外れ値がある場合でも、公式は数値を返しますが、その結論は信頼できないかもしれません。

t検定はどこで使われるか

t検定は、実験、品質管理、医療、心理学、教育、そして結果変数が数値であるA/B比較のような場面でよく使われます。平均、ばらつき、不確実性、意思決定を1つの方法で結びつけるため、統計的推測の入門として標準的な手法の1つです。

似た問題に挑戦してみよう

例題の標本平均を $102$ ではなく $101$ に変え、 $n = 25$ と $s = 4$ はそのままにしてみましょう。t統計量を計算し直し、 $5\%$ 水準でもなお証拠が十分に強いかどうかを判断してください。標本平均が帰無仮説の値に近づくと結論がどう変わるかを見るうえで、よい次の一歩になります。

問題の解き方でお困りですか？

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。

GPAI Solver を開く →