カイ二乗検定は、カテゴリ別の度数データが、偶然だけでモデルから期待される範囲よりも大きくずれていないかを調べる検定です。平均値や生の測定値ではなく、カテゴリごとの件数に対して使います。
基本の考え方はシンプルです。帰無仮説が正しいとしたときに期待される値と、実際に観測された値を比べます。差が十分に大きければ、カイ二乗統計量は大きくなり、そのデータはその帰無モデルに反する証拠とみなされます。
この検定が実際に比べているもの
最も一般的な設定では、各カテゴリについて観測度数 と期待度数 があります。検定統計量は次のとおりです。
この値は、観測度数が期待度数から大きく離れるほど大きくなります。ずれが大きいほど強く効き、期待度数が大きいカテゴリはそれに応じて調整されます。
期待度数は適当に決めるものではありません。帰無仮説から導かれます。適合度検定では、各カテゴリが同じ確率で起こるという仮説かもしれません。独立性の検定では、2つのカテゴリ変数に関係がないというのが帰無仮説です。
よく使われる2つの種類
「カイ二乗検定」という言い方は、通常は次のどちらかを指します。
- 適合度検定:1つのカテゴリ変数が、主張された分布に従っているかを調べます。
- 独立性の検定:分割表において、2つのカテゴリ変数に関連があるかを調べます。
どちらも同じ種類の統計量を使いますが、期待度数の計算方法は種類によって異なります。
計算例:適合度検定
あるカフェが、3種類のドリンクサイズが同じ頻度で選ばれているかを知りたいとします。 件の注文で、観測度数は次のとおりです。
- Small:
- Medium:
- Large:
帰無仮説が「3つのサイズはすべて同じ確率で選ばれる」とするなら、各カテゴリの期待度数は
です。
では、統計量を計算します。
これが検定統計量であり、これだけで最終結論が出るわけではありません。 を、適切な自由度をもつカイ二乗分布と比べます。ここで自由度は です。カテゴリが3つあり、データから推定したパラメータがないからです。 のとき、統計量 は、 水準で等しい選好に反する強い証拠とはいえません。
実際的にはこう読めます。度数は完全に等しい状態からはずれていますが、この標本だけをもとに真の選好が等しくないと自信をもって言えるほどではありません。
この検定が適している場面
次のすべてに当てはまるときに、カイ二乗検定を使います。
- データがカテゴリごとの度数である。
- 観測が独立である、または使うモデルに対して十分それに近い。
- 使おうとしているカイ二乗近似に対して、期待度数が小さすぎない。
入門的な場面では、各カテゴリの期待度数は少なくともおよそ 以上あるべきだ、という経験則がよく使われます。これは絶対的な法則ではありませんが、注意すべき有用な目安です。
よくある間違い
- カテゴリの度数ではなく、平均値、測定値、割合にこの検定を使ってしまう。
- 観測度数を期待度数として扱ってしまう。期待度数は帰無仮説から出さなければなりません。
- 期待度数が小さいことを無視してしまう。すると通常のカイ二乗近似が信頼できなくなることがあります。
- 「統計的に有意」を「実際に重要」と考えてしまう。この検定が扱うのは、帰無モデルに反する証拠だけです。
どこで使われるか
カイ二乗検定は、アンケート、遺伝学、品質管理、市場調査など、結果がカテゴリに分かれるあらゆる場面で使われます。特に、あるパターンが意外かどうか、あるいは2つのカテゴリ変数が関係していそうかどうかを知りたいときによく使われます。
データがカテゴリではなく数値なら、通常は別の手法のほうが適しています。たとえば平均値の比較では、代わりに 検定や ANOVA を使うことがよくあります。
自分でもやってみよう
小さなカテゴリ度数の表を1つ用意して、計算を始める前にまず帰無仮説を書いてみてください。この1ステップだけで、カイ二乗の問題で最も大きなミス、つまり正しい式に間違った期待度数を入れてしまうことをたいてい防げます。