p値とは、統計的検定で得られる数値で、帰無仮説が正しいとしたときに、あなたの結果がどれくらい珍しいかを示すものです。より正確には、その検定で用いた帰無モデルのもとで、観測された結果と同じかそれ以上に極端な結果が得られる確率を表します。
つまり、p値はデータがどの程度帰無仮説に反しているかを判断するための手がかりです。帰無仮説が正しい確率を示すものではなく、効果が大きいか実用的に重要かどうかも教えてくれません。
p値が実際に答えていること
仮説検定では、まず帰無仮説を立てます。これはしばしば と書かれます。計算では、この主張を正しいものとして扱います。
p値が答えるのは、次の問いです。
p値が小さいなら、観測されたデータは のもとでは比較的珍しいことを意味します。p値が小さくないなら、そのモデルのもとでデータは特に珍しいとはいえません。
この結論は、どの検定を使ったか、その背後にある仮定、そして「少なくともこれほど極端」が何を意味するかに依存します。両側検定と片側検定では、同じデータから異なるp値が出ることがあります。
p値の例: の解釈
ある学校が、新しい指導法と現在の指導法を比較するとします。帰無仮説は、新しい方法によって平均テスト得点に差は生じない、というものです。
選んだ統計的検定を行った結果、 になりました。
正しい解釈は次のとおりです。
帰無仮説が正しく、さらに検定の仮定が妥当だとすると、「差がない」という状態からこれほど、またはそれ以上に離れたデータは、約 の頻度で起こることになります。
これは帰無仮説に反する証拠です。研究者が分析前に有意水準 を決めていたなら、 なので、この結果を統計的に有意と判断します。
ただし、ここで言っていないことに注意してください。
- 帰無仮説が正しい確率が だと言っているわけではありません。
- 新しい指導法の効果が大きいと言っているわけではありません。
- この結果が の確率で再現されると言っているわけではありません。
これらは別の問いです。
p値が誤読されやすい理由
p値が小さいというのは、帰無仮説が完全に正しいなら、そのデータを説明しにくいという意味です。これは有用な証拠になりえますが、それだけで話は終わりません。
標本サイズが十分大きければ、ごく小さな効果でも小さなp値になることがあります。逆に、実際には重要な効果があっても、標本が小さすぎたりデータのばらつきが大きかったりすると、小さなp値に達しないことがあります。
そのため、p値は効果量、信頼区間、研究デザインとあわせて読む必要があります。
よくあるp値の誤り
誤り1:p値を とみなす
p値は、 が正しいと仮定して計算されます。データを見たあとで が正しい確率ではありません。
誤り2:統計的有意性と重要性を同一視する
統計的に有意というのは、特定の検定であらかじめ決めた基準を超えたという意味にすぎません。その効果が実際に重要かどうかはわかりません。
誤り3:p値が大きいことを効果がない証拠と読む
p値が大きくても、帰無仮説が証明されたことにはなりません。その分析では、それに反する強い証拠が得られなかったというだけです。研究の検出力が不足していたり、ノイズが大きかったり、問いに対して設計が適切でなかったりする可能性もあります。
誤り4: と を正反対のものとして扱う
これらの値は非常に近いものです。厳密な閾値は意思決定には役立つことがありますが、根拠となる証拠は通常、ある小数点の位置で劇的に飛ぶのではなく、なだらかに変化します。
p値が役立つ場面
p値は、実験、調査、A/Bテスト、臨床研究、品質管理など、多くの分野の正式な仮説検定で使われます。
特に、帰無仮説が明確に定義され、検定が適切に選ばれ、モデルの仮定が少なくともある程度は妥当といえる場合に有用です。
こうした条件が弱いと、p値は精密に見えても、結論は不安定になりえます。
p値を手早く解釈する方法
論文、レポート、ソフトウェアの出力でp値を見たら、次の順に確認してください。
- 帰無仮説は正確には何か?
- このp値はどの検定から得られたか?
- 検定の仮定は妥当か?
- 効果量と信頼区間はどうなっているか?
- 有意性の閾値は分析前に決められていたか?
この短いチェックリストで、ほとんどの解釈ミスを防げます。
似た解釈を自分でも試してみる
「統計的に有意」と報告されている結果を1つ取り上げて、次の形で平易な言葉に言い換えてみてください。
「もし帰無仮説が正しければ、これほど極端、またはそれ以上に極端な結果は、約 の頻度で起こる。」
そのうえで、その報告に効果量や信頼区間も示されているか確認してください。これが、単なる閾値の追跡から実際の解釈へ進む最も手早い方法です。