信頼区間とは、標本データにもとづいて母集団のパラメータとしてあり得る値の範囲を示したものです。統計の入門問題では、多くの場合次の形で表します。
誤差の範囲は、標本にどれだけ不確かさがあるか、そしてどれだけ高い信頼度を求めるかによって決まります。信頼水準が高いほど区間は広くなります。データの精度が高いほど区間は狭くなります。
信頼区間の意味をやさしく説明すると
信頼区間を見たとき、もっとも安全な解釈は、1つの完成した区間そのものではなく、その区間を作る方法についての説明だということです。同じ標本抽出の手順を何度も繰り返し、毎回同じ方法で区間を作ると、そのうち約の区間が真の母数を含みます。
つまり、信頼区間は推定値のまわりの不確かさを示す方法です。もっともらしい範囲を与えるものであり、保証ではありません。
信頼区間の公式
一般的な形は次のとおりです。
母平均に対しては、よく使われる形が2つあります。
この形は、母標準偏差 が既知である場合、または の臨界値を使う正規近似が妥当な場合に使います。
この形は、 が未知で、標本標準偏差 を使ってばらつきを推定する場合に使います。標本サイズが小さいときは、通常、母集団がおおよそ正規分布に従うという条件とあわせて用います。
このパターンは多くの場面で共通ですが、標準誤差の形は平均、比率、その他の母数によって変わります。
信頼区間の幅を変えるもの
特に重要なのは次の3つです。
- 信頼水準が高いほど、区間は広くなります。
- 標本サイズが大きいほど、通常は区間は狭くなります。
- データのばらつきが大きいほど、区間は広くなります。
これが基本的なトレードオフです。信頼度を高くすると、通常は精度を犠牲にします。
95%信頼区間の例
個の観測値からなる標本があり、平均が 、母標準偏差が とわかっているとします。区間を使って、母平均の 信頼区間を作りましょう。
まず次の式を使います。
の信頼水準では、 を使います。
次に標準誤差を計算します。
したがって、誤差の範囲は
区間を作ると、
となり、これは
を与えます。
実際的には、モデルの条件が妥当で、データがこの標本抽出過程から得られたと考えられるなら、からの間の値は母平均としてもっともらしいと解釈できます。
信頼区間でよくある間違い
よくある間違いの1つは、「真の母数がこの特定の区間に入る確率はである」と言ってしまうことです。標準的な頻度主義統計では、母数は固定されており、長期的な成功率をもつのは区間を作る手順のほうです。
もう1つの間違いは、条件を確認せずに誤った公式を使うことです。区間、区間、比率の区間では、同じ標準誤差を使いません。
また、母数の信頼区間と、生データそのもののばらつきを混同する学生もいます。信頼区間は推定値の不確かさについてのものであり、個々の観測値の大部分がどこに入るかを示すものではありません。
信頼区間が使われる場面
信頼区間は、世論調査、実験、品質管理、医療、経済学、日常的なデータ報告など、さまざまな場面で使われます。標本を使って、より大きな母集団について何かを述べたいときに役立ちます。
実際には、その区間を基準値や別の推定値と比べるときに特に重要になります。狭い区間は、広い区間よりも精密な結論を支えます。
似た問題に挑戦してみよう
、、 として、信頼区間を自分で求めてみましょう。そのあと標本サイズだけを変えて、誤差の範囲がどう変わるかを見てみてください。標本サイズが大きいほど通常は区間が狭くなる理由を直感的につかむ、もっとも手早い方法の1つです。