統計におけるデータの種類は、変数が何を表しているかを示します。値が「赤」や「生物」のようなラベルなら、そのデータは質的です。値が数値の量を表すなら、そのデータは量的です。さらに量的データについては、もう1つ確認することがあります。それが離散的な個数なのか、連続的な測定値なのかという点です。
これは重要です。なぜなら、データの種類によって、どのグラフ・要約・モデルが適切かが変わるからです。平均は身長には役立ちますが、目の色には使えません。
質的データと量的データ
質的データはカテゴリを表す
質的データは、数値の量ではなく、性質・グループ・ラベルを表します。たとえば、車の色、血液型、国などが該当します。
この種類のデータは、カテゴリカルデータと呼ばれることもよくあります。
量的データは数値の量を表す
量的データは、数値としての量を記録します。その数は単なるラベルではなく、どれくらい、いくつ、どの程度離れているかを表します。
例としては、年齢、身長、テストの点数、飼っているペットの数などがあります。
離散データと連続データ
離散データは数えることで得られる
離散データは、通常数えることによって得られる量的データです。値は、ある許された値から次の値へ飛ぶように変化し、区間全体を埋めるわけではありません。
クラスの生徒数が離散的なのは、生徒を整数で数えるからです。通常の数え方では、人の生徒という値は意味をもちません。
連続データは測ることで得られる
連続データは、通常測定することによって得られる量的データです。原理的には、測定器具や状況に応じて、より細かい精度で記録できます。
身長、時間、気温は代表的な例です。ある人の身長は、使う精度に応じて cm、 cm、 cm のように表せます。
例題:生徒のデータを分類する
ある学校が、各生徒について次の4つの変数を記録しているとします。
- ホームルーム
- 兄弟姉妹の人数
- 通学時間
- 好きな教科
これらをどのように分類するか見てみましょう。
ホームルームは、グループを表すラベルなので質的データです。
兄弟姉妹の人数は、 というように数える値なので、量的かつ離散データです。
通学時間は、測定される値なので、量的かつ連続データです。最も近い1分に丸めることはあっても、もとの変数はそれより細かく変化しえます。
好きな教科は、量ではなくカテゴリ名を表すので質的データです。
この例は、基本的な判断の流れを示しています。まず「ラベルか量か」を考えます。量であれば、次に「個数か測定か」を考えます。
どのデータ型かを見分ける方法
次のような目安が使えます。
- 値を平均しても意味がないなら、そのデータはおそらく質的データです。
- 平均することに意味があるなら、そのデータはおそらく量的データです。
- 量的データの値が、別々のものを数えて得られるなら、通常は離散データです。
- 尺度に沿って測定して得られるなら、通常は連続データです。
これは実用的な近道であって、厳密な証明ではありません。変数の文脈はやはり重要です。
統計におけるデータの種類でよくある間違い
数値コードを本当の量だと考えてしまう
アンケートの回答が 、、 と符号化されていても、その数は実際の量ではなくカテゴリを表しているだけかもしれません。データに数が入っているからといって、自動的に量的変数になるわけではありません。
整数で記録されていれば必ず離散だと思い込む
測定値が整数に見えるのは、単に丸められているからかもしれません。たとえば、体重が 、、 キログラムと記録されていても、数えたのではなく測定したなら、それは連続データです。
変数そのものと保存方法を混同する
通学時間を最も近い1分に丸めると、整数として保存されることがよくあります。しかし、変数そのものは依然として連続データです。記録形式が、もとの種類を変えるとは限りません。
これらのデータ型は統計のどこで使われるか
この分類は、グラフ・要約・統計手法を選ぶたびに重要になります。
質的データでは、棒グラフや度数表がよく使われます。量的データでは、ヒストグラム、箱ひげ図、平均、中央値、標準偏差などが役立つことがあります。
また、離散か連続かの違いは、確率モデルを選ぶときにも重要です。個数のために作られたモデルもあれば、連続的な測定値のために作られたモデルもあります。
自分でもやってみよう
靴のサイズ、郵便番号、気温、メールの件数、髪の色など、日常生活から5つの変数を選び、それぞれを分類してみましょう。判断があいまいに感じる場合は、その値がラベルなのか、個数なのか、測定値なのかという決め手をはっきり書いてみてください。
さらに一歩進めたいなら、それぞれの変数に対して、どのグラフや要約が適切で、どれが適切でないかも考えてみましょう。