決定木 — エントロピー、ジニ不純度、ランダムフォレスト

決定木は、「練習クイズを完了したか？」や「収入は $50{,}000$ ドルを超えているか？」のような一連の質問をして予測します。分類木では、最良の質問は通常、親ノードよりも子ノードの混ざり具合を小さくするものです。そこで登場するのがエントロピーとジニ不純度です。

ランダムフォレストも基本の考え方は同じですが、1本の木だけを信じるのではなく、多数の木の平均を使います。要点だけ覚えるならこうです。エントロピーとジニは木が分割を選ぶのに役立ち、ランダムフォレストは単一の木の不安定さを減らすのに役立ちます。

決定木のエントロピーとジニは何を測るのか

エントロピーとジニ不純度は、どちらも分類ノードがどれだけ混ざっているかを評価する方法です。

あるノードにクラス確率 $p_1, p_2, \dots, p_k$ があるとき、よく使われるエントロピーの式は

H = -\sum_{i=1}^k p_i \log_2 p_i

です。

この式は分類木で使われます。対数の底を変えると尺度は変わりますが、どの分割が最良かという順位は変わりません。

ジニ不純度は

G = 1 - \sum_{i=1}^k p_i^2

です。

どちらの指標も、ノードが完全に純粋なら $0$ になります。クラスがより混ざるほど、どちらの値も大きくなります。

実際には、エントロピーとジニは候補となる分割を似たような順序で評価することが多いです。エントロピーには情報理論に基づく直接的な解釈があり、ジニは計算がやや簡単です。

決定木はどのように分割を選ぶのか

エントロピーでは、よく使われる基準が情報利得です。

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

ここで、 $n$ は親ノードのサンプル数、 $n_j$ は子ノード $j$ のサンプル数です。

ジニでも考え方は同じです。重み付きの子ノード不純度を計算し、それを最も大きく減らす分割を選びます。

条件は重要です。エントロピーとジニは分類木の標準的な基準です。回帰木では、目的変数がカテゴリではなく数値なので、通常は分散減少のような別の基準を使います。

例題：1つの分割に対するエントロピーとジニ

合否予測のための学習例が $6$ 個入ったノードを考えます。

$3$ 個は Pass
$3$ 個は Fail

したがって、親ノードはちょうど半々に混ざっています。

そのエントロピーは

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

です。

そのジニ不純度は

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

です。

次に、「練習クイズを完了したか？」という分割を試します。

Yes 分岐： $4$ 個の例があり、そのうち $3$ 個が Pass、 $1$ 個が Fail
No 分岐： $2$ 個の例があり、そのうち $0$ 個が Pass、 $2$ 個が Fail

Yes 分岐については、

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

であり、

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

です。

No 分岐ではノードが純粋なので、

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

です。

分割後の重み付きエントロピーは

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

です。

したがって、情報利得は

1 - 0.541 \approx 0.459

です。

分割後の重み付きジニは

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

です。

したがって、ジニ減少量は

0.5 - 0.25 = 0.25

です。

どちらの指標でも、この分割は親ノードを分割しない場合より良いと判断されます。なぜなら、どちらの場合も重み付き不純度が下がっているからです。

なぜ決定木は直感的にわかりやすいのか

木が読みやすいのは、人が判断を説明するときの流れをそのまま表しているからです。「これが真なら左へ、そうでなければ右へ」という形です。そのため、確認しやすく、説明しやすく、人が読めるルールに変換しやすいモデルが必要なときに決定木は役立ちます。

また、柔軟性もあります。木は、データ全体に1本の大域的な方程式を当てはめなくても、非線形なパターンや特徴量同士の相互作用を捉えられます。

ランダムフォレストのほうがうまくいくことが多い理由

単一の木は解釈しやすい一方で、不安定になりやすいです。データが少し変わるだけで、かなり異なる木ができることがあります。

ランダムフォレストは、1本ではなく多数の木を作ることで、その不安定さを減らします。一般的な手順は次のとおりです。

各木ごとに、復元抽出で学習データをサンプリングする
各分割で、特徴量のランダムな部分集合だけを候補にする
木ごとの予測をまとめる

分類では、通常は多数決で予測します。回帰では、通常は各木の出力を平均します。

トレードオフは明快です。ランダムフォレストは単一の木より高精度で安定しやすい一方、1つのすっきりしたルール集合として説明するのは難しくなります。

決定木でよくある間違い

エントロピーとジニを別々の予測モデルだと思う

これらは分割基準であって、別のモデル族ではありません。どちらを使ってもモデルは決定木です。

分類という条件を忘れる

エントロピーとジニは分類木の標準的な基準です。目的変数が数値なら、木は通常、代わりに分散ベースや誤差ベースの基準を使います。

完全な純粋性を深く追いすぎる

学習データ上で各葉がほぼ完全になるまで分割を続けると、木は過学習する可能性があります。深さ制限、葉の最小サンプル数、剪定が重要なのには理由があります。

ランダムフォレストは自動で説明可能だと思う

フォレストは予測性能が高いことが多いですが、単一の木より透明性は低いです。解釈しやすさが最重要なら、慎重に制御した1本の木のほうが適している場合もあります。

決定木とランダムフォレストはいつ使うべきか

決定木は、金融、医療、オペレーション、マーケティングなど、多くの応用分野の分類・回帰タスクで使われます。入力と出力の関係が直線モデルではうまく表せず、ルールのような説明が重要なときに有用です。

解釈しやすさが最優先で、判断の経路を確認したいなら単一の木を使います。予測精度や安定性のほうが、行ごとに読める1本のコンパクトな木より重要なら、ランダムフォレストを使います。

似た問題を試してみる

2クラスの小さなラベル付きデータセットを用意し、最初の分割候補を2つ試してみましょう。各子ノードのクラス比率を計算し、重み付きエントロピーまたは重み付きジニを比較します。小さな例を1つ手計算で解くことが、分割のロジックを最も早く身につける方法であることはよくあります。

問題の解き方でお困りですか？

問題をアップロードすると、検証済みのステップバイステップ解答が数秒で届きます。

GPAI Solver を開く →