Pohon Keputusan — Entropi, Gini & Random Forest

Pohon keputusan membuat prediksi dengan mengajukan serangkaian pertanyaan seperti "sudah menyelesaikan kuis latihan?" atau "pendapatan di atas $50{,}000$ ?" Dalam pohon klasifikasi, pertanyaan terbaik biasanya adalah yang membuat node anak kurang tercampur dibanding node induk. Di sinilah entropi dan impuritas Gini berperan.

Random forest memakai gagasan dasar yang sama, tetapi merata-ratakan banyak pohon alih-alih mengandalkan satu pohon saja. Jika Anda hanya butuh ide intinya, ingat ini: entropi dan Gini membantu pohon memilih split, dan random forest membantu mengurangi ketidakstabilan dari satu pohon tunggal.

Entropi dan Gini pada Pohon Keputusan: Apa yang Diukur

Entropi dan impuritas Gini sama-sama merupakan cara untuk menilai seberapa tercampur sebuah node klasifikasi.

Jika sebuah node memiliki probabilitas kelas $p_1, p_2, \dots, p_k$ , maka salah satu rumus entropi yang umum adalah

H = -\sum_{i=1}^k p_i \log_2 p_i

Rumus ini digunakan untuk pohon klasifikasi. Basis logaritma mengubah skala, tetapi tidak mengubah split mana yang mendapat peringkat terbaik.

Impuritas Gini adalah

G = 1 - \sum_{i=1}^k p_i^2

Kedua skor bernilai $0$ ketika sebuah node benar-benar murni. Keduanya menjadi lebih besar ketika kelas-kelas semakin tercampur.

Dalam praktiknya, entropi dan Gini sering memberi peringkat yang mirip untuk kandidat split. Entropi punya interpretasi langsung dalam teori informasi, sedangkan Gini sedikit lebih sederhana untuk dihitung.

Bagaimana Pohon Keputusan Memilih Split

Untuk entropi, aturan yang umum dipakai adalah information gain:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Di sini, $n$ adalah jumlah sampel pada node induk dan $n_j$ adalah jumlah sampel pada node anak ke- $j$ .

Untuk Gini, idenya sejajar: hitung impuritas tertimbang pada node anak dan pilih split yang paling banyak menurunkannya.

Kondisinya penting: entropi dan Gini adalah standar untuk pohon klasifikasi. Pohon regresi biasanya memakai aturan yang berbeda, seperti pengurangan varians, karena targetnya numerik, bukan kategorikal.

Contoh Hitung: Entropi dan Gini untuk Satu Split

Misalkan sebuah node berisi $6$ contoh pelatihan untuk prediksi lulus/gagal:

$3$ adalah Lulus
$3$ adalah Gagal

Jadi node induk tercampur secara seimbang.

Entropinya adalah

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Impuritas Gininya adalah

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Sekarang uji split "menyelesaikan kuis latihan?"

Cabang Ya: $4$ contoh, dengan $3$ Lulus dan $1$ Gagal
Cabang Tidak: $2$ contoh, dengan $0$ Lulus dan $2$ Gagal

Untuk cabang Ya,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

dan

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Untuk cabang Tidak, node tersebut murni, jadi

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

Entropi tertimbang setelah split adalah

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Jadi information gain-nya adalah

1 - 0.541 \approx 0.459

Gini tertimbang setelah split adalah

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Jadi penurunan Gininya adalah

0.5 - 0.25 = 0.25

Kedua ukuran ini sama-sama mengatakan bahwa split ini lebih baik daripada membiarkan node induk tanpa split, karena impuritas tertimbang turun dalam kedua kasus.

Mengapa Pohon Keputusan Masuk Akal Secara Intuitif

Pohon mudah dibaca karena mencerminkan cara orang sering menjelaskan keputusan: "jika ini benar, ke kiri; jika tidak, ke kanan." Itu membuat pohon berguna ketika Anda membutuhkan model yang bisa diperiksa, dijelaskan, atau diubah menjadi aturan yang mudah dibaca manusia.

Pohon juga fleksibel. Sebuah pohon dapat menangkap pola nonlinier dan interaksi antarfitur tanpa memaksakan satu persamaan global pada seluruh dataset.

Mengapa Random Forest Sering Bekerja Lebih Baik

Satu pohon tunggal mudah diinterpretasikan, tetapi bisa tidak stabil. Perubahan kecil pada data dapat menghasilkan pohon yang terlihat cukup berbeda.

Random forest mengurangi ketidakstabilan itu dengan membangun banyak pohon, bukan hanya satu. Resep yang umum adalah:

ambil sampel data pelatihan dengan replacement untuk setiap pohon
pertimbangkan hanya subset fitur acak pada setiap split
gabungkan prediksi dari semua pohon

Untuk klasifikasi, forest biasanya memprediksi dengan voting mayoritas. Untuk regresi, forest biasanya merata-ratakan keluaran dari semua pohon.

Tradeoff-nya sederhana. Random forest sering lebih akurat dan lebih stabil daripada satu pohon tunggal, tetapi lebih sulit dijelaskan sebagai satu kumpulan aturan yang rapi.

Kesalahan Umum pada Pohon Keputusan

Menganggap Entropi dan Gini sebagai Jenis Prediksi yang Berbeda

Keduanya adalah kriteria split, bukan keluarga model yang terpisah. Modelnya tetap pohon keputusan dalam kedua kasus.

Melupakan Kondisi Klasifikasi

Entropi dan Gini adalah standar untuk pohon klasifikasi. Jika targetnya numerik, pohon biasanya memakai aturan berbasis varians atau error sebagai gantinya.

Terlalu Mengejar Kemurnian Sempurna

Jika Anda terus melakukan split sampai setiap daun hampir sempurna pada data pelatihan, pohon bisa mengalami overfitting. Batas kedalaman, ukuran minimum daun, atau pruning ada alasannya.

Menganggap Random Forest Menjelaskan Dirinya Sendiri

Forest sering memberi prediksi yang lebih baik, tetapi kurang transparan dibanding satu pohon tunggal. Jika interpretabilitas adalah syarat utama, satu pohon yang dikendalikan dengan baik mungkin tetap menjadi alat yang lebih tepat.

Kapan Menggunakan Pohon Keputusan atau Random Forest

Pohon keputusan muncul dalam tugas klasifikasi dan regresi di bidang keuangan, kedokteran, operasi, pemasaran, dan banyak konteks terapan lainnya. Pohon ini berguna ketika hubungan antara input dan output tidak dijelaskan dengan baik oleh model garis lurus dan ketika penjelasan berbentuk aturan itu penting.

Gunakan satu pohon ketika interpretabilitas paling penting dan Anda perlu memeriksa jalur keputusan. Gunakan random forest ketika kualitas prediksi dan stabilitas lebih penting daripada memiliki satu pohon ringkas yang bisa dibaca baris demi baris.

Coba Soal Serupa

Ambil dataset kecil berlabel dengan dua kelas dan uji dua kemungkinan split pertama. Hitung proporsi kelas pada setiap node anak, lalu bandingkan entropi tertimbang atau Gini tertimbang. Menyelesaikan satu kasus kecil dengan tangan sering menjadi cara tercepat untuk benar-benar memahami logika split.

Butuh bantuan mengerjakan soal?

Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.

Buka GPAI Solver →