Pohon keputusan membuat prediksi dengan mengajukan serangkaian pertanyaan seperti "sudah menyelesaikan kuis latihan?" atau "pendapatan di atas ?" Dalam pohon klasifikasi, pertanyaan terbaik biasanya adalah yang membuat node anak kurang tercampur dibanding node induk. Di sinilah entropi dan impuritas Gini berperan.
Random forest memakai gagasan dasar yang sama, tetapi merata-ratakan banyak pohon alih-alih mengandalkan satu pohon saja. Jika Anda hanya butuh ide intinya, ingat ini: entropi dan Gini membantu pohon memilih split, dan random forest membantu mengurangi ketidakstabilan dari satu pohon tunggal.
Entropi dan Gini pada Pohon Keputusan: Apa yang Diukur
Entropi dan impuritas Gini sama-sama merupakan cara untuk menilai seberapa tercampur sebuah node klasifikasi.
Jika sebuah node memiliki probabilitas kelas , maka salah satu rumus entropi yang umum adalah
Rumus ini digunakan untuk pohon klasifikasi. Basis logaritma mengubah skala, tetapi tidak mengubah split mana yang mendapat peringkat terbaik.
Impuritas Gini adalah
Kedua skor bernilai ketika sebuah node benar-benar murni. Keduanya menjadi lebih besar ketika kelas-kelas semakin tercampur.
Dalam praktiknya, entropi dan Gini sering memberi peringkat yang mirip untuk kandidat split. Entropi punya interpretasi langsung dalam teori informasi, sedangkan Gini sedikit lebih sederhana untuk dihitung.
Bagaimana Pohon Keputusan Memilih Split
Untuk entropi, aturan yang umum dipakai adalah information gain:
Di sini, adalah jumlah sampel pada node induk dan adalah jumlah sampel pada node anak ke-.
Untuk Gini, idenya sejajar: hitung impuritas tertimbang pada node anak dan pilih split yang paling banyak menurunkannya.
Kondisinya penting: entropi dan Gini adalah standar untuk pohon klasifikasi. Pohon regresi biasanya memakai aturan yang berbeda, seperti pengurangan varians, karena targetnya numerik, bukan kategorikal.
Contoh Hitung: Entropi dan Gini untuk Satu Split
Misalkan sebuah node berisi contoh pelatihan untuk prediksi lulus/gagal:
- adalah Lulus
- adalah Gagal
Jadi node induk tercampur secara seimbang.
Entropinya adalah
Impuritas Gininya adalah
Sekarang uji split "menyelesaikan kuis latihan?"
- Cabang Ya: contoh, dengan Lulus dan Gagal
- Cabang Tidak: contoh, dengan Lulus dan Gagal
Untuk cabang Ya,
dan
Untuk cabang Tidak, node tersebut murni, jadi
Entropi tertimbang setelah split adalah
Jadi information gain-nya adalah
Gini tertimbang setelah split adalah
Jadi penurunan Gininya adalah
Kedua ukuran ini sama-sama mengatakan bahwa split ini lebih baik daripada membiarkan node induk tanpa split, karena impuritas tertimbang turun dalam kedua kasus.
Mengapa Pohon Keputusan Masuk Akal Secara Intuitif
Pohon mudah dibaca karena mencerminkan cara orang sering menjelaskan keputusan: "jika ini benar, ke kiri; jika tidak, ke kanan." Itu membuat pohon berguna ketika Anda membutuhkan model yang bisa diperiksa, dijelaskan, atau diubah menjadi aturan yang mudah dibaca manusia.
Pohon juga fleksibel. Sebuah pohon dapat menangkap pola nonlinier dan interaksi antarfitur tanpa memaksakan satu persamaan global pada seluruh dataset.
Mengapa Random Forest Sering Bekerja Lebih Baik
Satu pohon tunggal mudah diinterpretasikan, tetapi bisa tidak stabil. Perubahan kecil pada data dapat menghasilkan pohon yang terlihat cukup berbeda.
Random forest mengurangi ketidakstabilan itu dengan membangun banyak pohon, bukan hanya satu. Resep yang umum adalah:
- ambil sampel data pelatihan dengan replacement untuk setiap pohon
- pertimbangkan hanya subset fitur acak pada setiap split
- gabungkan prediksi dari semua pohon
Untuk klasifikasi, forest biasanya memprediksi dengan voting mayoritas. Untuk regresi, forest biasanya merata-ratakan keluaran dari semua pohon.
Tradeoff-nya sederhana. Random forest sering lebih akurat dan lebih stabil daripada satu pohon tunggal, tetapi lebih sulit dijelaskan sebagai satu kumpulan aturan yang rapi.
Kesalahan Umum pada Pohon Keputusan
Menganggap Entropi dan Gini sebagai Jenis Prediksi yang Berbeda
Keduanya adalah kriteria split, bukan keluarga model yang terpisah. Modelnya tetap pohon keputusan dalam kedua kasus.
Melupakan Kondisi Klasifikasi
Entropi dan Gini adalah standar untuk pohon klasifikasi. Jika targetnya numerik, pohon biasanya memakai aturan berbasis varians atau error sebagai gantinya.
Terlalu Mengejar Kemurnian Sempurna
Jika Anda terus melakukan split sampai setiap daun hampir sempurna pada data pelatihan, pohon bisa mengalami overfitting. Batas kedalaman, ukuran minimum daun, atau pruning ada alasannya.
Menganggap Random Forest Menjelaskan Dirinya Sendiri
Forest sering memberi prediksi yang lebih baik, tetapi kurang transparan dibanding satu pohon tunggal. Jika interpretabilitas adalah syarat utama, satu pohon yang dikendalikan dengan baik mungkin tetap menjadi alat yang lebih tepat.
Kapan Menggunakan Pohon Keputusan atau Random Forest
Pohon keputusan muncul dalam tugas klasifikasi dan regresi di bidang keuangan, kedokteran, operasi, pemasaran, dan banyak konteks terapan lainnya. Pohon ini berguna ketika hubungan antara input dan output tidak dijelaskan dengan baik oleh model garis lurus dan ketika penjelasan berbentuk aturan itu penting.
Gunakan satu pohon ketika interpretabilitas paling penting dan Anda perlu memeriksa jalur keputusan. Gunakan random forest ketika kualitas prediksi dan stabilitas lebih penting daripada memiliki satu pohon ringkas yang bisa dibaca baris demi baris.
Coba Soal Serupa
Ambil dataset kecil berlabel dengan dua kelas dan uji dua kemungkinan split pertama. Hitung proporsi kelas pada setiap node anak, lalu bandingkan entropi tertimbang atau Gini tertimbang. Menyelesaikan satu kasus kecil dengan tangan sering menjadi cara tercepat untuk benar-benar memahami logika split.
Butuh bantuan mengerjakan soal?
Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.
Buka GPAI Solver →