Karar Ağaçları — Entropi, Gini ve Random Forest

Bir karar ağacı, "alıştırma testini tamamladı mı?" veya "geliri $50{,}000$ ’in üzerinde mi?" gibi art arda sorular sorarak tahmin yapar. Bir sınıflandırma ağacında en iyi soru, genellikle çocuk düğümleri ebeveyn düğümden daha az karışık hâle getiren sorudur. Entropi ve Gini safsızlığı tam burada devreye girer.

Random forest aynı temel fikri kullanır, ancak tek bir ağaca güvenmek yerine birçok ağacın ortalamasını alır. Yalnızca ana fikre ihtiyacınız varsa şunu hatırlayın: entropi ve Gini, ağacın bölünmeleri seçmesine yardım eder; random forest ise tek bir ağacın kararsızlığını azaltmaya yardımcı olur.

Karar Ağacında Entropi ve Gini: Neyi Ölçerler?

Entropi ve Gini safsızlığı, bir sınıflandırma düğümünün ne kadar karışık olduğunu puanlamanın iki yoludur.

Bir düğüm $p_1, p_2, \dots, p_k$ sınıf olasılıklarını içeriyorsa, yaygın bir entropi formülü şöyledir:

H = -\sum_{i=1}^k p_i \log_2 p_i

Bu formül sınıflandırma ağaçlarında kullanılır. Logaritmanın tabanı ölçeği değiştirir, ancak hangi bölünmenin en iyi sırada yer aldığını değiştirmez.

Gini safsızlığı ise şöyledir:

G = 1 - \sum_{i=1}^k p_i^2

Her iki ölçü de bir düğüm tamamen saf olduğunda $0$ olur. Sınıflar daha fazla karıştıkça ikisi de büyür.

Pratikte entropi ve Gini, aday bölünmeleri çoğu zaman benzer şekilde sıralar. Entropinin bilgi kuramı açısından doğrudan bir yorumu vardır; Gini ise hesaplama açısından biraz daha basittir.

Bir Karar Ağacı Bölünmeyi Nasıl Seçer?

Entropi için yaygın bir kural bilgi kazancıdır:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Burada $n$ , ebeveyn düğümdeki örnek sayısıdır ve $n_j$ , $j$ numaralı çocuk düğümdeki örnek sayısıdır.

Gini için fikir paraleldir: ağırlıklı çocuk düğüm safsızlığını hesaplayın ve bunu en çok azaltan bölünmeyi tercih edin.

Koşul önemlidir: entropi ve Gini, sınıflandırma ağaçları için standarttır. Regresyon ağacı ise genellikle varyans azalması gibi farklı bir kural kullanır, çünkü hedef kategorik değil sayısaldır.

Çözümlü Örnek: Tek Bir Bölünme İçin Entropi ve Gini

Bir düğümün geçme/kalma tahmini için $6$ eğitim örneği içerdiğini varsayalım:

$3$ tanesi Geçti
$3$ tanesi Kaldı

Yani ebeveyn düğüm eşit biçimde karışıktır.

Entropisi şöyledir:

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Gini safsızlığı ise şöyledir:

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Şimdi "alıştırma testini tamamladı mı?" bölünmesini deneyelim:

Evet dalı: $4$ örnek, bunların $3$ ’ü Geçti ve $1$ ’i Kaldı
Hayır dalı: $2$ örnek, bunların $0$ ’ı Geçti ve $2$ ’si Kaldı

Evet dalı için,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Hayır dalı için düğüm saftır, dolayısıyla

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

Bölünmeden sonraki ağırlıklı entropi şöyledir:

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Dolayısıyla bilgi kazancı

1 - 0.541 \approx 0.459

Bölünmeden sonraki ağırlıklı Gini şöyledir:

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Dolayısıyla Gini azalması

0.5 - 0.25 = 0.25

Her iki ölçü de bu bölünmenin, ebeveyn düğümü bölmeden bırakmaktan daha iyi olduğunu söyler; çünkü her iki durumda da ağırlıklı safsızlık azalır.

Karar Ağaçları Sezgisel Olarak Neden Mantıklıdır?

Bir ağaç okunması kolaydır çünkü insanların kararları açıklama biçimini yansıtır: "bu doğruysa sola git, değilse sağa git." Bu yüzden ağaçlar, incelenebilen, açıklanabilen veya insanın okuyabileceği kurallara dönüştürülebilen bir modele ihtiyaç duyduğunuzda kullanışlıdır.

Ayrıca esnektirler. Bir ağaç, tüm veri kümesine tek bir genel denklem dayatmadan doğrusal olmayan örüntüleri ve özellik etkileşimlerini yakalayabilir.

Random Forest Neden Çoğu Zaman Daha İyi Çalışır?

Tek bir ağacı yorumlamak kolaydır, ancak kararsız olabilir. Verideki küçük bir değişiklik, belirgin biçimde farklı bir ağaç üretebilir.

Random forest bu kararsızlığı, bir yerine birçok ağaç kurarak azaltır. Yaygın tarif şöyledir:

her ağaç için eğitim verisinden yerine koyarak örnekleme yapın
her bölünmede yalnızca rastgele bir özellik alt kümesini değerlendirin
ağaçlar arasındaki tahminleri birleştirin

Sınıflandırmada orman genellikle çoğunluk oyu ile tahmin yapar. Regresyonda ise genellikle ağaç çıktılarının ortalamasını alır.

Ödünleşim açıktır. Random forest çoğu zaman tek bir ağaçtan daha doğru ve daha kararlıdır, ancak tek ve temiz bir kural kümesi olarak açıklanması daha zordur.

Karar Ağaçlarında Yaygın Hatalar

Entropi ve Gini’yi Farklı Tahmin Türleri Sanmak

Bunlar ayrı model aileleri değil, bölünme ölçütleridir. Her iki durumda da model hâlâ bir karar ağacıdır.

Sınıflandırma Koşulunu Unutmak

Entropi ve Gini, sınıflandırma ağaçları için standarttır. Hedef sayısalsa ağaç genellikle bunun yerine varyans temelli veya hata temelli bir kural kullanır.

Mükemmel Saflığın Peşinden Fazla Derine Gitmek

Her yaprak eğitim kümesinde neredeyse kusursuz olana kadar bölmeye devam ederseniz, ağaç aşırı öğrenebilir. Derinlik sınırları, minimum yaprak boyutları veya budama boşuna yoktur.

Random Forest’ın Kendini Açıkladığını Varsaymak

Bir orman çoğu zaman daha iyi tahmin yapar, ancak tek bir ağaçtan daha az şeffaftır. Yorumlanabilirlik ana gereksinimse, dikkatle kontrol edilmiş tek bir ağaç yine de daha iyi araç olabilir.

Ne Zaman Karar Ağacı veya Random Forest Kullanılır?

Karar ağaçları; finans, tıp, operasyon, pazarlama ve daha birçok uygulamalı alanda sınıflandırma ve regresyon görevlerinde karşımıza çıkar. Girdiler ile çıktılar arasındaki ilişki düz bir çizgi modeliyle iyi açıklanmıyorsa ve kural benzeri açıklamalar önemliyse kullanışlıdırlar.

Yorumlanabilirlik en önemli konuysa ve karar yolunu incelemeniz gerekiyorsa tek bir ağaç kullanın. Tahmin kalitesi ve kararlılık, satır satır okuyabileceğiniz tek bir kompakt ağaca sahip olmaktan daha önemliyse random forest kullanın.

Benzer Bir Problem Deneyin

İki sınıflı küçük bir etiketli veri kümesi alın ve iki olası ilk bölünmeyi test edin. Her çocuk düğümdeki sınıf oranlarını hesaplayın, ardından ağırlıklı entropi veya ağırlıklı Gini’yi karşılaştırın. Küçük bir örneği elle çözmek, bölünme mantığını kavramanın çoğu zaman en hızlı yoludur.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →