Cây quyết định — Entropy, Gini và Random Forest

Cây quyết định dự đoán bằng cách đặt ra một chuỗi câu hỏi như "đã hoàn thành bài kiểm tra luyện tập chưa?" hoặc "thu nhập trên $50{,}000$ ?" Trong cây phân loại, câu hỏi tốt nhất thường là câu hỏi làm cho các nút con ít bị trộn lẫn hơn nút cha. Đó là lúc entropy và độ hỗn tạp Gini xuất hiện.

Random forest dùng cùng ý tưởng cơ bản, nhưng lấy trung bình từ nhiều cây thay vì chỉ tin vào một cây riêng lẻ. Nếu bạn chỉ cần ý chính, hãy nhớ điều này: entropy và Gini giúp cây chọn cách chia, còn random forest giúp giảm tính bất ổn của một cây đơn.

Entropy Và Gini Trong Cây Quyết Định Đo Điều Gì

Entropy và độ hỗn tạp Gini đều là các cách chấm điểm mức độ trộn lẫn của một nút phân loại.

Nếu một nút chứa các xác suất lớp $p_1, p_2, \dots, p_k$ , thì một công thức entropy phổ biến là

H = -\sum_{i=1}^k p_i \log_2 p_i

Công thức này được dùng cho cây phân loại. Cơ số của logarit làm thay đổi thang đo, nhưng không làm thay đổi cách xếp hạng điểm chia nào là tốt nhất.

Độ hỗn tạp Gini là

G = 1 - \sum_{i=1}^k p_i^2

Cả hai đại lượng đều bằng $0$ khi một nút hoàn toàn thuần nhất. Cả hai đều tăng lên khi các lớp bị trộn lẫn nhiều hơn.

Trong thực tế, entropy và Gini thường xếp hạng các cách chia ứng viên khá giống nhau. Entropy có cách diễn giải trực tiếp theo lý thuyết thông tin, còn Gini thì hơi đơn giản hơn để tính.

Cây Quyết Định Chọn Một Điểm Chia Như Thế Nào

Với entropy, một quy tắc phổ biến là information gain:

\text{Information Gain} = H(\text{parent}) - \sum_j \frac{n_j}{n} H(\text{child}_j)

Ở đây, $n$ là số mẫu trong nút cha và $n_j$ là số mẫu trong nút con $j$ .

Với Gini, ý tưởng là tương tự: tính độ hỗn tạp có trọng số của các nút con và ưu tiên cách chia làm giảm nó nhiều nhất.

Điều kiện của bài toán rất quan trọng: entropy và Gini là tiêu chuẩn chuẩn cho cây phân loại. Cây hồi quy thường dùng một quy tắc khác, chẳng hạn như giảm phương sai, vì biến mục tiêu là số chứ không phải phân loại.

Ví Dụ Tính Tay: Entropy Và Gini Cho Một Điểm Chia

Giả sử một nút chứa $6$ ví dụ huấn luyện cho bài toán dự đoán đậu/rớt:

$3$ là Đậu
$3$ là Rớt

Vậy nút cha bị trộn đều.

Entropy của nó là

H_{\text{parent}} = -\frac{3}{6}\log_2\left(\frac{3}{6}\right) - \frac{3}{6}\log_2\left(\frac{3}{6}\right) = 1

Độ hỗn tạp Gini của nó là

G_{\text{parent}} = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 0.5

Bây giờ hãy kiểm tra cách chia "đã hoàn thành bài kiểm tra luyện tập chưa?"

Nhánh Có: $4$ ví dụ, gồm $3$ Đậu và $1$ Rớt
Nhánh Không: $2$ ví dụ, gồm $0$ Đậu và $2$ Rớt

Với nhánh Có,

H_{\text{yes}} = -\frac{3}{4}\log_2\left(\frac{3}{4}\right) - \frac{1}{4}\log_2\left(\frac{1}{4}\right) \approx 0.811

và

G_{\text{yes}} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375

Với nhánh Không, nút là thuần nhất, nên

H_{\text{no}} = 0, \qquad G_{\text{no}} = 0

Entropy có trọng số sau khi chia là

\frac{4}{6}(0.811) + \frac{2}{6}(0) \approx 0.541

Vậy information gain là

1 - 0.541 \approx 0.459

Gini có trọng số sau khi chia là

\frac{4}{6}(0.375) + \frac{2}{6}(0) = 0.25

Vậy độ giảm Gini là

0.5 - 0.25 = 0.25

Cả hai thước đo đều cho thấy cách chia này tốt hơn việc giữ nguyên nút cha không chia, vì độ hỗn tạp có trọng số đều giảm trong cả hai trường hợp.

Vì Sao Cây Quyết Định Hợp Lý Về Mặt Trực Giác

Cây rất dễ đọc vì nó phản ánh cách con người thường giải thích quyết định: "nếu điều này đúng thì đi sang trái; nếu không thì đi sang phải." Điều đó làm cây trở nên hữu ích khi bạn cần một mô hình có thể kiểm tra, giải thích hoặc chuyển thành các quy tắc dễ đọc cho con người.

Chúng cũng rất linh hoạt. Một cây có thể nắm bắt các mẫu phi tuyến và tương tác giữa các đặc trưng mà không cần ép toàn bộ tập dữ liệu vào một phương trình toàn cục duy nhất.

Vì Sao Random Forest Thường Hoạt Động Tốt Hơn

Một cây đơn thì dễ diễn giải, nhưng có thể không ổn định. Một thay đổi nhỏ trong dữ liệu có thể tạo ra một cây khác đi đáng kể.

Random forest làm giảm sự bất ổn đó bằng cách xây dựng nhiều cây thay vì một cây. Công thức thường dùng là:

lấy mẫu dữ liệu huấn luyện có hoàn lại cho mỗi cây
chỉ xét một tập con ngẫu nhiên của các đặc trưng tại mỗi điểm chia
kết hợp dự đoán từ các cây

Với phân loại, forest thường dự đoán bằng bỏ phiếu đa số. Với hồi quy, nó thường lấy trung bình đầu ra của các cây.

Sự đánh đổi khá rõ ràng. Random forest thường chính xác hơn và ổn định hơn một cây đơn, nhưng khó giải thích như một bộ quy tắc gọn gàng duy nhất.

Những Sai Lầm Thường Gặp Với Cây Quyết Định

Xem Entropy Và Gini Là Hai Kiểu Dự Đoán Khác Nhau

Chúng là tiêu chí chia, không phải hai họ mô hình riêng biệt. Dù dùng cách nào thì mô hình vẫn là cây quyết định.

Quên Mất Điều Kiện Phân Loại

Entropy và Gini là tiêu chuẩn chuẩn cho cây phân loại. Nếu biến mục tiêu là số, cây thường dùng quy tắc dựa trên phương sai hoặc sai số thay thế.

Theo Đuổi Độ Thuần Nhất Hoàn Hảo Quá Sâu

Nếu bạn cứ tiếp tục chia cho đến khi mọi lá gần như hoàn hảo trên tập huấn luyện, cây có thể bị quá khớp. Giới hạn độ sâu, kích thước lá tối thiểu hoặc cắt tỉa đều có lý do tồn tại.

Cho Rằng Random Forest Tự Giải Thích Được

Forest thường dự đoán tốt hơn, nhưng kém minh bạch hơn một cây đơn. Nếu khả năng diễn giải là yêu cầu quan trọng nhất, một cây được kiểm soát cẩn thận vẫn có thể là công cụ tốt hơn.

Khi Nào Nên Dùng Cây Quyết Định Hoặc Random Forest

Cây quyết định xuất hiện trong các bài toán phân loại và hồi quy trong tài chính, y học, vận hành, marketing và nhiều bối cảnh ứng dụng khác. Chúng hữu ích khi mối quan hệ giữa đầu vào và đầu ra không được mô tả tốt bằng một mô hình đường thẳng và khi các lời giải thích dạng quy tắc là quan trọng.

Hãy dùng một cây đơn khi khả năng diễn giải là quan trọng nhất và bạn cần kiểm tra đường đi ra quyết định. Hãy dùng random forest khi chất lượng dự đoán và độ ổn định quan trọng hơn việc có một cây gọn để đọc từng dòng.

Thử Một Bài Tương Tự

Lấy một tập dữ liệu gán nhãn nhỏ với hai lớp và thử hai cách chia đầu tiên có thể. Tính tỷ lệ lớp trong mỗi nút con, rồi so sánh entropy có trọng số hoặc Gini có trọng số. Tự giải một trường hợp nhỏ bằng tay thường là cách nhanh nhất để hiểu chắc logic chia.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →