Hồi quy logistic là một mô hình dùng cho phân loại nhị phân. Nó kết hợp các đặc trưng đầu vào thành một điểm tuyến tính, đưa điểm đó qua hàm sigmoid, rồi tạo ra một số nằm giữa và ; theo mô hình đã được khớp, số này được diễn giải là xác suất ước lượng của lớp dương.
Dù có tên là "regression", hồi quy logistic thường được dùng để quyết định giữa hai lớp như đỗ/trượt, thư rác/không phải thư rác, hoặc vỡ nợ/không vỡ nợ. Từ "regression" ở đây nói đến công thức tuyến tính bên trong mô hình, không phải việc dự đoán một đầu ra liên tục.
Công thức hồi quy logistic trong một cái nhìn nhanh
Hồi quy logistic nhị phân sử dụng
với hàm sigmoid
Phần tuyến tính có thể là bất kỳ số thực nào. Hàm sigmoid nén giá trị đó vào khoảng , nên đầu ra có thể được dùng như một ước lượng xác suất.
Vì sao hàm sigmoid quan trọng
Nếu bạn dùng trực tiếp điểm tuyến tính thô làm xác suất, bạn có thể nhận được những giá trị không thể xảy ra như hoặc . Hàm sigmoid khắc phục điều đó bằng cách ánh xạ các điểm âm lớn về gần , các điểm dương lớn về gần , và các điểm gần về gần .
Điều đó cho ta một cách diễn giải thực tế:
- nếu rất âm, mô hình nghiêng về lớp
- nếu gần , mô hình không chắc chắn
- nếu rất dương, mô hình nghiêng về lớp
Đường cong dốc nhất gần . Vì vậy, một thay đổi nhỏ trong điểm số có thể làm xác suất thay đổi nhiều khi ở gần , nhưng thay đổi ít hơn nhiều khi xác suất đã gần hoặc .
Ví dụ hồi quy logistic có tính toán
Giả sử một mô hình dùng một đặc trưng và có
Bạn có thể xem là điểm kiểm tra và là "đỗ". Các hệ số ở đây chỉ là ví dụ để minh họa cơ chế hoạt động.
Nếu , thì
Vậy xác suất dự đoán là
Nếu , thì
và
Vì vậy, cùng một mô hình cho xác suất đỗ khoảng khi và khoảng khi . Điểm số tăng thêm , nhưng đầu ra cuối cùng vẫn nằm giữa và vì hàm sigmoid uốn kết quả thành một xác suất.
Nếu bây giờ bạn chọn ngưỡng , trường hợp thứ nhất được phân loại là lớp và trường hợp thứ hai là lớp . Bước cuối cùng đó phụ thuộc vào ngưỡng. Bản thân ước lượng xác suất thì không.
Một mẹo ngắn gọn hữu ích: với ngưỡng , lớp sẽ đổi đúng tại thời điểm , vì .
Hồi quy logistic trở thành bộ phân loại như thế nào
Đầu ra của mô hình là một ước lượng xác suất. Quy tắc phân loại được thêm vào sau đó.
Ví dụ, với ngưỡng :
- dự đoán lớp nếu
- dự đoán lớp nếu
Nhưng không phải lúc nào cũng là ngưỡng đúng. Nếu false positive và false negative có chi phí khác nhau, hoặc nếu các lớp bị mất cân bằng mạnh, một ngưỡng khác có thể hoạt động tốt hơn.
Ý nghĩa của các hệ số
Dấu của một hệ số cho bạn biết hướng tác động lên điểm tuyến tính :
- nếu , việc tăng sẽ làm tăng và có xu hướng làm tăng
- nếu , việc tăng sẽ làm giảm và có xu hướng làm giảm
Phần đó khá trực tiếp. Điểm tinh tế là xác suất không thay đổi tuyến tính theo đặc trưng, vì đường cong sigmoid không phải là một đường thẳng.
Trong hồi quy logistic chuẩn, mô hình tuyến tính nằm trên thang log-odds:
Điều này có nghĩa là mỗi lần một đặc trưng tăng thêm một đơn vị thì log-odds thay đổi tuyến tính, khi các đặc trưng khác được giữ cố định. Cách nói này chính xác hơn so với việc nói rằng xác suất thay đổi một lượng cố định.
Những lỗi thường gặp với hồi quy logistic
Xem đầu ra như một lớp được đảm bảo
Một dự đoán như không có nghĩa là sự kiện chắc chắn sẽ xảy ra. Nó có nghĩa là mô hình gán xác suất ước lượng khoảng cho lớp dương với đầu vào đó.
Cho rằng ngưỡng bắt buộc phải là
là lựa chọn phổ biến, nhưng đó là một lựa chọn chứ không phải quy luật. Ngưỡng tốt nhất phụ thuộc vào ứng dụng.
Nghĩ rằng xác suất thay đổi tuyến tính
Điểm số là tuyến tính theo các đầu vào, nhưng xác suất thì không. Một thay đổi một đơn vị trong một đặc trưng có thể tạo ra tác động khác nhau khi ở gần so với khi ở gần .
Quên rằng mô hình là nhị phân nếu không được mở rộng
Hồi quy logistic cơ bản xử lý hai lớp. Có các phiên bản đa lớp, nhưng đó là những phần mở rộng, không phải cùng một thiết lập nhị phân được viết theo cách khác.
Khi nào hồi quy logistic được sử dụng
Hồi quy logistic thường được dùng khi biến mục tiêu là có/không, chẳng hạn như phát hiện thư rác, có bệnh hay không, khách hàng rời bỏ, vỡ nợ khoản vay, hoặc kết quả đỗ/trượt.
Nó vẫn phổ biến vì đơn giản, nhanh và khá dễ diễn giải. Nó đặc biệt hữu ích khi bạn muốn có một bộ phân loại cơ sở, khi tập dữ liệu không quá lớn, hoặc khi bạn cần các xác suất ước lượng thay vì chỉ các nhãn cứng.
Một cách hình dung đơn giản
Hãy nghĩ về hồi quy logistic như một cỗ máy hai bước:
- Cộng dồn bằng chứng bằng một điểm tuyến tính.
- Chuyển điểm đó thành xác suất bằng hàm sigmoid.
Cách hình dung này là đủ để hiểu hầu hết các ví dụ nhập môn và để thấy vì sao hồi quy logistic nằm ở giao điểm giữa các mô hình tuyến tính và các bài toán phân loại.
Thử một bài toán hồi quy logistic tương tự
Hãy chọn một điểm số đơn giản như
Tính cho một vài giá trị của , chẳng hạn , và . Quan sát cách điểm tuyến tính thay đổi đều đặn trong khi xác suất uốn theo một đường cong hình chữ S. Sau đó thử một ngưỡng khác và xem khi nào lớp dự đoán thay đổi.
Cần trợ giúp giải bài?
Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.
Mở GPAI Solver →