Phân tích hồi quy giải thích cách một biến kết quả thay đổi khi một hay nhiều biến dự báo thay đổi. Dùng hồi quy tuyến tính đơn khi có một biến dự báo và biến kết quả dạng số, hồi quy tuyến tính bội khi có nhiều biến dự báo và biến kết quả dạng số, và hồi quy logistic khi biến kết quả là nhị phân như đậu/rớt.
Sự phân biệt này trả lời nhanh câu hỏi tìm kiếm chính:
- Hồi quy tuyến tính đơn: một biến dự báo, biến kết quả dạng số.
- Hồi quy tuyến tính bội: nhiều biến dự báo, biến kết quả dạng số.
- Hồi quy logistic: biến kết quả nhị phân như có/không, đậu/rớt hoặc nhấp/không nhấp.
Sau đó, phần việc thực sự là diễn giải. Một hệ số chỉ có ý nghĩa như bạn nghĩ nếu mô hình phù hợp với loại biến kết quả và khớp với dữ liệu ở mức hợp lý.
Phân tích hồi quy dùng để làm gì
Hồi quy không chỉ là vẽ một đường thẳng đi qua các điểm. Nó xây dựng một quy tắc liên kết các biến dự báo với giá trị kỳ vọng của biến kết quả, để bạn có thể giải thích mẫu hình hoặc đưa ra dự đoán.
Trong hồi quy tuyến tính, quy tắc đó là một mô hình đường thẳng cho giá trị kỳ vọng của biến kết quả. Trong hồi quy logistic, mô hình được xây dựng cho xác suất, nên giá trị dự đoán luôn nằm giữa và .
Hồi quy tuyến tính đơn: một biến dự báo, biến kết quả dạng số
Hồi quy tuyến tính đơn dùng một biến dự báo và một biến kết quả dạng số :
Ở đây là giá trị dự đoán của biến kết quả, là hệ số chặn, và là hệ số góc.
Hệ số góc cho biết mức thay đổi dự đoán của khi tăng một đơn vị, nếu mô hình đường thẳng là một xấp xỉ hợp lý trên khoảng giá trị bạn quan tâm.
Hồi quy tuyến tính bội: nhiều biến dự báo, một biến kết quả dạng số
Hồi quy tuyến tính bội giữ nguyên ý tưởng cơ bản, nhưng dùng nhiều hơn một biến dự báo:
Mô hình này hữu ích khi chỉ một biến dự báo là quá đơn giản. Trong thực tế, biến kết quả thường phụ thuộc vào nhiều yếu tố cùng lúc.
Điểm thay đổi quan trọng trong diễn giải là: là mức thay đổi dự đoán của khi tăng một đơn vị, trong khi các biến dự báo khác đã đưa vào mô hình được giữ cố định.
Điều kiện “giữ các biến dự báo khác cố định” chính là điểm làm hồi quy bội khác với một loạt so sánh một biến.
Hồi quy logistic: biến kết quả nhị phân và xác suất
Hồi quy logistic dùng cho biến kết quả nhị phân, không phải biến số. Nếu biến kết quả là những trường hợp như được nhận hay không được nhận, rời bỏ hay ở lại, hoặc đậu hay rớt, thì hồi quy tuyến tính thường không phải công cụ phù hợp.
Thay vì mô hình hóa trực tiếp biến kết quả bằng một đường thẳng, hồi quy logistic mô hình hóa log-odds của biến kết quả:
trong đó .
Vế bên trái là log-odds, không phải chính xác suất. Cách thiết lập này quan trọng vì xác suất phải nằm giữa và : một mô hình đường thẳng thông thường có thể dự đoán những giá trị không thể xảy ra như hoặc , còn hồi quy logistic thì không.
Ví dụ minh họa: dự đoán điểm số so với dự đoán đậu/rớt
Giả sử một giáo viên muốn nghiên cứu kết quả học tập của học sinh.
Nếu biến kết quả là điểm thi và biến dự báo duy nhất là số giờ học, thì một mô hình tuyến tính đơn có thể là
Nếu một học sinh học giờ, thì điểm dự đoán là
Ở đây, hệ số góc cho biết điểm dự đoán tăng điểm cho mỗi giờ học thêm, nếu mô hình tuyến tính là một mô hình khớp hợp lý.
Bây giờ giả sử giáo viên cũng đưa thêm số giờ ngủ và số bài kiểm tra luyện tập vào mô hình. Một mô hình hồi quy bội có thể là
trong đó là số giờ học, là số giờ ngủ, và là số bài kiểm tra luyện tập đã hoàn thành.
Lúc này, hệ số có ý nghĩa cụ thể hơn: đó là mức thay đổi dự đoán của điểm số khi số giờ học tăng thêm một giờ, trong khi giữ cố định số giờ ngủ và số bài luyện tập.
Bây giờ đổi câu hỏi. Thay vì dự đoán điểm số, giả sử giáo viên muốn biết xác suất một học sinh đậu. Khi đó biến kết quả là nhị phân, nên hồi quy logistic là lựa chọn tự nhiên:
Nếu một học sinh học giờ và ngủ giờ, thì
nên xác suất dự đoán là
Mô hình này dự đoán khoảng khả năng đậu. Các con số cụ thể chỉ là ví dụ. Ý chính là khi biến kết quả chuyển từ điểm số sang đậu/rớt, họ mô hình hồi quy cũng nên thay đổi theo.
Những lỗi thường gặp trong phân tích hồi quy
Dùng hồi quy tuyến tính cho biến kết quả nhị phân
Nếu biến kết quả chỉ là hoặc , thì hồi quy logistic thường phù hợp hơn vì nó được thiết kế cho xác suất. Hồi quy tuyến tính có thể được dùng như một xấp xỉ trong một số trường hợp đặc biệt, nhưng cũng có thể tạo ra dự đoán xác suất kém.
Xem hồi quy như bằng chứng về quan hệ nhân quả
Hồi quy có thể mô tả mối liên hệ và hỗ trợ dự đoán. Tự nó không chứng minh rằng việc thay đổi một biến sẽ làm biến kết quả thay đổi.
Bỏ qua các điều kiện của mô hình
Một hệ số chỉ có ý nghĩa như bạn nghĩ nếu mô hình được chọn là một mô hình khớp hợp lý. Với hồi quy tuyến tính, điều đó thường có nghĩa là kiểm tra xem việc tóm tắt bằng đường thẳng có hợp lý không và liệu sai số có cho thấy một mẫu hình mà mô hình đã bỏ sót hay không.
Diễn giải quá mức các hệ số trong hồi quy bội
Trong hồi quy bội, một hệ số phụ thuộc vào các biến dự báo khác đã được đưa vào mô hình. Nếu thiếu những biến quan trọng, hoặc nếu các biến dự báo liên hệ chặt với nhau, thì việc diễn giải sẽ kém ổn định hơn.
Phân tích hồi quy được dùng ở đâu
Hồi quy được dùng khi bạn muốn giải thích sự biến thiên, ước lượng các mối quan hệ có điều kiện, hoặc đưa ra dự đoán từ dữ liệu.
Bạn sẽ gặp nó trong dự báo kinh doanh, y học, khoa học xã hội, kiểm soát chất lượng, giáo dục và machine learning. Dạng mô hình cụ thể phụ thuộc vào biến kết quả: biến kết quả dạng số thường dẫn đến mô hình tuyến tính, còn biến kết quả nhị phân thường dẫn đến mô hình logistic.
Cách chọn mô hình hồi quy phù hợp
Hãy bắt đầu bằng hai câu hỏi sau:
- Biến kết quả là dạng số hay nhị phân?
- Tôi muốn đưa vào bao nhiêu biến dự báo?
Nếu biến kết quả là dạng số, hãy bắt đầu với hồi quy tuyến tính. Nếu có một biến dự báo, đó là hồi quy tuyến tính đơn. Nếu có nhiều biến, đó là hồi quy tuyến tính bội.
Nếu biến kết quả là nhị phân, hãy bắt đầu với hồi quy logistic.
Điều đó không đảm bảo mô hình là tốt, nhưng nó giúp bạn đi đúng vào họ mô hình phù hợp rất nhanh.
Thử một bài toán tương tự
Hãy lấy một bộ dữ liệu nhỏ và đặt ra hai câu hỏi khác nhau về nó. Trước tiên, dự đoán một biến kết quả dạng số, chẳng hạn như điểm số. Sau đó, chuyển biến kết quả đó thành phiên bản nhị phân, chẳng hạn như đậu hoặc rớt. Cách so sánh song song này là một trong những cách nhanh nhất để bạn thực sự hiểu phân tích hồi quy.
Cần trợ giúp giải bài?
Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.
Mở GPAI Solver →