Phân tích hồi quy giải thích cách một biến kết quả thay đổi khi một hay nhiều biến dự báo thay đổi. Dùng hồi quy tuyến tính đơn khi có một biến dự báo và biến kết quả dạng số, hồi quy tuyến tính bội khi có nhiều biến dự báo và biến kết quả dạng số, và hồi quy logistic khi biến kết quả là nhị phân như đậu/rớt.

Sự phân biệt này trả lời nhanh câu hỏi tìm kiếm chính:

  • Hồi quy tuyến tính đơn: một biến dự báo, biến kết quả dạng số.
  • Hồi quy tuyến tính bội: nhiều biến dự báo, biến kết quả dạng số.
  • Hồi quy logistic: biến kết quả nhị phân như có/không, đậu/rớt hoặc nhấp/không nhấp.

Sau đó, phần việc thực sự là diễn giải. Một hệ số chỉ có ý nghĩa như bạn nghĩ nếu mô hình phù hợp với loại biến kết quả và khớp với dữ liệu ở mức hợp lý.

Phân tích hồi quy dùng để làm gì

Hồi quy không chỉ là vẽ một đường thẳng đi qua các điểm. Nó xây dựng một quy tắc liên kết các biến dự báo với giá trị kỳ vọng của biến kết quả, để bạn có thể giải thích mẫu hình hoặc đưa ra dự đoán.

Trong hồi quy tuyến tính, quy tắc đó là một mô hình đường thẳng cho giá trị kỳ vọng của biến kết quả. Trong hồi quy logistic, mô hình được xây dựng cho xác suất, nên giá trị dự đoán luôn nằm giữa 0011.

Hồi quy tuyến tính đơn: một biến dự báo, biến kết quả dạng số

Hồi quy tuyến tính đơn dùng một biến dự báo xx và một biến kết quả dạng số yy:

y^=b0+b1x\hat{y} = b_0 + b_1x

Ở đây y^\hat{y} là giá trị dự đoán của biến kết quả, b0b_0 là hệ số chặn, và b1b_1 là hệ số góc.

Hệ số góc b1b_1 cho biết mức thay đổi dự đoán của yy khi xx tăng một đơn vị, nếu mô hình đường thẳng là một xấp xỉ hợp lý trên khoảng giá trị bạn quan tâm.

Hồi quy tuyến tính bội: nhiều biến dự báo, một biến kết quả dạng số

Hồi quy tuyến tính bội giữ nguyên ý tưởng cơ bản, nhưng dùng nhiều hơn một biến dự báo:

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Mô hình này hữu ích khi chỉ một biến dự báo là quá đơn giản. Trong thực tế, biến kết quả thường phụ thuộc vào nhiều yếu tố cùng lúc.

Điểm thay đổi quan trọng trong diễn giải là: b1b_1 là mức thay đổi dự đoán của yy khi x1x_1 tăng một đơn vị, trong khi các biến dự báo khác đã đưa vào mô hình được giữ cố định.

Điều kiện “giữ các biến dự báo khác cố định” chính là điểm làm hồi quy bội khác với một loạt so sánh một biến.

Hồi quy logistic: biến kết quả nhị phân và xác suất

Hồi quy logistic dùng cho biến kết quả nhị phân, không phải biến số. Nếu biến kết quả là những trường hợp như được nhận hay không được nhận, rời bỏ hay ở lại, hoặc đậu hay rớt, thì hồi quy tuyến tính thường không phải công cụ phù hợp.

Thay vì mô hình hóa trực tiếp biến kết quả bằng một đường thẳng, hồi quy logistic mô hình hóa log-odds của biến kết quả:

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

trong đó p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p).

Vế bên trái là log-odds, không phải chính xác suất. Cách thiết lập này quan trọng vì xác suất phải nằm giữa 0011: một mô hình đường thẳng thông thường có thể dự đoán những giá trị không thể xảy ra như 1.21.2 hoặc 0.1-0.1, còn hồi quy logistic thì không.

Ví dụ minh họa: dự đoán điểm số so với dự đoán đậu/rớt

Giả sử một giáo viên muốn nghiên cứu kết quả học tập của học sinh.

Nếu biến kết quả là điểm thi và biến dự báo duy nhất là số giờ học, thì một mô hình tuyến tính đơn có thể là

y^=42+5x\hat{y} = 42 + 5x

Nếu một học sinh học 66 giờ, thì điểm dự đoán là

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

Ở đây, hệ số góc cho biết điểm dự đoán tăng 55 điểm cho mỗi giờ học thêm, nếu mô hình tuyến tính là một mô hình khớp hợp lý.

Bây giờ giả sử giáo viên cũng đưa thêm số giờ ngủ và số bài kiểm tra luyện tập vào mô hình. Một mô hình hồi quy bội có thể là

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

trong đó x1x_1 là số giờ học, x2x_2 là số giờ ngủ, và x3x_3 là số bài kiểm tra luyện tập đã hoàn thành.

Lúc này, hệ số 44 có ý nghĩa cụ thể hơn: đó là mức thay đổi dự đoán của điểm số khi số giờ học tăng thêm một giờ, trong khi giữ cố định số giờ ngủ và số bài luyện tập.

Bây giờ đổi câu hỏi. Thay vì dự đoán điểm số, giả sử giáo viên muốn biết xác suất một học sinh đậu. Khi đó biến kết quả là nhị phân, nên hồi quy logistic là lựa chọn tự nhiên:

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Nếu một học sinh học 66 giờ và ngủ 77 giờ, thì

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

nên xác suất dự đoán là

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Mô hình này dự đoán khoảng 91%91\% khả năng đậu. Các con số cụ thể chỉ là ví dụ. Ý chính là khi biến kết quả chuyển từ điểm số sang đậu/rớt, họ mô hình hồi quy cũng nên thay đổi theo.

Những lỗi thường gặp trong phân tích hồi quy

Dùng hồi quy tuyến tính cho biến kết quả nhị phân

Nếu biến kết quả chỉ là 00 hoặc 11, thì hồi quy logistic thường phù hợp hơn vì nó được thiết kế cho xác suất. Hồi quy tuyến tính có thể được dùng như một xấp xỉ trong một số trường hợp đặc biệt, nhưng cũng có thể tạo ra dự đoán xác suất kém.

Xem hồi quy như bằng chứng về quan hệ nhân quả

Hồi quy có thể mô tả mối liên hệ và hỗ trợ dự đoán. Tự nó không chứng minh rằng việc thay đổi một biến sẽ làm biến kết quả thay đổi.

Bỏ qua các điều kiện của mô hình

Một hệ số chỉ có ý nghĩa như bạn nghĩ nếu mô hình được chọn là một mô hình khớp hợp lý. Với hồi quy tuyến tính, điều đó thường có nghĩa là kiểm tra xem việc tóm tắt bằng đường thẳng có hợp lý không và liệu sai số có cho thấy một mẫu hình mà mô hình đã bỏ sót hay không.

Diễn giải quá mức các hệ số trong hồi quy bội

Trong hồi quy bội, một hệ số phụ thuộc vào các biến dự báo khác đã được đưa vào mô hình. Nếu thiếu những biến quan trọng, hoặc nếu các biến dự báo liên hệ chặt với nhau, thì việc diễn giải sẽ kém ổn định hơn.

Phân tích hồi quy được dùng ở đâu

Hồi quy được dùng khi bạn muốn giải thích sự biến thiên, ước lượng các mối quan hệ có điều kiện, hoặc đưa ra dự đoán từ dữ liệu.

Bạn sẽ gặp nó trong dự báo kinh doanh, y học, khoa học xã hội, kiểm soát chất lượng, giáo dục và machine learning. Dạng mô hình cụ thể phụ thuộc vào biến kết quả: biến kết quả dạng số thường dẫn đến mô hình tuyến tính, còn biến kết quả nhị phân thường dẫn đến mô hình logistic.

Cách chọn mô hình hồi quy phù hợp

Hãy bắt đầu bằng hai câu hỏi sau:

  1. Biến kết quả là dạng số hay nhị phân?
  2. Tôi muốn đưa vào bao nhiêu biến dự báo?

Nếu biến kết quả là dạng số, hãy bắt đầu với hồi quy tuyến tính. Nếu có một biến dự báo, đó là hồi quy tuyến tính đơn. Nếu có nhiều biến, đó là hồi quy tuyến tính bội.

Nếu biến kết quả là nhị phân, hãy bắt đầu với hồi quy logistic.

Điều đó không đảm bảo mô hình là tốt, nhưng nó giúp bạn đi đúng vào họ mô hình phù hợp rất nhanh.

Thử một bài toán tương tự

Hãy lấy một bộ dữ liệu nhỏ và đặt ra hai câu hỏi khác nhau về nó. Trước tiên, dự đoán một biến kết quả dạng số, chẳng hạn như điểm số. Sau đó, chuyển biến kết quả đó thành phiên bản nhị phân, chẳng hạn như đậu hoặc rớt. Cách so sánh song song này là một trong những cách nhanh nhất để bạn thực sự hiểu phân tích hồi quy.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →