Hồi quy tuyến tính là một cách mô tả cách một biến thay đổi theo biến khác bằng một đường thẳng khớp tốt nhất. Trong hồi quy tuyến tính đơn, với một biến đầu vào và một biến đầu ra , mô hình là
Ở đây là giá trị dự đoán, là hệ số góc và là tung độ gốc. Phương pháp khớp thường dùng là bình phương tối thiểu thông thường, chọn đường thẳng sao cho tổng các phần dư bình phương là nhỏ nhất có thể:
Nếu bạn chỉ cần ý chính, hãy nhớ điều này: hệ số góc cho biết mức thay đổi dự đoán của khi tăng thêm một đơn vị, miễn là mô hình đường thẳng là một cách khớp hợp lý.
Phương trình hồi quy tuyến tính cho bạn biết điều gì
Hệ số góc cho biết mức thay đổi dự đoán của khi tăng thêm , nếu mô hình tuyến tính mô tả dữ liệu một cách hợp lý. Tung độ gốc là giá trị dự đoán của khi .
Từ “dự đoán” rất quan trọng. Một đường hồi quy thường không đi qua mọi điểm. Thay vào đó, nó cân bằng sai số trên tất cả các điểm, nên nó tóm tắt xu hướng thay vì khớp đúng mọi quan sát.
Công thức hồi quy tuyến tính cho và
Đối với hồi quy tuyến tính đơn, nếu các giá trị không hoàn toàn giống nhau, các hệ số bình phương tối thiểu có thể được viết là
và
Ở đây là giá trị trung bình của các giá trị và là giá trị trung bình của các giá trị . Các công thức này dành cho hồi quy tuyến tính đơn. Nếu bạn có nhiều hơn một biến đầu vào, cách thiết lập sẽ thay đổi.
Vì sao bình phương tối thiểu dùng phần dư bình phương
Hãy hình dung các điểm dữ liệu như một đám mây trên biểu đồ phân tán. Có nhiều đường thẳng có thể đi gần đám mây đó. Hồi quy tuyến tính chọn đường thẳng giữ cho các độ lệch theo phương dọc, gọi là phần dư, nhìn chung nhỏ.
Việc bình phương các phần dư có hai tác dụng hữu ích. Nó ngăn sai số dương và âm triệt tiêu lẫn nhau, đồng thời đặt trọng số lớn hơn cho các độ lệch lớn.
Ví dụ về hồi quy tuyến tính đơn
Giả sử các điểm dữ liệu là , , và . Ta sẽ khớp một đường hồi quy tuyến tính đơn.
Trước hết, tìm các giá trị trung bình:
Bây giờ tính hệ số góc:
Sau đó tính tung độ gốc:
Vậy phương trình hồi quy là
Nếu , mô hình dự đoán
Bạn cũng có thể kiểm tra một phần dư. Tại , giá trị dự đoán là
Giá trị thực tế là , nên phần dư là
Điểm đó nằm thấp hơn đường hồi quy đơn vị. Một phần dư không cho biết toàn bộ mô hình có tốt hay không, nhưng nó cho thấy hồi quy đo sai số như thế nào.
Những lỗi thường gặp khi học hồi quy tuyến tính
Một lỗi là cho rằng đường thẳng phải đi qua mọi điểm. Hồi quy là về độ khớp tốt nhất, không phải độ khớp hoàn hảo.
Một lỗi khác là đọc hệ số góc như một quy luật chính xác cho mọi điểm dữ liệu. Hệ số góc là mức thay đổi dự đoán trung bình từ mô hình.
Lỗi thứ ba là xem hồi quy như bằng chứng của quan hệ nhân quả. Một mẫu hình tuyến tính mạnh có thể hỗ trợ dự đoán hoặc mô tả mối liên hệ, nhưng tự nó không giải thích vì sao các biến cùng thay đổi.
Cũng rất dễ quá tin vào các dự đoán nằm ngoài phạm vi dữ liệu đã quan sát. Ngoại suy có thể thất bại ngay cả khi đường khớp trông tốt trong phạm vi ban đầu.
Khi nào nên dùng hồi quy tuyến tính
Hồi quy tuyến tính được dùng khi một cách tóm tắt bằng đường thẳng là hữu ích và mối quan hệ ít nhất là gần tuyến tính trong phạm vi bạn quan tâm. Các ứng dụng phổ biến gồm ước lượng giá từ kích thước, điểm số từ thời gian học, hoặc đầu ra từ đầu vào trong điều kiện ổn định.
Nó đặc biệt hữu ích khi bạn muốn một mô hình dễ diễn giải. Hệ số góc, tung độ gốc và phần dư đủ đơn giản để giải thích mà không che giấu mô hình đang làm gì.
Kiểm tra nhanh trước khi tin vào đường thẳng
Trước khi dùng một đường hồi quy, hãy tự hỏi hai câu. Biểu đồ phân tán có trông gần tuyến tính không? Bối cảnh có khiến hệ số góc mang ý nghĩa thay vì gây hiểu lầm không? Nếu một trong hai câu trả lời là không, một mô hình khác có thể tốt hơn.
Thử một bài tương tự
Hãy chọn bốn điểm, phác chúng ra và khớp một đường thẳng bằng máy tính cầm tay hoặc phần mềm. Sau đó so sánh các giá trị dự đoán với các giá trị thực tế. Xem các phần dư thường là cách nhanh nhất để hiểu đường hồi quy thực sự đang làm gì.
Cần trợ giúp giải bài?
Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.
Mở GPAI Solver →