Hệ số tương quan thường được hiểu là hệ số tương quan Pearson, ký hiệu là rr. Nó đo chiều hướng và độ mạnh của mối quan hệ tuyến tính giữa hai biến số.

Nếu rr dương, hai biến có xu hướng cùng tăng. Nếu rr âm, một biến có xu hướng giảm khi biến kia tăng. Nếu rr gần 00, Pearson's rr cho biết có rất ít mô hình tuyến tính, chứ không nhất thiết là hoàn toàn không có mối quan hệ.

Pearson's rr hữu ích nhất khi dữ liệu xuất hiện theo từng cặp, cả hai biến đều là biến số, và xu hướng đường thẳng là dạng mẫu bạn muốn tóm tắt.

Hệ số tương quan cho bạn biết điều gì

Pearson's rr là một thước đo chuẩn hóa về cách hai biến cùng biến thiên. Với một mẫu dữ liệu theo cặp, công thức là

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Tử số dương khi hai biến có xu hướng biến động cùng chiều và âm khi chúng có xu hướng biến động ngược chiều. Mẫu số chuẩn hóa sự biến thiên đồng thời đó bằng độ phân tán của từng biến.

Khi Pearson's rr được xác định, nó luôn thỏa mãn

1r1-1 \le r \le 1

Nếu một biến hoàn toàn không có biến thiên, mẫu số sẽ bằng 00, nên Pearson's rr không xác định.

Cách diễn giải giá trị dương, âm và gần bằng 0

Hãy bắt đầu với dấu:

  • r>0r > 0: mối liên hệ tuyến tính dương
  • r<0r < 0: mối liên hệ tuyến tính âm
  • r=0r = 0: không có mối liên hệ tuyến tính

Sau đó xem độ lớn r|r|. Giá trị càng gần 11 thì các điểm càng bám sát một mô hình đường thẳng. Giá trị càng gần 00 thì mô hình tuyến tính càng yếu.

Hãy cẩn thận với các nhãn như "yếu", "vừa phải" hay "mạnh". Các ngưỡng đó phụ thuộc vào bối cảnh. Trong một lĩnh vực, r=0.3r = 0.3 có thể quan trọng. Trong lĩnh vực khác, nó có thể quá nhỏ để làm cơ sở cho một quyết định.

Thói quen an toàn nhất là đọc rr cùng với biểu đồ phân tán. Con số này là bản tóm tắt của mô hình bạn nhìn thấy; nó không nên thay thế hình ảnh dữ liệu.

Ví dụ tính toán: r=0.9r = 0.9

Giả sử dữ liệu theo cặp là

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Trước hết tính trung bình:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

Bây giờ liệt kê các độ lệch so với trung bình:

  • Với xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • Với yy: 2,1,1,0,2-2, -1, 1, 0, 2

Nhân các độ lệch theo cặp rồi cộng lại:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Tiếp theo tính hai tổng bình phương:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Vậy

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Điều này cho thấy có một mối liên hệ tuyến tính dương mạnh trong mẫu này. Khi xx tăng, yy thường cũng tăng, và các điểm sẽ nằm khá gần một đường thẳng dốc lên.

Những lỗi thường gặp khi diễn giải tương quan

Xem tương quan như quan hệ nhân quả

Tương quan cao không chứng minh rằng một biến gây ra biến kia. Có thể có một yếu tố thứ ba ảnh hưởng đến cả hai, hoặc mối quan hệ chỉ là ngẫu nhiên trong dữ liệu quan sát được.

Quên rằng Pearson's rr là thước đo tuyến tính

Pearson's rr chỉ đo tốt mối liên hệ tuyến tính. Một mối quan hệ cong có thể tạo ra hệ số tương quan nhỏ ngay cả khi hai biến rõ ràng có liên hệ.

Bỏ qua ngoại lệ

Một điểm bất thường có thể làm thay đổi rr rất nhiều. Nếu biểu đồ phân tán có ngoại lệ, hệ số tương quan có thể kể một câu chuyện gây hiểu lầm về mô hình tổng thể.

Dùng Pearson's rr khi dữ liệu không phù hợp

Pearson's rr được thiết kế cho dữ liệu số theo cặp và mối liên hệ tuyến tính. Nếu một biến là biến phân loại, hoặc nếu mô hình rõ ràng là cong, thì hệ số này có thể không trả lời đúng câu hỏi bạn thực sự quan tâm.

Diễn giải quá mức một giá trị gần 0

Một giá trị gần 00 có nghĩa là "ít mối liên hệ tuyến tính", không phải là "không có bất kỳ mối quan hệ nào".

Khi nào dùng hệ số tương quan Pearson

Pearson's rr thường được dùng trong thống kê, khoa học, kinh tế, nghiên cứu xã hội và machine learning như một bản tóm tắt nhanh cho dữ liệu số theo cặp. Nó hữu ích nhất khi bạn muốn biết liệu có một mô hình đường thẳng hay không trước khi chuyển sang một mô hình như hồi quy tuyến tính.

Trong thực tế, biểu đồ phân tán nên được xem trước tiên. Hệ số này là bản tóm tắt, không phải là sự thay thế cho việc nhìn trực tiếp vào dữ liệu.

Thử một bài tương tự

Hãy lấy một bộ dữ liệu nhỏ mà bạn đã hiểu, vẽ các điểm và ước lượng xem xu hướng có vẻ dương, âm hay không rõ ràng trước khi tính rr. So sánh nhanh như vậy là một trong những cách nhanh nhất để xây dựng trực giác về điều mà hệ số tương quan thực sự đang nói.

Nếu muốn đi thêm một bước, hãy khảo sát cùng bộ dữ liệu đó bằng một đường hồi quy tuyến tính đơn giản. Cách này giúp bạn dễ thấy hơn mối liên hệ giữa tương quan và dự đoán, dù hai khái niệm này không hoàn toàn giống nhau.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →