Biểu đồ phân tán cho thấy mối quan hệ giữa hai biến số. Mỗi điểm là một cặp giá trị, nên bạn có thể nhanh chóng thấy dữ liệu đang tăng, giảm, phân tán rộng, tạo thành cụm hay có những điểm bất thường.

Vì thế, biểu đồ phân tán là cách nhanh nhất để trả lời câu hỏi mà hầu hết học sinh thực sự muốn biết: "Dữ liệu này đang cho thấy điều gì?" Trước khi tính hệ số tương quan hay vẽ đường xu hướng tốt nhất, biểu đồ sẽ cho bạn biết liệu những cách tóm tắt đó có thực sự hợp lý hay không.

Cách đọc biểu đồ phân tán

Trục ngang biểu diễn một biến và trục dọc biểu diễn biến còn lại. Nếu một học sinh học 44 giờ và đạt 7878 điểm, thì điểm đó là (4,78)(4,78).

Khi các điểm đã được đặt lên đồ thị, hãy nhìn vào mẫu hình tổng thể:

  • Tương quan dương: các điểm có xu hướng đi lên từ trái sang phải.
  • Tương quan âm: các điểm có xu hướng đi xuống từ trái sang phải.
  • Ít hoặc không có tương quan rõ ràng: các điểm không cho thấy xu hướng tuyến tính mạnh.

Cũng cần kiểm tra các cụm, khoảng trống và các điểm ngoại lệ. Dữ liệu thực tế gần như không bao giờ nằm chính xác trên một đường thẳng, nên mục tiêu là nhìn ra xu hướng chứ không phải sự thẳng hàng hoàn hảo.

Tương quan có nghĩa gì trên biểu đồ phân tán

Tương quan mô tả hướng và độ mạnh của một mối quan hệ tuyến tính. "Tuyến tính" là điều kiện then chốt: tương quan đang tóm tắt mức độ các điểm phù hợp với một xu hướng đường thẳng.

Nếu các điểm tập trung quanh một đường dốc lên, thì tương quan là dương. Nếu chúng tập trung quanh một đường dốc xuống, thì tương quan là âm. Nếu các điểm trông rải rác và không có hướng đường thẳng rõ ràng, thì tương quan tuyến tính là yếu hoặc gần bằng không.

Một mẫu hình cong vẫn có thể cho thấy một mối quan hệ thực sự. Chỉ là nó có thể không có tương quan tuyến tính mạnh.

Khi nào đường xu hướng tốt nhất hữu ích

Đường xu hướng tốt nhất là một đường thẳng được vẽ để biểu diễn xu hướng chung của các điểm. Nó không cần đi qua mọi điểm. Nhiệm vụ của nó là nằm gần đám mây điểm một cách tổng thể.

Chỉ dùng đường xu hướng tốt nhất khi biểu đồ phân tán có dạng gần tuyến tính. Khi đó, đường này giúp ích cho hai việc:

  • tóm tắt xu hướng
  • đưa ra dự đoán gần đúng trong phạm vi dữ liệu đã quan sát

Nếu mẫu hình bị cong, tách thành các cụm, hoặc bị chi phối bởi các điểm ngoại lệ, thì một đường thẳng tốt nhất có thể che giấu nhiều điều hơn là giải thích.

Ví dụ về biểu đồ phân tán: số giờ học và điểm bài kiểm tra ngắn

Giả sử một giáo viên ghi lại thời gian học và điểm bài kiểm tra ngắn của năm học sinh:

(1,55), (2,61), (3,68), (4,74), (5,81)(1,55),\ (2,61),\ (3,68),\ (4,74),\ (5,81)

Các điểm này đi lên từ trái sang phải và nằm khá gần một đường thẳng. Điều đó có nghĩa là mối quan hệ là dương và gần tuyến tính.

Vì vậy, cả tương quan lẫn đường xu hướng tốt nhất đều là những cách tóm tắt hợp lý ở đây. Bạn sẽ kỳ vọng đường xu hướng tốt nhất có hệ số góc dương vì thời gian học lớn hơn thường đi kèm với điểm bài kiểm tra ngắn cao hơn.

Bây giờ thêm một điểm nữa tại (5,40)(5,40). Xu hướng có thể vẫn là dương, nhưng điểm này là một ngoại lệ và nó có thể kéo đường xu hướng tốt nhất xuống dưới. Đó là lý do biểu đồ phải có trước phần tóm tắt: hình ảnh cho bạn biết liệu phần tóm tắt có đáng tin hay không.

Những lỗi thường gặp với biểu đồ phân tán

Xem tương quan như quan hệ nhân quả

Nếu hai biến cùng thay đổi, điều đó không tự động có nghĩa là biến này gây ra biến kia. Một yếu tố thứ ba có thể ảnh hưởng đến cả hai, hoặc mẫu hình có thể phức tạp hơn so với vẻ ngoài ban đầu.

Ép một đường thẳng lên mẫu hình cong

Một số dữ liệu đi theo đường cong thay vì đường thẳng. Trong trường hợp đó, một đường xu hướng tuyến tính có thể đưa ra phần tóm tắt gây hiểu lầm.

Bỏ qua các điểm ngoại lệ

Một điểm bất thường có thể làm thay đổi xu hướng nhìn thấy được rất nhiều. Điểm ngoại lệ không phải lúc nào cũng có nghĩa là dữ liệu sai, nhưng không bao giờ nên bị bỏ qua mà không xem xét ngữ cảnh.

Quên mất một điểm đại diện cho điều gì

Biểu đồ phân tán chỉ hoạt động với dữ liệu theo cặp. Mỗi điểm phải đến từ một quan sát có cả giá trị xx và giá trị yy.

Khi nào biểu đồ phân tán được dùng

Biểu đồ phân tán được dùng trong thống kê, khoa học, kinh doanh và nghiên cứu xã hội bất cứ khi nào bạn muốn so sánh hai biến số. Những ví dụ phổ biến gồm chiều cao và cân nặng, chi phí quảng cáo và doanh số, hoặc thời gian học và điểm kiểm tra.

Chúng đặc biệt hữu ích ở giai đoạn đầu của một phân tích vì có thể làm lộ ra những mẫu hình mà một công thức đơn lẻ có thể che khuất, chẳng hạn như các cụm, khoảng trống hoặc điểm ngoại lệ.

Hãy thử một bài tương tự

Lấy một bộ dữ liệu theo cặp nhỏ và phác các điểm trước khi tính tương quan. Hãy tự hỏi ba câu: mẫu hình đang đi lên hay đi xuống, nó có trông gần tuyến tính không, và có điểm nào nằm xa bất thường so với phần còn lại không?

Nếu mẫu hình trông gần tuyến tính, hãy tiếp tục khám phá cùng bộ dữ liệu đó bằng hệ số tương quan hoặc một đường xu hướng tốt nhất đơn giản. Đó là bước tiếp theo tự nhiên từ hình ảnh sang phần tóm tắt.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →