Phương sai đo mức độ phân tán của các số quanh giá trị trung bình. Phương sai nhỏ nghĩa là các giá trị nằm khá gần trung bình. Phương sai lớn nghĩa là chúng phân tán rộng hơn.

Để tính phương sai, hãy tìm khoảng cách từ mỗi giá trị đến trung bình, bình phương các khoảng cách đó rồi lấy trung bình. Việc bình phương rất quan trọng vì nếu không, các độ lệch dương và âm sẽ triệt tiêu lẫn nhau.

Công thức phương sai: Tổng thể và Mẫu

Dùng công thức phương sai tổng thể khi dữ liệu của bạn bao gồm mọi giá trị trong nhóm mà bạn muốn mô tả:

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2

Dùng công thức phương sai mẫu khi dữ liệu của bạn chỉ là một mẫu và bạn muốn ước lượng mức độ phân tán của một tổng thể lớn hơn:

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

Khác biệt duy nhất là mẫu số. Dùng NN cho toàn bộ tổng thể. Dùng n1n-1 cho ước lượng từ mẫu.

Phương sai cho biết điều gì

Phương sai không cho biết tâm của dữ liệu nằm ở đâu. Nó cho biết dữ liệu thường nằm cách tâm đó bao xa.

Nếu hai bộ dữ liệu có cùng giá trị trung bình, thì bộ có phương sai lớn hơn sẽ có các giá trị nằm xa trung bình hơn về mặt trung bình. Vì các độ lệch được bình phương, những khoảng cách lớn bất thường sẽ có ảnh hưởng mạnh hơn.

Một chi tiết quan trọng: phương sai được đo bằng đơn vị bình phương. Nếu dữ liệu tính bằng mét, thì phương sai tính bằng mét vuông. Đó là lý do độ lệch chuẩn thường dễ diễn giải hơn trong thực tế.

Cách tính phương sai: Ví dụ có lời giải

Dùng bộ dữ liệu 2,4,4,4,5,5,7,92, 4, 4, 4, 5, 5, 7, 9.

Trước tiên, tìm giá trị trung bình:

xˉ=2+4+4+4+5+5+7+98=408=5\bar{x} = \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5

Bây giờ lấy từng giá trị trừ đi trung bình rồi bình phương kết quả:

  • (25)2=9(2-5)^2 = 9
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (45)2=1(4-5)^2 = 1
  • (55)2=0(5-5)^2 = 0
  • (55)2=0(5-5)^2 = 0
  • (75)2=4(7-5)^2 = 4
  • (95)2=16(9-5)^2 = 16

Cộng các độ lệch bình phương đó lại:

9+1+1+1+0+0+4+16=329+1+1+1+0+0+4+16 = 32

Nếu tám giá trị này là toàn bộ tổng thể, thì phương sai tổng thể là:

σ2=328=4\sigma^2 = \frac{32}{8} = 4

Nếu cùng tám giá trị đó được xem là một mẫu lấy từ tổng thể lớn hơn, thì phương sai mẫu là:

s2=3274.57s^2 = \frac{32}{7} \approx 4.57

Ví dụ này cho thấy rõ ý chính: các độ lệch bình phương là như nhau, nhưng kết quả cuối cùng thay đổi tùy theo việc bạn chia cho NN hay cho n1n-1.

Những lỗi thường gặp khi tính phương sai

  • Quên bình phương các độ lệch. Nếu bạn lấy trung bình các độ lệch thô, các giá trị dương và âm sẽ triệt tiêu nhau, nên bạn không còn đo đúng mức độ phân tán.
  • Nhầm lẫn giữa phương sai tổng thể và phương sai mẫu. Chia cho NN với toàn bộ tổng thể và chia cho n1n-1 với mẫu dùng để ước lượng một tổng thể lớn hơn.
  • Quên rằng phương sai dùng đơn vị bình phương. Phương sai rất hữu ích, nhưng độ lệch chuẩn thường dễ đọc hơn vì nó quay về đơn vị gốc.
  • Cho rằng phương sai lớn luôn là xấu. Phương sai lớn chỉ có nghĩa là dữ liệu phân tán hơn. Điều đó có quan trọng hay không còn tùy vào ngữ cảnh.

Khi nào dùng phương sai

Phương sai được dùng bất cứ khi nào bạn cần mô tả hoặc so sánh mức độ phân tán theo một cách nhất quán.

  • Trong thống kê, nó giúp tóm tắt mức độ phân tán của một bộ dữ liệu.
  • Trong kiểm soát chất lượng, nó có thể giúp theo dõi xem một quy trình có duy trì tính ổn định theo thời gian hay không.
  • Trong tài chính, phương sai được dùng để mô tả mức độ dao động của lợi nhuận, dù đó chỉ là một cách để nhìn về rủi ro.
  • Trong học máy và phân tích dữ liệu, nó giúp mô tả cách các đặc trưng hoặc sai số thay đổi giữa các quan sát.

Thử một bài tương tự

Hãy tự thử với hai bộ dữ liệu nhỏ có cùng giá trị trung bình nhưng độ phân tán khác nhau. Tính phương sai của cả hai và xem liệu bộ dữ liệu phân tán rộng hơn có cho giá trị lớn hơn hay không. Chỉ một phép so sánh như vậy thường đủ để giúp bạn nhớ ý tưởng này.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →