Kiểm định giả thuyết

Kiểm định giả thuyết là một cách để xem dữ liệu mẫu có mâu thuẫn quá nhiều với một khẳng định ban đầu hay không. Khẳng định ban đầu đó được gọi là giả thuyết không, ký hiệu là $H_0$ .

Phương pháp này không chứng minh $H_0$ đúng hay sai. Nó đặt ra một câu hỏi hẹp hơn: nếu $H_0$ đúng, thì dữ liệu cực đoan đến mức này có đủ bất thường để ta nên nghi ngờ nó hay không?

Ý Tưởng Cốt Lõi

Mỗi kiểm định giả thuyết đều có hai phát biểu cạnh tranh nhau:

Giả thuyết không $H_0$ , là khẳng định mặc định đang được kiểm định.
Giả thuyết đối $H_1$ hoặc $H_a$ , là điều bạn sẽ ủng hộ nếu dữ liệu cung cấp đủ bằng chứng chống lại $H_0$ .

Sau đó, bạn chọn mức ý nghĩa $\alpha$ , thường là $0.05$ , trước khi xem kết quả. Đây là ngưỡng cho biết bạn cần bao nhiêu bằng chứng trước khi bác bỏ $H_0$ .

Có hai khả năng xảy ra:

Bác bỏ $H_0$ : dữ liệu không phù hợp đủ nhiều với mô hình giả thuyết không.
Không bác bỏ $H_0$ : dữ liệu chưa đủ mạnh để loại trừ mô hình giả thuyết không.

"Không bác bỏ" không giống với "chấp nhận là đúng". Nó chỉ có nghĩa là mẫu chưa cung cấp đủ bằng chứng mạnh để chống lại $H_0$ .

Các Bước Thường Gặp

Quy trình thường là:

Phát biểu rõ ràng $H_0$ và $H_1$ .
Chọn $\alpha$ và một phép kiểm định phù hợp với dữ liệu và các giả định.
Tính thống kê kiểm định từ mẫu.
Chuyển thống kê đó thành $p$ -value hoặc so sánh nó với giá trị tới hạn.
Đưa ra quyết định và diễn giải trong ngữ cảnh cụ thể.

Thống kê kiểm định phụ thuộc vào từng tình huống. Kiểm định $z$ , kiểm định $t$ , kiểm định chi bình phương và nhiều loại khác đều là ví dụ của kiểm định giả thuyết. Không có một công thức duy nhất áp dụng cho mọi bài toán kiểm định giả thuyết.

$p$ -Value Có Nghĩa Là Gì

$p$ -value là xác suất, với giả sử $H_0$ đúng và các giả định của phép kiểm định được thỏa mãn, để thu được kết quả ít nhất cực đoan như kết quả đã quan sát.

Một $p$ -value nhỏ có nghĩa là dữ liệu sẽ là bất thường nếu $H_0$ đúng. Đó là lý do vì sao $p$ -value nhỏ được xem là bằng chứng chống lại giả thuyết không.

Nó không có nghĩa là:

Xác suất để $H_0$ sai.
Xác suất để kết quả của bạn xảy ra "do ngẫu nhiên" theo nghĩa đời thường mơ hồ.
Độ lớn hay tầm quan trọng của hiệu ứng.

Các Loại Kiểm Định Giả Thuyết Chính

Có hai cách hữu ích để phân nhóm các phép kiểm định.

Theo Hướng

Kiểm định một phía chỉ tìm sự thay đổi theo một hướng.

Phía phải: các giá trị lớn hơn khẳng định của giả thuyết không ủng hộ $H_1$ .
Phía trái: các giá trị nhỏ hơn khẳng định của giả thuyết không ủng hộ $H_1$ .

Kiểm định hai phía tìm sự khác biệt theo cả hai hướng. Nếu $H_1$ là "không bằng", vùng bác bỏ sẽ được chia ra ở cả hai phía.

Theo Loại Dữ Liệu

Kiểm định $z$ được dùng trong một số bài toán kiểm định trung bình khi độ lệch chuẩn tổng thể đã biết hoặc khi dùng một xấp xỉ mẫu lớn hợp lý.
Kiểm định $t$ thường dùng cho trung bình khi độ lệch chuẩn tổng thể chưa biết và các điều kiện là hợp lý.
Kiểm định chi bình phương được dùng cho dữ liệu đếm phân loại.

Phép kiểm định phù hợp phụ thuộc vào loại biến, thiết kế lấy mẫu và các giả định. Chọn công thức trước rồi mới nghĩ đến câu hỏi là một sai lầm phổ biến.

Ví Dụ Minh Họa

Giả sử một máy chiết rót được kỳ vọng có mức trung bình là $500$ mL mỗi chai. Một nhóm kiểm soát chất lượng lấy mẫu $36$ chai và thu được trung bình mẫu là $496$ mL.

Giả sử, trong ví dụ này, độ lệch chuẩn tổng thể được biết là $\sigma = 12$ mL và điều kiện lấy mẫu cho phép dùng kiểm định $z$ một mẫu.

Thiết lập các giả thuyết:

H_0: \mu = 500

H_1: \mu < 500

Đây là kiểm định phía trái vì mối quan tâm là chiết thiếu.

Sai số chuẩn là

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

Vì vậy thống kê kiểm định là

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

Nếu $\alpha = 0.05$ cho kiểm định $z$ phía trái, thì giá trị tới hạn xấp xỉ là $-1.645$ . Vì $-2 < -1.645$ , kết quả rơi vào vùng bác bỏ.

Vì thế, quyết định là bác bỏ $H_0$ ở mức $5\%$ . Trong ngữ cảnh này, mẫu cung cấp bằng chứng cho thấy trung bình máy đang chiết thiếu.

Kết luận đó phụ thuộc vào các giả định của phép kiểm định. Nếu các giả định không phù hợp, kết luận có thể không đáng tin ngay cả khi phép tính là đúng.

Sai Lầm Loại I Và Loại II

Kiểm định giả thuyết luôn đi kèm với rủi ro sai lầm.

Sai lầm loại I là bác bỏ $H_0$ dù nó đúng. Xác suất của sai lầm này được kiểm soát bởi $\alpha$ .

Sai lầm loại II là không bác bỏ $H_0$ dù $H_1$ đúng. Xác suất của nó thường được ký hiệu là $\beta$ .

Giảm $\alpha$ làm cho báo động giả ít xảy ra hơn, nhưng cũng có thể khiến hiệu ứng thật khó được phát hiện hơn nếu các yếu tố khác không đổi. Sự đánh đổi đó là một lý do khiến cỡ mẫu quan trọng.

Những Sai Lầm Thường Gặp

Một sai lầm phổ biến là nói rằng kết quả không có ý nghĩa thống kê chứng minh không có hiệu ứng. Thông thường, điều đó chỉ cho thấy dữ liệu chưa đủ mạnh để phát hiện ra hiệu ứng.

Một sai lầm khác là xem ý nghĩa thống kê như tầm quan trọng thực tiễn. Một hiệu ứng rất nhỏ vẫn có thể có ý nghĩa thống kê nếu cỡ mẫu rất lớn.

Mọi người cũng thường dùng sai phép kiểm định khi bỏ qua các giả định về tính độc lập, dạng phân phối, phương sai hoặc loại dữ liệu. Một $p$ -value trông "đẹp" không thể cứu được một phép kiểm định không phù hợp.

Khi Nào Dùng Kiểm Định Giả Thuyết

Kiểm định giả thuyết được dùng trong khoa học, sản xuất, y học, khảo sát, A/B testing và phân tích chính sách. Mục tiêu thường giống nhau: quyết định xem mẫu có cung cấp đủ bằng chứng để đặt nghi vấn với một khẳng định mặc định hay không.

Trong thực tế, kiểm định tốt không chỉ là chuyện tính toán. Nó còn đòi hỏi một giả thuyết không hợp lý, một thiết kế có thể bảo vệ được và một cách diễn giải phù hợp với điều mà phép kiểm định thực sự có thể nói.

Tự Thử Một Phiên Bản Của Bạn

Hãy lấy lại ví dụ chiết rót chai ở trên, nhưng đổi trung bình mẫu thành $498$ mL. Tính lại thống kê kiểm định và xem quyết định có thay đổi ở mức $\alpha = 0.05$ hay không. Đây là cách nhanh để thấy bằng chứng mạnh lên hay yếu đi khi kết quả mẫu tiến gần hơn đến giá trị của giả thuyết không.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →