Kiểm định t — Các loại, công thức và khi nào dùng

Kiểm định t giúp bạn quyết định liệu trung bình mẫu, hoặc chênh lệch giữa hai trung bình mẫu, có lớn hơn mức có thể kỳ vọng chỉ do biến thiên ngẫu nhiên hay không. Bạn dùng nó khi biến kết quả là số và độ lệch chuẩn của tổng thể chưa biết, đây là trường hợp thường gặp trong thực tế.

Điều kiện quan trọng là phép kiểm định phải phù hợp với thiết kế dữ liệu. Kiểm định t dùng cho các câu hỏi về trung bình, không dùng cho số đếm phân loại, và với mẫu rất nhỏ thì cần thận trọng nếu dữ liệu lệch mạnh hoặc có ngoại lệ rõ rệt.

Kiểm định t đo lường điều gì

Ý tưởng cơ bản luôn giống nhau:

t = \frac{\text{observed difference}}{\text{estimated standard error}}

Thống kê này lớn hơn khi chênh lệch trung bình lớn, và nhỏ hơn khi dữ liệu nhiễu nhiều hoặc cỡ mẫu nhỏ.

Dưới giả thuyết không, và nếu các điều kiện là hợp lý, thống kê này tuân theo phân phối $t$ thay vì phân phối chuẩn $z$ . Phân phối $t$ có đuôi dày hơn, đặc biệt với mẫu nhỏ, nên thận trọng hơn khi kết luận một kết quả là có ý nghĩa thống kê.

Nên dùng loại kiểm định t nào

Kiểm định t một mẫu

Dùng khi bạn có một mẫu và muốn so sánh trung bình của nó với một giá trị chuẩn $\mu_0$ .

t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

Ví dụ: so sánh khối lượng trung bình của các gói hàng trong một mẫu với mức mục tiêu $100$ gram.

Kiểm định t hai mẫu

Dùng khi bạn muốn so sánh trung bình của hai nhóm độc lập, chẳng hạn hai lớp học được dạy bằng hai phương pháp khác nhau.

Nếu bạn không có lý do mạnh để giả sử phương sai tổng thể bằng nhau, kiểm định t của Welch thường là lựa chọn mặc định an toàn hơn:

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Bậc tự do của kiểm định Welch không đơn giản là $n_1 + n_2 - 2$ , nên phần mềm thường sẽ xử lý phần này cho bạn.

Kiểm định t ghép cặp

Dùng cho dữ liệu trước–sau hoặc các cặp ghép tương ứng. Phép kiểm định không được thực hiện riêng trên hai cột dữ liệu gốc. Nó được thực hiện trên các hiệu số theo từng cặp.

t = \frac{\bar{d} - \mu_{d,0}}{s_d / \sqrt{n}}

Trong nhiều bài toán ghép cặp, giá trị không là $\mu_{d,0} = 0$ , nghĩa là mức thay đổi trung bình bằng không.

Khi nào kiểm định t là phù hợp

Kiểm định t phù hợp khi tất cả các điều sau đây đúng ở mức hợp lý:

Biến kết quả là biến số.
Các quan sát là độc lập trong thiết kế đã chọn, trừ khi bạn cố ý dùng thiết kế ghép cặp.
Câu hỏi nghiên cứu liên quan đến một trung bình hoặc chênh lệch trung bình.
Mẫu không quá nhỏ và không bị méo mạnh bởi ngoại lệ hoặc độ lệch lớn đến mức trung bình và độ lệch chuẩn trở nên gây hiểu lầm.

Nếu độ lệch chuẩn của tổng thể được biết chính xác, thì kiểm định $z$ trong sách giáo khoa sẽ là lựa chọn thay thế trực tiếp. Trong thực tế, kiểm định t phổ biến vì $\sigma$ thường không biết.

Ví dụ có lời giải: kiểm định t một mẫu

Giả sử một quy trình đóng gói được kỳ vọng có khối lượng trung bình là $100$ gram. Bạn lấy một mẫu ngẫu nhiên gồm $25$ gói và thu được

\bar{x} = 102, \quad s = 4

Bạn muốn biết liệu trung bình thực sự có khác $100$ gram hay không.

Vì đây là một mẫu được so sánh với một giá trị mục tiêu, phép kiểm định đúng là kiểm định t một mẫu.

Bắt đầu với các giả thuyết:

H_0: \mu = 100

H_1: \mu \ne 100

Sai số chuẩn là

\frac{s}{\sqrt{n}} = \frac{4}{\sqrt{25}} = \frac{4}{5} = 0.8

Bây giờ tính thống kê kiểm định:

t = \frac{102 - 100}{0.8} = 2.5

Bậc tự do là

df = n - 1 = 24

Với kiểm định hai phía và $df = 24$ , giá trị $t = 2.5$ cho p-value nhỏ hơn $0.05$ . Điều đó có nghĩa là kết quả có ý nghĩa thống kê ở mức $5\%$ , nên bạn bác bỏ $H_0$ .

Trong ngữ cảnh này, mẫu cung cấp bằng chứng rằng trung bình của quy trình khác $100$ gram. Kết luận đó phụ thuộc vào việc mẫu phải đủ độc lập và không bị méo nghiêm trọng bởi các ngoại lệ.

Những lỗi thường gặp với kiểm định t

Một lỗi phổ biến là chọn sai phiên bản của phép kiểm định. Nếu cùng một người, máy móc hoặc đơn vị được đo hai lần, thì dữ liệu là ghép cặp, nên kiểm định t hai mẫu độc lập là không phù hợp.

Một lỗi khác là hiểu “không có ý nghĩa thống kê” thành “không có khác biệt”. Thông thường, điều đó chỉ có nghĩa là mẫu chưa cung cấp đủ bằng chứng mạnh để bác bỏ giả thuyết không.

Lỗi thứ ba là bỏ qua bước kiểm tra dữ liệu. Với một mẫu rất nhỏ và một ngoại lệ cực đoan, công thức vẫn cho ra một con số, nhưng kết luận có thể không đáng tin cậy.

Kiểm định t được dùng ở đâu

Kiểm định t rất phổ biến trong thí nghiệm, kiểm soát chất lượng, y học, tâm lý học, giáo dục và các so sánh kiểu A/B khi biến kết quả là số. Đây là một trong những điểm khởi đầu tiêu chuẩn của suy luận thống kê vì nó kết nối trung bình, độ biến thiên, độ bất định và việc ra quyết định trong cùng một phương pháp.

Thử một bài tương tự

Hãy thay đổi ví dụ sao cho trung bình mẫu là $101$ thay vì $102$ , trong khi vẫn giữ $n = 25$ và $s = 4$ . Tính lại thống kê t và quyết định xem bằng chứng còn đủ mạnh ở mức $5\%$ hay không. Đây là bước tiếp theo hữu ích nếu bạn muốn thấy kết luận thay đổi thế nào khi trung bình mẫu tiến gần hơn đến giá trị theo giả thuyết không.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →