การทดสอบสมมติฐาน

การทดสอบสมมติฐานเป็นวิธีใช้ถามว่า ข้อมูลตัวอย่างดูขัดแย้งกับข้ออ้างตั้งต้นมากเกินไปหรือไม่ ข้ออ้างตั้งต้นนั้นเรียกว่า สมมติฐานศูนย์ เขียนเป็น $H_0$ .

วิธีนี้ไม่ได้พิสูจน์ว่า $H_0$ จริงหรือเท็จ แต่จะถามคำถามที่แคบกว่านั้นว่า ถ้า $H_0$ เป็นจริง ข้อมูลที่รุนแรงระดับนี้จะผิดปกติมากพอจนเราควรตั้งข้อสงสัยหรือไม่

แนวคิดหลัก

การทดสอบสมมติฐานทุกแบบมีข้อความที่แข่งขันกันอยู่สองข้อ:

สมมติฐานศูนย์ $H_0$ ซึ่งเป็นข้ออ้างตั้งต้นที่กำลังถูกทดสอบ
สมมติฐานทางเลือก $H_1$ หรือ $H_a$ ซึ่งเป็นสิ่งที่คุณจะสนับสนุนถ้าข้อมูลมีหลักฐานมากพอต่อต้าน $H_0$

จากนั้นคุณจะเลือกระดับนัยสำคัญ $\alpha$ ซึ่งมักใช้ $0.05$ ก่อนดูผลลัพธ์ ค่านี้เป็นเกณฑ์ว่าคุณต้องการหลักฐานมากแค่ไหนก่อนจะปฏิเสธ $H_0$

ผลลัพธ์ที่เป็นไปได้มีสองแบบ:

ปฏิเสธ $H_0$ : ข้อมูลไม่สอดคล้องกับแบบจำลองภายใต้สมมติฐานศูนย์มากพอ
ไม่ปฏิเสธ $H_0$ : ข้อมูลยังไม่หนักแน่นพอที่จะตัดแบบจำลองภายใต้สมมติฐานศูนย์ทิ้ง

คำว่า "ไม่ปฏิเสธ" ไม่ได้แปลว่า "ยอมรับว่าเป็นจริง" แต่หมายถึงเพียงว่า ตัวอย่างยังให้หลักฐานต่อต้าน $H_0$ ไม่มากพอ

ขั้นตอนที่ใช้กันทั่วไป

ลำดับการทำงานโดยทั่วไปคือ:

ระบุ $H_0$ และ $H_1$ ให้ชัดเจน
เลือก $\alpha$ และเลือกการทดสอบที่เหมาะกับข้อมูลและสมมติฐานที่ใช้
คำนวณค่าสถิติทดสอบจากตัวอย่าง
แปลงค่านั้นเป็นค่า $p$ -value หรือเปรียบเทียบกับค่าวิกฤต
ตัดสินใจและแปลความหมายตามบริบท

ค่าสถิติทดสอบขึ้นอยู่กับสถานการณ์ เช่น การทดสอบ $z$ การทดสอบ $t$ การทดสอบไคสแควร์ และอีกหลายแบบ ล้วนเป็นตัวอย่างของการทดสอบสมมติฐาน ไม่มีสูตรเดียวที่ใช้ได้กับการทดสอบสมมติฐานทั้งหมด

$p$ -Value หมายถึงอะไร

$p$ -value คือความน่าจะเป็น ภายใต้สมมติว่า $H_0$ เป็นจริงและเงื่อนไขของการทดสอบเป็นไปตามที่กำหนด ที่จะได้ผลลัพธ์อย่างน้อยรุนแรงเท่ากับค่าที่สังเกตได้

ถ้า $p$ -value มีค่าน้อย แปลว่าข้อมูลแบบนี้จะพบได้ยากภายใต้ $H_0$ นี่จึงเป็นเหตุผลที่ $p$ -value เล็กถือเป็นหลักฐานต่อต้านสมมติฐานศูนย์

แต่มันไม่ได้หมายถึง:

ความน่าจะเป็นที่ $H_0$ เป็นเท็จ
ความน่าจะเป็นที่ผลของคุณเกิดขึ้น "เพราะความบังเอิญ" ในความหมายกว้างแบบภาษาทั่วไป
ขนาดหรือความสำคัญของผลกระทบ

ประเภทหลักของการทดสอบสมมติฐาน

มีสองวิธีที่มีประโยชน์ในการจัดกลุ่มการทดสอบ

แบ่งตามทิศทาง

การทดสอบทางเดียวจะมองหาการเปลี่ยนแปลงเพียงทิศทางเดียว

หางขวา: ค่าที่มากกว่าข้ออ้างในสมมติฐานศูนย์สนับสนุน $H_1$
หางซ้าย: ค่าที่น้อยกว่าข้ออ้างในสมมติฐานศูนย์สนับสนุน $H_1$

การทดสอบสองทางจะมองหาความแตกต่างได้ทั้งสองทิศทาง ถ้า $H_1$ คือ "ไม่เท่ากับ" เขตปฏิเสธจะถูกแบ่งไปอยู่ที่ปลายทั้งสองด้าน

แบ่งตามลักษณะข้อมูล

การทดสอบ $z$ ใช้ในบางกรณีของการทดสอบค่าเฉลี่ย เมื่อทราบส่วนเบี่ยงเบนมาตรฐานของประชากร หรือใช้การประมาณแบบตัวอย่างขนาดใหญ่ที่มีเหตุผลรองรับ
การทดสอบ $t$ มักใช้กับค่าเฉลี่ยเมื่อไม่ทราบส่วนเบี่ยงเบนมาตรฐานของประชากร และเงื่อนไขต่าง ๆ สมเหตุสมผล
การทดสอบไคสแควร์ใช้กับข้อมูลนับเชิงจัดหมวดหมู่

การเลือกการทดสอบที่ถูกต้องขึ้นอยู่กับชนิดของตัวแปร รูปแบบการเก็บตัวอย่าง และสมมติฐานที่ใช้ ความผิดพลาดที่พบบ่อยคือเลือกสูตรก่อน แล้วค่อยคิดคำถามทีหลัง

ตัวอย่างคำนวณ

สมมติว่าเครื่องบรรจุของเหลวควรมีค่าเฉลี่ย $500$ mL ต่อขวด ทีมควบคุมคุณภาพสุ่มตัวอย่างขวดมา $36$ ขวด และได้ค่าเฉลี่ยตัวอย่างเท่ากับ $496$ mL

สำหรับตัวอย่างนี้ สมมติว่าทราบส่วนเบี่ยงเบนมาตรฐานของประชากรว่า $\sigma = 12$ mL และเงื่อนไขการสุ่มตัวอย่างเหมาะสมสำหรับการทดสอบ $z$ แบบหนึ่งตัวอย่าง

ตั้งสมมติฐานได้ดังนี้:

H_0: \mu = 500

H_1: \mu < 500

นี่เป็นการทดสอบหางซ้าย เพราะสิ่งที่กังวลคือการบรรจุน้อยกว่าที่กำหนด

ค่าคลาดเคลื่อนมาตรฐานคือ

\frac{\sigma}{\sqrt{n}} = \frac{12}{\sqrt{36}} = 2

ดังนั้นค่าสถิติทดสอบคือ

z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{496 - 500}{2} = -2

ถ้า $\alpha = 0.05$ สำหรับการทดสอบ $z$ แบบหางซ้าย ค่าวิกฤตจะอยู่ประมาณ $-1.645$ เนื่องจาก $-2 < -1.645$ ผลลัพธ์นี้จึงอยู่ในเขตปฏิเสธ

ดังนั้นคำตัดสินคือ ปฏิเสธ $H_0$ ที่ระดับ $5\%$ เมื่อตีความตามบริบท ตัวอย่างนี้ให้หลักฐานว่าโดยเฉลี่ยแล้วเครื่องกำลังบรรจุน้อยกว่าที่ควร

ข้อสรุปนี้ขึ้นอยู่กับสมมติฐานของการทดสอบ ถ้าสมมติฐานเหล่านั้นไม่เหมาะสม ข้อสรุปก็อาจไม่น่าเชื่อถือ แม้ว่าการคำนวณจะถูกต้องก็ตาม

ความผิดพลาดประเภทที่ I และประเภทที่ II

การทดสอบสมมติฐานมีความเสี่ยงต่อความผิดพลาดเสมอ

ความผิดพลาดประเภทที่ I หมายถึงการปฏิเสธ $H_0$ ทั้งที่จริง ๆ แล้วมันเป็นจริง ความน่าจะเป็นของความผิดพลาดนี้ถูกควบคุมโดย $\alpha$

ความผิดพลาดประเภทที่ II หมายถึงการไม่ปฏิเสธ $H_0$ ทั้งที่จริง ๆ แล้ว $H_1$ เป็นจริง ความน่าจะเป็นของมันมักเขียนเป็น $\beta$

การลดค่า $\alpha$ จะช่วยให้การเตือนผิดพลาดเกิดขึ้นน้อยลง แต่ก็อาจทำให้ตรวจพบผลที่มีอยู่จริงได้ยากขึ้น ถ้าไม่มีอย่างอื่นเปลี่ยนแปลง การแลกเปลี่ยนนี้เป็นเหตุผลหนึ่งที่ขนาดตัวอย่างมีความสำคัญ

ข้อผิดพลาดที่พบบ่อย

ข้อผิดพลาดที่พบบ่อยอย่างหนึ่งคือการบอกว่า ผลที่ไม่มีนัยสำคัญพิสูจน์ว่าไม่มีผลกระทบ โดยทั่วไปแล้วมันเพียงแค่บอกว่าข้อมูลยังไม่หนักแน่นพอที่จะตรวจพบผลนั้น

อีกข้อผิดพลาดหนึ่งคือมองว่านัยสำคัญทางสถิติเท่ากับความสำคัญในทางปฏิบัติ ผลกระทบที่เล็กมากก็อาจมีนัยสำคัญทางสถิติได้ หากขนาดตัวอย่างใหญ่มาก

ผู้คนยังใช้การทดสอบผิดวิธีด้วยการมองข้ามสมมติฐานเรื่องความเป็นอิสระ รูปร่างการแจกแจง ความแปรปรวน หรือชนิดของข้อมูล ต่อให้ $p$ -value ดูเรียบร้อยแค่ไหน ก็ไม่สามารถช่วยการทดสอบที่เลือกไม่ตรงกับสถานการณ์ได้

การทดสอบสมมติฐานใช้เมื่อใด

การทดสอบสมมติฐานถูกใช้ในวิทยาศาสตร์ การผลิต การแพทย์ แบบสำรวจ การทดสอบ A/B และการวิเคราะห์นโยบาย เป้าหมายมักเหมือนกันคือ ตัดสินว่าข้อมูลตัวอย่างมีหลักฐานมากพอที่จะตั้งคำถามกับข้ออ้างตั้งต้นหรือไม่

ในทางปฏิบัติ การทดสอบที่ดีไม่ได้มีแค่เรื่องการคำนวณเท่านั้น แต่ยังต้องมีสมมติฐานศูนย์ที่สมเหตุสมผล การออกแบบการเก็บข้อมูลที่ป้องกันข้อโต้แย้งได้ และการตีความที่สอดคล้องกับสิ่งที่การทดสอบบอกได้จริง

ลองทำเวอร์ชันของคุณเอง

ใช้ตัวอย่างการบรรจุขวดเดิม แต่เปลี่ยนค่าเฉลี่ยตัวอย่างเป็น $498$ mL แล้วคำนวณค่าสถิติทดสอบใหม่เพื่อดูว่าคำตัดสินจะเปลี่ยนหรือไม่เมื่อ $\alpha = 0.05$ นี่เป็นวิธีเร็ว ๆ ที่ช่วยให้เห็นว่า หลักฐานจะแข็งแรงขึ้นหรืออ่อนลงอย่างไรเมื่อผลจากตัวอย่างขยับเข้าใกล้ค่าภายใต้สมมติฐานศูนย์มากขึ้น

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →