การทดสอบสมมติฐานเป็นวิธีใช้ถามว่า ข้อมูลตัวอย่างดูขัดแย้งกับข้ออ้างตั้งต้นมากเกินไปหรือไม่ ข้ออ้างตั้งต้นนั้นเรียกว่า สมมติฐานศูนย์ เขียนเป็น .
วิธีนี้ไม่ได้พิสูจน์ว่า จริงหรือเท็จ แต่จะถามคำถามที่แคบกว่านั้นว่า ถ้า เป็นจริง ข้อมูลที่รุนแรงระดับนี้จะผิดปกติมากพอจนเราควรตั้งข้อสงสัยหรือไม่
แนวคิดหลัก
การทดสอบสมมติฐานทุกแบบมีข้อความที่แข่งขันกันอยู่สองข้อ:
- สมมติฐานศูนย์ ซึ่งเป็นข้ออ้างตั้งต้นที่กำลังถูกทดสอบ
- สมมติฐานทางเลือก หรือ ซึ่งเป็นสิ่งที่คุณจะสนับสนุนถ้าข้อมูลมีหลักฐานมากพอต่อต้าน
จากนั้นคุณจะเลือกระดับนัยสำคัญ ซึ่งมักใช้ ก่อนดูผลลัพธ์ ค่านี้เป็นเกณฑ์ว่าคุณต้องการหลักฐานมากแค่ไหนก่อนจะปฏิเสธ
ผลลัพธ์ที่เป็นไปได้มีสองแบบ:
- ปฏิเสธ : ข้อมูลไม่สอดคล้องกับแบบจำลองภายใต้สมมติฐานศูนย์มากพอ
- ไม่ปฏิเสธ : ข้อมูลยังไม่หนักแน่นพอที่จะตัดแบบจำลองภายใต้สมมติฐานศูนย์ทิ้ง
คำว่า "ไม่ปฏิเสธ" ไม่ได้แปลว่า "ยอมรับว่าเป็นจริง" แต่หมายถึงเพียงว่า ตัวอย่างยังให้หลักฐานต่อต้าน ไม่มากพอ
ขั้นตอนที่ใช้กันทั่วไป
ลำดับการทำงานโดยทั่วไปคือ:
- ระบุ และ ให้ชัดเจน
- เลือก และเลือกการทดสอบที่เหมาะกับข้อมูลและสมมติฐานที่ใช้
- คำนวณค่าสถิติทดสอบจากตัวอย่าง
- แปลงค่านั้นเป็นค่า -value หรือเปรียบเทียบกับค่าวิกฤต
- ตัดสินใจและแปลความหมายตามบริบท
ค่าสถิติทดสอบขึ้นอยู่กับสถานการณ์ เช่น การทดสอบ การทดสอบ การทดสอบไคสแควร์ และอีกหลายแบบ ล้วนเป็นตัวอย่างของการทดสอบสมมติฐาน ไม่มีสูตรเดียวที่ใช้ได้กับการทดสอบสมมติฐานทั้งหมด
-Value หมายถึงอะไร
-value คือความน่าจะเป็น ภายใต้สมมติว่า เป็นจริงและเงื่อนไขของการทดสอบเป็นไปตามที่กำหนด ที่จะได้ผลลัพธ์อย่างน้อยรุนแรงเท่ากับค่าที่สังเกตได้
ถ้า -value มีค่าน้อย แปลว่าข้อมูลแบบนี้จะพบได้ยากภายใต้ นี่จึงเป็นเหตุผลที่ -value เล็กถือเป็นหลักฐานต่อต้านสมมติฐานศูนย์
แต่มันไม่ได้หมายถึง:
- ความน่าจะเป็นที่ เป็นเท็จ
- ความน่าจะเป็นที่ผลของคุณเกิดขึ้น "เพราะความบังเอิญ" ในความหมายกว้างแบบภาษาทั่วไป
- ขนาดหรือความสำคัญของผลกระทบ
ประเภทหลักของการทดสอบสมมติฐาน
มีสองวิธีที่มีประโยชน์ในการจัดกลุ่มการทดสอบ
แบ่งตามทิศทาง
การทดสอบทางเดียวจะมองหาการเปลี่ยนแปลงเพียงทิศทางเดียว
- หางขวา: ค่าที่มากกว่าข้ออ้างในสมมติฐานศูนย์สนับสนุน
- หางซ้าย: ค่าที่น้อยกว่าข้ออ้างในสมมติฐานศูนย์สนับสนุน
การทดสอบสองทางจะมองหาความแตกต่างได้ทั้งสองทิศทาง ถ้า คือ "ไม่เท่ากับ" เขตปฏิเสธจะถูกแบ่งไปอยู่ที่ปลายทั้งสองด้าน
แบ่งตามลักษณะข้อมูล
- การทดสอบ ใช้ในบางกรณีของการทดสอบค่าเฉลี่ย เมื่อทราบส่วนเบี่ยงเบนมาตรฐานของประชากร หรือใช้การประมาณแบบตัวอย่างขนาดใหญ่ที่มีเหตุผลรองรับ
- การทดสอบ มักใช้กับค่าเฉลี่ยเมื่อไม่ทราบส่วนเบี่ยงเบนมาตรฐานของประชากร และเงื่อนไขต่าง ๆ สมเหตุสมผล
- การทดสอบไคสแควร์ใช้กับข้อมูลนับเชิงจัดหมวดหมู่
การเลือกการทดสอบที่ถูกต้องขึ้นอยู่กับชนิดของตัวแปร รูปแบบการเก็บตัวอย่าง และสมมติฐานที่ใช้ ความผิดพลาดที่พบบ่อยคือเลือกสูตรก่อน แล้วค่อยคิดคำถามทีหลัง
ตัวอย่างคำนวณ
สมมติว่าเครื่องบรรจุของเหลวควรมีค่าเฉลี่ย mL ต่อขวด ทีมควบคุมคุณภาพสุ่มตัวอย่างขวดมา ขวด และได้ค่าเฉลี่ยตัวอย่างเท่ากับ mL
สำหรับตัวอย่างนี้ สมมติว่าทราบส่วนเบี่ยงเบนมาตรฐานของประชากรว่า mL และเงื่อนไขการสุ่มตัวอย่างเหมาะสมสำหรับการทดสอบ แบบหนึ่งตัวอย่าง
ตั้งสมมติฐานได้ดังนี้:
นี่เป็นการทดสอบหางซ้าย เพราะสิ่งที่กังวลคือการบรรจุน้อยกว่าที่กำหนด
ค่าคลาดเคลื่อนมาตรฐานคือ
ดังนั้นค่าสถิติทดสอบคือ
ถ้า สำหรับการทดสอบ แบบหางซ้าย ค่าวิกฤตจะอยู่ประมาณ เนื่องจาก ผลลัพธ์นี้จึงอยู่ในเขตปฏิเสธ
ดังนั้นคำตัดสินคือ ปฏิเสธ ที่ระดับ เมื่อตีความตามบริบท ตัวอย่างนี้ให้หลักฐานว่าโดยเฉลี่ยแล้วเครื่องกำลังบรรจุน้อยกว่าที่ควร
ข้อสรุปนี้ขึ้นอยู่กับสมมติฐานของการทดสอบ ถ้าสมมติฐานเหล่านั้นไม่เหมาะสม ข้อสรุปก็อาจไม่น่าเชื่อถือ แม้ว่าการคำนวณจะถูกต้องก็ตาม
ความผิดพลาดประเภทที่ I และประเภทที่ II
การทดสอบสมมติฐานมีความเสี่ยงต่อความผิดพลาดเสมอ
ความผิดพลาดประเภทที่ I หมายถึงการปฏิเสธ ทั้งที่จริง ๆ แล้วมันเป็นจริง ความน่าจะเป็นของความผิดพลาดนี้ถูกควบคุมโดย
ความผิดพลาดประเภทที่ II หมายถึงการไม่ปฏิเสธ ทั้งที่จริง ๆ แล้ว เป็นจริง ความน่าจะเป็นของมันมักเขียนเป็น
การลดค่า จะช่วยให้การเตือนผิดพลาดเกิดขึ้นน้อยลง แต่ก็อาจทำให้ตรวจพบผลที่มีอยู่จริงได้ยากขึ้น ถ้าไม่มีอย่างอื่นเปลี่ยนแปลง การแลกเปลี่ยนนี้เป็นเหตุผลหนึ่งที่ขนาดตัวอย่างมีความสำคัญ
ข้อผิดพลาดที่พบบ่อย
ข้อผิดพลาดที่พบบ่อยอย่างหนึ่งคือการบอกว่า ผลที่ไม่มีนัยสำคัญพิสูจน์ว่าไม่มีผลกระทบ โดยทั่วไปแล้วมันเพียงแค่บอกว่าข้อมูลยังไม่หนักแน่นพอที่จะตรวจพบผลนั้น
อีกข้อผิดพลาดหนึ่งคือมองว่านัยสำคัญทางสถิติเท่ากับความสำคัญในทางปฏิบัติ ผลกระทบที่เล็กมากก็อาจมีนัยสำคัญทางสถิติได้ หากขนาดตัวอย่างใหญ่มาก
ผู้คนยังใช้การทดสอบผิดวิธีด้วยการมองข้ามสมมติฐานเรื่องความเป็นอิสระ รูปร่างการแจกแจง ความแปรปรวน หรือชนิดของข้อมูล ต่อให้ -value ดูเรียบร้อยแค่ไหน ก็ไม่สามารถช่วยการทดสอบที่เลือกไม่ตรงกับสถานการณ์ได้
การทดสอบสมมติฐานใช้เมื่อใด
การทดสอบสมมติฐานถูกใช้ในวิทยาศาสตร์ การผลิต การแพทย์ แบบสำรวจ การทดสอบ A/B และการวิเคราะห์นโยบาย เป้าหมายมักเหมือนกันคือ ตัดสินว่าข้อมูลตัวอย่างมีหลักฐานมากพอที่จะตั้งคำถามกับข้ออ้างตั้งต้นหรือไม่
ในทางปฏิบัติ การทดสอบที่ดีไม่ได้มีแค่เรื่องการคำนวณเท่านั้น แต่ยังต้องมีสมมติฐานศูนย์ที่สมเหตุสมผล การออกแบบการเก็บข้อมูลที่ป้องกันข้อโต้แย้งได้ และการตีความที่สอดคล้องกับสิ่งที่การทดสอบบอกได้จริง
ลองทำเวอร์ชันของคุณเอง
ใช้ตัวอย่างการบรรจุขวดเดิม แต่เปลี่ยนค่าเฉลี่ยตัวอย่างเป็น mL แล้วคำนวณค่าสถิติทดสอบใหม่เพื่อดูว่าคำตัดสินจะเปลี่ยนหรือไม่เมื่อ นี่เป็นวิธีเร็ว ๆ ที่ช่วยให้เห็นว่า หลักฐานจะแข็งแรงขึ้นหรืออ่อนลงอย่างไรเมื่อผลจากตัวอย่างขยับเข้าใกล้ค่าภายใต้สมมติฐานศูนย์มากขึ้น
ต้องการความช่วยเหลือในการแก้โจทย์?
อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที
เปิด GPAI Solver →