การวิเคราะห์การถดถอยอธิบายว่าผลลัพธ์เปลี่ยนไปอย่างไรเมื่อมีการเปลี่ยนแปลงของตัวแปรทำนายหนึ่งตัวหรือหลายตัว ใช้การถดถอยเชิงเส้นอย่างง่ายเมื่อมีตัวแปรทำนายหนึ่งตัวและผลลัพธ์เป็นตัวเลข ใช้การถดถอยเชิงเส้นพหุคูณเมื่อมีตัวแปรทำนายหลายตัวและผลลัพธ์เป็นตัวเลข และใช้การถดถอยโลจิสติกเมื่อผลลัพธ์เป็นแบบทวิภาค เช่น ผ่าน/ไม่ผ่าน
ความแตกต่างนี้ช่วยตอบคำถามหลักที่คนมักค้นหาได้อย่างรวดเร็ว:
- การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข
- การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เป็นตัวเลข
- การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาค เช่น ใช่/ไม่ใช่ ผ่าน/ไม่ผ่าน หรือคลิก/ไม่คลิก
หลังจากนั้น งานสำคัญจริง ๆ คือการตีความ ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลสอดคล้องกับชนิดของผลลัพธ์และเหมาะสมกับข้อมูลพอสมควร
การวิเคราะห์การถดถอยทำอะไร
การถดถอยไม่ได้เป็นแค่การลากเส้นผ่านจุดข้อมูล แต่เป็นการสร้างกฎที่เชื่อมตัวแปรทำนายเข้ากับผลลัพธ์ที่คาดหวัง เพื่อให้คุณใช้อธิบายรูปแบบหรือพยากรณ์ได้
ในการถดถอยเชิงเส้น กฎนั้นคือโมเดลเส้นตรงสำหรับค่าคาดหมายของผลลัพธ์ ส่วนในการถดถอยโลจิสติก โมเดลถูกสร้างขึ้นสำหรับความน่าจะเป็น ดังนั้นค่าที่พยากรณ์ได้จะอยู่ระหว่าง และ
การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข
การถดถอยเชิงเส้นอย่างง่ายใช้ตัวแปรทำนายหนึ่งตัว และผลลัพธ์เชิงตัวเลขหนึ่งตัว :
โดยที่ คือค่าผลลัพธ์ที่พยากรณ์ได้, คือจุดตัดแกน, และ คือความชัน
ความชัน บอกการเปลี่ยนแปลงที่คาดการณ์ได้ของ เมื่อ เพิ่มขึ้นหนึ่งหน่วย หากรูปแบบเส้นตรงเป็นการประมาณที่สมเหตุสมผลในช่วงที่คุณสนใจ
การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เชิงตัวเลขหนึ่งตัว
การถดถอยเชิงเส้นพหุคูณยังคงใช้แนวคิดพื้นฐานเดิม แต่ใช้ตัวแปรทำนายมากกว่าหนึ่งตัว:
วิธีนี้มีประโยชน์เมื่อการใช้ตัวแปรทำนายเพียงตัวเดียวเรียบง่ายเกินไป เพราะผลลัพธ์ในโลกจริงมักขึ้นอยู่กับหลายปัจจัยพร้อมกัน
จุดสำคัญในการตีความคือ หมายถึงการเปลี่ยนแปลงที่คาดการณ์ได้ของ เมื่อ เพิ่มขึ้นหนึ่งหน่วย โดยตรึงตัวแปรทำนายอื่นที่รวมอยู่ในโมเดลไว้คงที่
เงื่อนไขที่ว่า “ตรึงตัวแปรทำนายอื่นไว้คงที่” นี่เองที่ทำให้การถดถอยพหุคูณแตกต่างจากการเปรียบเทียบทีละตัวแปรหลาย ๆ ครั้ง
การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาคและความน่าจะเป็น
การถดถอยโลจิสติกใช้กับผลลัพธ์แบบทวิภาค ไม่ใช่ผลลัพธ์เชิงตัวเลข ถ้าผลลัพธ์เป็นลักษณะเช่น ได้รับคัดเลือกหรือไม่ได้รับคัดเลือก ยกเลิกบริการหรือใช้งานต่อ หรือผ่านหรือไม่ผ่าน การถดถอยเชิงเส้นมักไม่ใช่เครื่องมือที่เหมาะ
แทนที่จะสร้างแบบจำลองผลลัพธ์เองเป็นเส้นตรง การถดถอยโลจิสติกจะสร้างแบบจำลองของลอการิทึมของอัตราต่อรองของผลลัพธ์:
โดยที่
ด้านซ้ายคือ log-odds ไม่ใช่ความน่าจะเป็นโดยตรง การตั้งค่าแบบนี้สำคัญเพราะความน่าจะเป็นต้องอยู่ระหว่าง และ : โมเดลเส้นตรงธรรมดาอาจพยากรณ์ค่าที่เป็นไปไม่ได้ เช่น หรือ แต่การถดถอยโลจิสติกจะไม่เป็นเช่นนั้น
ตัวอย่างคำนวณ: พยากรณ์คะแนน เทียบกับพยากรณ์ผ่าน/ไม่ผ่าน
สมมติว่าครูต้องการศึกษาผลการเรียนของนักเรียน
ถ้าผลลัพธ์คือคะแนนสอบ และตัวแปรทำนายมีเพียงชั่วโมงอ่านหนังสือ โมเดลเชิงเส้นอย่างง่ายอาจเป็น
ถ้านักเรียนคนหนึ่งอ่านหนังสือ ชั่วโมง คะแนนที่พยากรณ์ได้คือ
ในที่นี้ ความชันบอกว่าคะแนนที่พยากรณ์ได้เพิ่มขึ้น คะแนนต่อชั่วโมงอ่านหนังสือที่เพิ่มขึ้นหนึ่งชั่วโมง หากโมเดลเชิงเส้นเหมาะสมกับข้อมูลพอสมควร
ตอนนี้สมมติว่าครูเพิ่มชั่วโมงนอนและจำนวนแบบทดสอบฝึกหัดเข้าไปด้วย โมเดลการถดถอยพหุคูณอาจเป็น
โดยที่ คือชั่วโมงอ่านหนังสือ, คือชั่วโมงนอน, และ คือจำนวนแบบทดสอบฝึกหัดที่ทำเสร็จ
ค่าสัมประสิทธิ์ ตอนนี้มีความหมายเฉพาะมากขึ้น: มันคือการเปลี่ยนแปลงของคะแนนที่พยากรณ์ได้เมื่อชั่วโมงอ่านหนังสือเพิ่มขึ้นอีกหนึ่งชั่วโมง โดยตรึงชั่วโมงนอนและแบบทดสอบฝึกหัดไว้คงที่
ตอนนี้เปลี่ยนคำถาม แทนที่จะพยากรณ์คะแนน สมมติว่าครูต้องการหาความน่าจะเป็นที่นักเรียนจะสอบผ่าน แบบนี้ผลลัพธ์เป็นแบบทวิภาค ดังนั้นการถดถอยโลจิสติกจึงเป็นตัวเลือกที่เหมาะตามธรรมชาติ:
ถ้านักเรียนคนหนึ่งอ่านหนังสือ ชั่วโมงและนอน ชั่วโมง จะได้ว่า
ดังนั้นความน่าจะเป็นที่พยากรณ์ได้คือ
โมเดลนี้พยากรณ์ว่ามีโอกาสสอบผ่านประมาณ ตัวเลขที่แน่นอนเป็นเพียงตัวอย่างเท่านั้น แนวคิดสำคัญคือ เมื่อผลลัพธ์เปลี่ยนจากคะแนนเป็นผ่าน/ไม่ผ่าน ตระกูลของโมเดลถดถอยก็ควรเปลี่ยนตามไปด้วย
ข้อผิดพลาดที่พบบ่อยในการวิเคราะห์การถดถอย
ใช้การถดถอยเชิงเส้นกับผลลัพธ์แบบทวิภาค
ถ้าผลลัพธ์มีเพียง หรือ การถดถอยโลจิสติกมักเหมาะสมกว่า เพราะถูกออกแบบมาสำหรับความน่าจะเป็น การถดถอยเชิงเส้นอาจใช้เป็นการประมาณได้ในบางกรณีพิเศษ แต่ก็อาจให้ค่าพยากรณ์ความน่าจะเป็นที่ไม่ดีได้เช่นกัน
มองว่าการถดถอยเป็นหลักฐานของเหตุและผล
การถดถอยสามารถอธิบายความสัมพันธ์และช่วยในการพยากรณ์ได้ แต่โดยตัวมันเองไม่ได้พิสูจน์ว่าการเปลี่ยนแปลงของตัวแปรหนึ่งเป็นสาเหตุให้ผลลัพธ์เปลี่ยนไป
มองข้ามเงื่อนไขของโมเดล
ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลที่เลือกเหมาะสมกับข้อมูลพอสมควร สำหรับการถดถอยเชิงเส้น นั่นมักหมายถึงการตรวจสอบว่าการสรุปด้วยเส้นตรงสมเหตุสมผลหรือไม่ และความคลาดเคลื่อนมีรูปแบบบางอย่างที่โมเดลพลาดไปหรือไม่
ตีความค่าสัมประสิทธิ์ของการถดถอยพหุคูณมากเกินไป
ในการถดถอยพหุคูณ ค่าสัมประสิทธิ์หนึ่งตัวขึ้นอยู่กับตัวแปรทำนายอื่นที่รวมอยู่ในโมเดล หากมีตัวแปรสำคัญตกหล่น หรือถ้าตัวแปรทำนายมีความเกี่ยวพันกันอย่างมาก การตีความจะมีเสถียรภาพน้อยลง
การวิเคราะห์การถดถอยถูกใช้ที่ไหน
การถดถอยถูกใช้เมื่อคุณต้องการอธิบายความแปรผัน ประมาณความสัมพันธ์แบบมีเงื่อนไข หรือพยากรณ์จากข้อมูล
คุณจะพบได้ในงานพยากรณ์ทางธุรกิจ การแพทย์ สังคมศาสตร์ การควบคุมคุณภาพ การศึกษา และแมชชีนเลิร์นนิง รูปแบบที่ใช้จะขึ้นอยู่กับผลลัพธ์: ถ้าผลลัพธ์เป็นตัวเลขก็มักใช้โมเดลเชิงเส้น ส่วนถ้าผลลัพธ์เป็นแบบทวิภาคมักใช้โมเดลโลจิสติก
วิธีเลือกโมเดลการถดถอยที่เหมาะสม
เริ่มจากถามสองคำถามนี้ก่อน:
- ผลลัพธ์เป็นตัวเลขหรือเป็นแบบทวิภาค?
- ฉันต้องการรวมตัวแปรทำนายกี่ตัว?
ถ้าผลลัพธ์เป็นตัวเลข ให้เริ่มจากการถดถอยเชิงเส้น ถ้ามีตัวแปรทำนายหนึ่งตัว ก็เป็นการถดถอยเชิงเส้นอย่างง่าย ถ้ามีหลายตัว ก็เป็นการถดถอยเชิงเส้นพหุคูณ
ถ้าผลลัพธ์เป็นแบบทวิภาค ให้เริ่มจากการถดถอยโลจิสติก
สิ่งนี้ไม่ได้รับประกันว่าโมเดลจะดี แต่ช่วยให้คุณเข้าสู่ตระกูลโมเดลที่ถูกต้องได้อย่างรวดเร็ว
ลองทำโจทย์ที่คล้ายกัน
นำชุดข้อมูลเล็ก ๆ ชุดหนึ่งมา แล้วตั้งคำถามกับมันสองแบบ แบบแรกให้พยากรณ์ผลลัพธ์เชิงตัวเลข เช่น คะแนน จากนั้นแปลงผลลัพธ์ให้เป็นแบบทวิภาค เช่น ผ่านหรือไม่ผ่าน การเปรียบเทียบแบบวางคู่กันนี้เป็นหนึ่งในวิธีที่เร็วที่สุดที่จะทำให้การวิเคราะห์การถดถอยเข้าใจได้ชัดเจน
ต้องการความช่วยเหลือในการแก้โจทย์?
อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที
เปิด GPAI Solver →