การวิเคราะห์การถดถอยอธิบายว่าผลลัพธ์เปลี่ยนไปอย่างไรเมื่อมีการเปลี่ยนแปลงของตัวแปรทำนายหนึ่งตัวหรือหลายตัว ใช้การถดถอยเชิงเส้นอย่างง่ายเมื่อมีตัวแปรทำนายหนึ่งตัวและผลลัพธ์เป็นตัวเลข ใช้การถดถอยเชิงเส้นพหุคูณเมื่อมีตัวแปรทำนายหลายตัวและผลลัพธ์เป็นตัวเลข และใช้การถดถอยโลจิสติกเมื่อผลลัพธ์เป็นแบบทวิภาค เช่น ผ่าน/ไม่ผ่าน

ความแตกต่างนี้ช่วยตอบคำถามหลักที่คนมักค้นหาได้อย่างรวดเร็ว:

  • การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข
  • การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เป็นตัวเลข
  • การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาค เช่น ใช่/ไม่ใช่ ผ่าน/ไม่ผ่าน หรือคลิก/ไม่คลิก

หลังจากนั้น งานสำคัญจริง ๆ คือการตีความ ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลสอดคล้องกับชนิดของผลลัพธ์และเหมาะสมกับข้อมูลพอสมควร

การวิเคราะห์การถดถอยทำอะไร

การถดถอยไม่ได้เป็นแค่การลากเส้นผ่านจุดข้อมูล แต่เป็นการสร้างกฎที่เชื่อมตัวแปรทำนายเข้ากับผลลัพธ์ที่คาดหวัง เพื่อให้คุณใช้อธิบายรูปแบบหรือพยากรณ์ได้

ในการถดถอยเชิงเส้น กฎนั้นคือโมเดลเส้นตรงสำหรับค่าคาดหมายของผลลัพธ์ ส่วนในการถดถอยโลจิสติก โมเดลถูกสร้างขึ้นสำหรับความน่าจะเป็น ดังนั้นค่าที่พยากรณ์ได้จะอยู่ระหว่าง 00 และ 11

การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข

การถดถอยเชิงเส้นอย่างง่ายใช้ตัวแปรทำนายหนึ่งตัว xx และผลลัพธ์เชิงตัวเลขหนึ่งตัว yy:

y^=b0+b1x\hat{y} = b_0 + b_1x

โดยที่ y^\hat{y} คือค่าผลลัพธ์ที่พยากรณ์ได้, b0b_0 คือจุดตัดแกน, และ b1b_1 คือความชัน

ความชัน b1b_1 บอกการเปลี่ยนแปลงที่คาดการณ์ได้ของ yy เมื่อ xx เพิ่มขึ้นหนึ่งหน่วย หากรูปแบบเส้นตรงเป็นการประมาณที่สมเหตุสมผลในช่วงที่คุณสนใจ

การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เชิงตัวเลขหนึ่งตัว

การถดถอยเชิงเส้นพหุคูณยังคงใช้แนวคิดพื้นฐานเดิม แต่ใช้ตัวแปรทำนายมากกว่าหนึ่งตัว:

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

วิธีนี้มีประโยชน์เมื่อการใช้ตัวแปรทำนายเพียงตัวเดียวเรียบง่ายเกินไป เพราะผลลัพธ์ในโลกจริงมักขึ้นอยู่กับหลายปัจจัยพร้อมกัน

จุดสำคัญในการตีความคือ b1b_1 หมายถึงการเปลี่ยนแปลงที่คาดการณ์ได้ของ yy เมื่อ x1x_1 เพิ่มขึ้นหนึ่งหน่วย โดยตรึงตัวแปรทำนายอื่นที่รวมอยู่ในโมเดลไว้คงที่

เงื่อนไขที่ว่า “ตรึงตัวแปรทำนายอื่นไว้คงที่” นี่เองที่ทำให้การถดถอยพหุคูณแตกต่างจากการเปรียบเทียบทีละตัวแปรหลาย ๆ ครั้ง

การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาคและความน่าจะเป็น

การถดถอยโลจิสติกใช้กับผลลัพธ์แบบทวิภาค ไม่ใช่ผลลัพธ์เชิงตัวเลข ถ้าผลลัพธ์เป็นลักษณะเช่น ได้รับคัดเลือกหรือไม่ได้รับคัดเลือก ยกเลิกบริการหรือใช้งานต่อ หรือผ่านหรือไม่ผ่าน การถดถอยเชิงเส้นมักไม่ใช่เครื่องมือที่เหมาะ

แทนที่จะสร้างแบบจำลองผลลัพธ์เองเป็นเส้นตรง การถดถอยโลจิสติกจะสร้างแบบจำลองของลอการิทึมของอัตราต่อรองของผลลัพธ์:

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

โดยที่ p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p)

ด้านซ้ายคือ log-odds ไม่ใช่ความน่าจะเป็นโดยตรง การตั้งค่าแบบนี้สำคัญเพราะความน่าจะเป็นต้องอยู่ระหว่าง 00 และ 11: โมเดลเส้นตรงธรรมดาอาจพยากรณ์ค่าที่เป็นไปไม่ได้ เช่น 1.21.2 หรือ 0.1-0.1 แต่การถดถอยโลจิสติกจะไม่เป็นเช่นนั้น

ตัวอย่างคำนวณ: พยากรณ์คะแนน เทียบกับพยากรณ์ผ่าน/ไม่ผ่าน

สมมติว่าครูต้องการศึกษาผลการเรียนของนักเรียน

ถ้าผลลัพธ์คือคะแนนสอบ และตัวแปรทำนายมีเพียงชั่วโมงอ่านหนังสือ โมเดลเชิงเส้นอย่างง่ายอาจเป็น

y^=42+5x\hat{y} = 42 + 5x

ถ้านักเรียนคนหนึ่งอ่านหนังสือ 66 ชั่วโมง คะแนนที่พยากรณ์ได้คือ

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

ในที่นี้ ความชันบอกว่าคะแนนที่พยากรณ์ได้เพิ่มขึ้น 55 คะแนนต่อชั่วโมงอ่านหนังสือที่เพิ่มขึ้นหนึ่งชั่วโมง หากโมเดลเชิงเส้นเหมาะสมกับข้อมูลพอสมควร

ตอนนี้สมมติว่าครูเพิ่มชั่วโมงนอนและจำนวนแบบทดสอบฝึกหัดเข้าไปด้วย โมเดลการถดถอยพหุคูณอาจเป็น

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

โดยที่ x1x_1 คือชั่วโมงอ่านหนังสือ, x2x_2 คือชั่วโมงนอน, และ x3x_3 คือจำนวนแบบทดสอบฝึกหัดที่ทำเสร็จ

ค่าสัมประสิทธิ์ 44 ตอนนี้มีความหมายเฉพาะมากขึ้น: มันคือการเปลี่ยนแปลงของคะแนนที่พยากรณ์ได้เมื่อชั่วโมงอ่านหนังสือเพิ่มขึ้นอีกหนึ่งชั่วโมง โดยตรึงชั่วโมงนอนและแบบทดสอบฝึกหัดไว้คงที่

ตอนนี้เปลี่ยนคำถาม แทนที่จะพยากรณ์คะแนน สมมติว่าครูต้องการหาความน่าจะเป็นที่นักเรียนจะสอบผ่าน แบบนี้ผลลัพธ์เป็นแบบทวิภาค ดังนั้นการถดถอยโลจิสติกจึงเป็นตัวเลือกที่เหมาะตามธรรมชาติ:

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

ถ้านักเรียนคนหนึ่งอ่านหนังสือ 66 ชั่วโมงและนอน 77 ชั่วโมง จะได้ว่า

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

ดังนั้นความน่าจะเป็นที่พยากรณ์ได้คือ

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

โมเดลนี้พยากรณ์ว่ามีโอกาสสอบผ่านประมาณ 91%91\% ตัวเลขที่แน่นอนเป็นเพียงตัวอย่างเท่านั้น แนวคิดสำคัญคือ เมื่อผลลัพธ์เปลี่ยนจากคะแนนเป็นผ่าน/ไม่ผ่าน ตระกูลของโมเดลถดถอยก็ควรเปลี่ยนตามไปด้วย

ข้อผิดพลาดที่พบบ่อยในการวิเคราะห์การถดถอย

ใช้การถดถอยเชิงเส้นกับผลลัพธ์แบบทวิภาค

ถ้าผลลัพธ์มีเพียง 00 หรือ 11 การถดถอยโลจิสติกมักเหมาะสมกว่า เพราะถูกออกแบบมาสำหรับความน่าจะเป็น การถดถอยเชิงเส้นอาจใช้เป็นการประมาณได้ในบางกรณีพิเศษ แต่ก็อาจให้ค่าพยากรณ์ความน่าจะเป็นที่ไม่ดีได้เช่นกัน

มองว่าการถดถอยเป็นหลักฐานของเหตุและผล

การถดถอยสามารถอธิบายความสัมพันธ์และช่วยในการพยากรณ์ได้ แต่โดยตัวมันเองไม่ได้พิสูจน์ว่าการเปลี่ยนแปลงของตัวแปรหนึ่งเป็นสาเหตุให้ผลลัพธ์เปลี่ยนไป

มองข้ามเงื่อนไขของโมเดล

ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลที่เลือกเหมาะสมกับข้อมูลพอสมควร สำหรับการถดถอยเชิงเส้น นั่นมักหมายถึงการตรวจสอบว่าการสรุปด้วยเส้นตรงสมเหตุสมผลหรือไม่ และความคลาดเคลื่อนมีรูปแบบบางอย่างที่โมเดลพลาดไปหรือไม่

ตีความค่าสัมประสิทธิ์ของการถดถอยพหุคูณมากเกินไป

ในการถดถอยพหุคูณ ค่าสัมประสิทธิ์หนึ่งตัวขึ้นอยู่กับตัวแปรทำนายอื่นที่รวมอยู่ในโมเดล หากมีตัวแปรสำคัญตกหล่น หรือถ้าตัวแปรทำนายมีความเกี่ยวพันกันอย่างมาก การตีความจะมีเสถียรภาพน้อยลง

การวิเคราะห์การถดถอยถูกใช้ที่ไหน

การถดถอยถูกใช้เมื่อคุณต้องการอธิบายความแปรผัน ประมาณความสัมพันธ์แบบมีเงื่อนไข หรือพยากรณ์จากข้อมูล

คุณจะพบได้ในงานพยากรณ์ทางธุรกิจ การแพทย์ สังคมศาสตร์ การควบคุมคุณภาพ การศึกษา และแมชชีนเลิร์นนิง รูปแบบที่ใช้จะขึ้นอยู่กับผลลัพธ์: ถ้าผลลัพธ์เป็นตัวเลขก็มักใช้โมเดลเชิงเส้น ส่วนถ้าผลลัพธ์เป็นแบบทวิภาคมักใช้โมเดลโลจิสติก

วิธีเลือกโมเดลการถดถอยที่เหมาะสม

เริ่มจากถามสองคำถามนี้ก่อน:

  1. ผลลัพธ์เป็นตัวเลขหรือเป็นแบบทวิภาค?
  2. ฉันต้องการรวมตัวแปรทำนายกี่ตัว?

ถ้าผลลัพธ์เป็นตัวเลข ให้เริ่มจากการถดถอยเชิงเส้น ถ้ามีตัวแปรทำนายหนึ่งตัว ก็เป็นการถดถอยเชิงเส้นอย่างง่าย ถ้ามีหลายตัว ก็เป็นการถดถอยเชิงเส้นพหุคูณ

ถ้าผลลัพธ์เป็นแบบทวิภาค ให้เริ่มจากการถดถอยโลจิสติก

สิ่งนี้ไม่ได้รับประกันว่าโมเดลจะดี แต่ช่วยให้คุณเข้าสู่ตระกูลโมเดลที่ถูกต้องได้อย่างรวดเร็ว

ลองทำโจทย์ที่คล้ายกัน

นำชุดข้อมูลเล็ก ๆ ชุดหนึ่งมา แล้วตั้งคำถามกับมันสองแบบ แบบแรกให้พยากรณ์ผลลัพธ์เชิงตัวเลข เช่น คะแนน จากนั้นแปลงผลลัพธ์ให้เป็นแบบทวิภาค เช่น ผ่านหรือไม่ผ่าน การเปรียบเทียบแบบวางคู่กันนี้เป็นหนึ่งในวิธีที่เร็วที่สุดที่จะทำให้การวิเคราะห์การถดถอยเข้าใจได้ชัดเจน

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →