การวิเคราะห์การถดถอย — แบบเชิงเส้นอย่างง่าย พหุคูณ และโลจิสติก

การวิเคราะห์การถดถอยอธิบายว่าผลลัพธ์เปลี่ยนไปอย่างไรเมื่อมีการเปลี่ยนแปลงของตัวแปรทำนายหนึ่งตัวหรือหลายตัว ใช้การถดถอยเชิงเส้นอย่างง่ายเมื่อมีตัวแปรทำนายหนึ่งตัวและผลลัพธ์เป็นตัวเลข ใช้การถดถอยเชิงเส้นพหุคูณเมื่อมีตัวแปรทำนายหลายตัวและผลลัพธ์เป็นตัวเลข และใช้การถดถอยโลจิสติกเมื่อผลลัพธ์เป็นแบบทวิภาค เช่น ผ่าน/ไม่ผ่าน

ความแตกต่างนี้ช่วยตอบคำถามหลักที่คนมักค้นหาได้อย่างรวดเร็ว:

การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข
การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เป็นตัวเลข
การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาค เช่น ใช่/ไม่ใช่ ผ่าน/ไม่ผ่าน หรือคลิก/ไม่คลิก

หลังจากนั้น งานสำคัญจริง ๆ คือการตีความ ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลสอดคล้องกับชนิดของผลลัพธ์และเหมาะสมกับข้อมูลพอสมควร

การวิเคราะห์การถดถอยทำอะไร

การถดถอยไม่ได้เป็นแค่การลากเส้นผ่านจุดข้อมูล แต่เป็นการสร้างกฎที่เชื่อมตัวแปรทำนายเข้ากับผลลัพธ์ที่คาดหวัง เพื่อให้คุณใช้อธิบายรูปแบบหรือพยากรณ์ได้

ในการถดถอยเชิงเส้น กฎนั้นคือโมเดลเส้นตรงสำหรับค่าคาดหมายของผลลัพธ์ ส่วนในการถดถอยโลจิสติก โมเดลถูกสร้างขึ้นสำหรับความน่าจะเป็น ดังนั้นค่าที่พยากรณ์ได้จะอยู่ระหว่าง $0$ และ $1$

การถดถอยเชิงเส้นอย่างง่าย: ตัวแปรทำนายหนึ่งตัว ผลลัพธ์เป็นตัวเลข

การถดถอยเชิงเส้นอย่างง่ายใช้ตัวแปรทำนายหนึ่งตัว $x$ และผลลัพธ์เชิงตัวเลขหนึ่งตัว $y$ :

\hat{y} = b_0 + b_1x

โดยที่ $\hat{y}$ คือค่าผลลัพธ์ที่พยากรณ์ได้, $b_0$ คือจุดตัดแกน, และ $b_1$ คือความชัน

ความชัน $b_1$ บอกการเปลี่ยนแปลงที่คาดการณ์ได้ของ $y$ เมื่อ $x$ เพิ่มขึ้นหนึ่งหน่วย หากรูปแบบเส้นตรงเป็นการประมาณที่สมเหตุสมผลในช่วงที่คุณสนใจ

การถดถอยเชิงเส้นพหุคูณ: ตัวแปรทำนายหลายตัว ผลลัพธ์เชิงตัวเลขหนึ่งตัว

การถดถอยเชิงเส้นพหุคูณยังคงใช้แนวคิดพื้นฐานเดิม แต่ใช้ตัวแปรทำนายมากกว่าหนึ่งตัว:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

วิธีนี้มีประโยชน์เมื่อการใช้ตัวแปรทำนายเพียงตัวเดียวเรียบง่ายเกินไป เพราะผลลัพธ์ในโลกจริงมักขึ้นอยู่กับหลายปัจจัยพร้อมกัน

จุดสำคัญในการตีความคือ $b_1$ หมายถึงการเปลี่ยนแปลงที่คาดการณ์ได้ของ $y$ เมื่อ $x_1$ เพิ่มขึ้นหนึ่งหน่วย โดยตรึงตัวแปรทำนายอื่นที่รวมอยู่ในโมเดลไว้คงที่

เงื่อนไขที่ว่า “ตรึงตัวแปรทำนายอื่นไว้คงที่” นี่เองที่ทำให้การถดถอยพหุคูณแตกต่างจากการเปรียบเทียบทีละตัวแปรหลาย ๆ ครั้ง

การถดถอยโลจิสติก: ผลลัพธ์แบบทวิภาคและความน่าจะเป็น

การถดถอยโลจิสติกใช้กับผลลัพธ์แบบทวิภาค ไม่ใช่ผลลัพธ์เชิงตัวเลข ถ้าผลลัพธ์เป็นลักษณะเช่น ได้รับคัดเลือกหรือไม่ได้รับคัดเลือก ยกเลิกบริการหรือใช้งานต่อ หรือผ่านหรือไม่ผ่าน การถดถอยเชิงเส้นมักไม่ใช่เครื่องมือที่เหมาะ

แทนที่จะสร้างแบบจำลองผลลัพธ์เองเป็นเส้นตรง การถดถอยโลจิสติกจะสร้างแบบจำลองของลอการิทึมของอัตราต่อรองของผลลัพธ์:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

โดยที่ $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$

ด้านซ้ายคือ log-odds ไม่ใช่ความน่าจะเป็นโดยตรง การตั้งค่าแบบนี้สำคัญเพราะความน่าจะเป็นต้องอยู่ระหว่าง $0$ และ $1$ : โมเดลเส้นตรงธรรมดาอาจพยากรณ์ค่าที่เป็นไปไม่ได้ เช่น $1.2$ หรือ $-0.1$ แต่การถดถอยโลจิสติกจะไม่เป็นเช่นนั้น

ตัวอย่างคำนวณ: พยากรณ์คะแนน เทียบกับพยากรณ์ผ่าน/ไม่ผ่าน

สมมติว่าครูต้องการศึกษาผลการเรียนของนักเรียน

ถ้าผลลัพธ์คือคะแนนสอบ และตัวแปรทำนายมีเพียงชั่วโมงอ่านหนังสือ โมเดลเชิงเส้นอย่างง่ายอาจเป็น

\hat{y} = 42 + 5x

ถ้านักเรียนคนหนึ่งอ่านหนังสือ $6$ ชั่วโมง คะแนนที่พยากรณ์ได้คือ

\hat{y} = 42 + 5(6) = 72

ในที่นี้ ความชันบอกว่าคะแนนที่พยากรณ์ได้เพิ่มขึ้น $5$ คะแนนต่อชั่วโมงอ่านหนังสือที่เพิ่มขึ้นหนึ่งชั่วโมง หากโมเดลเชิงเส้นเหมาะสมกับข้อมูลพอสมควร

ตอนนี้สมมติว่าครูเพิ่มชั่วโมงนอนและจำนวนแบบทดสอบฝึกหัดเข้าไปด้วย โมเดลการถดถอยพหุคูณอาจเป็น

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

โดยที่ $x_1$ คือชั่วโมงอ่านหนังสือ, $x_2$ คือชั่วโมงนอน, และ $x_3$ คือจำนวนแบบทดสอบฝึกหัดที่ทำเสร็จ

ค่าสัมประสิทธิ์ $4$ ตอนนี้มีความหมายเฉพาะมากขึ้น: มันคือการเปลี่ยนแปลงของคะแนนที่พยากรณ์ได้เมื่อชั่วโมงอ่านหนังสือเพิ่มขึ้นอีกหนึ่งชั่วโมง โดยตรึงชั่วโมงนอนและแบบทดสอบฝึกหัดไว้คงที่

ตอนนี้เปลี่ยนคำถาม แทนที่จะพยากรณ์คะแนน สมมติว่าครูต้องการหาความน่าจะเป็นที่นักเรียนจะสอบผ่าน แบบนี้ผลลัพธ์เป็นแบบทวิภาค ดังนั้นการถดถอยโลจิสติกจึงเป็นตัวเลือกที่เหมาะตามธรรมชาติ:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

ถ้านักเรียนคนหนึ่งอ่านหนังสือ $6$ ชั่วโมงและนอน $7$ ชั่วโมง จะได้ว่า

-6 + 0.8(6) + 0.5(7) = 2.3

ดังนั้นความน่าจะเป็นที่พยากรณ์ได้คือ

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

โมเดลนี้พยากรณ์ว่ามีโอกาสสอบผ่านประมาณ $91\%$ ตัวเลขที่แน่นอนเป็นเพียงตัวอย่างเท่านั้น แนวคิดสำคัญคือ เมื่อผลลัพธ์เปลี่ยนจากคะแนนเป็นผ่าน/ไม่ผ่าน ตระกูลของโมเดลถดถอยก็ควรเปลี่ยนตามไปด้วย

ข้อผิดพลาดที่พบบ่อยในการวิเคราะห์การถดถอย

ใช้การถดถอยเชิงเส้นกับผลลัพธ์แบบทวิภาค

ถ้าผลลัพธ์มีเพียง $0$ หรือ $1$ การถดถอยโลจิสติกมักเหมาะสมกว่า เพราะถูกออกแบบมาสำหรับความน่าจะเป็น การถดถอยเชิงเส้นอาจใช้เป็นการประมาณได้ในบางกรณีพิเศษ แต่ก็อาจให้ค่าพยากรณ์ความน่าจะเป็นที่ไม่ดีได้เช่นกัน

มองว่าการถดถอยเป็นหลักฐานของเหตุและผล

การถดถอยสามารถอธิบายความสัมพันธ์และช่วยในการพยากรณ์ได้ แต่โดยตัวมันเองไม่ได้พิสูจน์ว่าการเปลี่ยนแปลงของตัวแปรหนึ่งเป็นสาเหตุให้ผลลัพธ์เปลี่ยนไป

มองข้ามเงื่อนไขของโมเดล

ค่าสัมประสิทธิ์จะมีความหมายตามที่คุณเข้าใจก็ต่อเมื่อโมเดลที่เลือกเหมาะสมกับข้อมูลพอสมควร สำหรับการถดถอยเชิงเส้น นั่นมักหมายถึงการตรวจสอบว่าการสรุปด้วยเส้นตรงสมเหตุสมผลหรือไม่ และความคลาดเคลื่อนมีรูปแบบบางอย่างที่โมเดลพลาดไปหรือไม่

ตีความค่าสัมประสิทธิ์ของการถดถอยพหุคูณมากเกินไป

ในการถดถอยพหุคูณ ค่าสัมประสิทธิ์หนึ่งตัวขึ้นอยู่กับตัวแปรทำนายอื่นที่รวมอยู่ในโมเดล หากมีตัวแปรสำคัญตกหล่น หรือถ้าตัวแปรทำนายมีความเกี่ยวพันกันอย่างมาก การตีความจะมีเสถียรภาพน้อยลง

การวิเคราะห์การถดถอยถูกใช้ที่ไหน

การถดถอยถูกใช้เมื่อคุณต้องการอธิบายความแปรผัน ประมาณความสัมพันธ์แบบมีเงื่อนไข หรือพยากรณ์จากข้อมูล

คุณจะพบได้ในงานพยากรณ์ทางธุรกิจ การแพทย์ สังคมศาสตร์ การควบคุมคุณภาพ การศึกษา และแมชชีนเลิร์นนิง รูปแบบที่ใช้จะขึ้นอยู่กับผลลัพธ์: ถ้าผลลัพธ์เป็นตัวเลขก็มักใช้โมเดลเชิงเส้น ส่วนถ้าผลลัพธ์เป็นแบบทวิภาคมักใช้โมเดลโลจิสติก

วิธีเลือกโมเดลการถดถอยที่เหมาะสม

เริ่มจากถามสองคำถามนี้ก่อน:

ผลลัพธ์เป็นตัวเลขหรือเป็นแบบทวิภาค?
ฉันต้องการรวมตัวแปรทำนายกี่ตัว?

ถ้าผลลัพธ์เป็นตัวเลข ให้เริ่มจากการถดถอยเชิงเส้น ถ้ามีตัวแปรทำนายหนึ่งตัว ก็เป็นการถดถอยเชิงเส้นอย่างง่าย ถ้ามีหลายตัว ก็เป็นการถดถอยเชิงเส้นพหุคูณ

ถ้าผลลัพธ์เป็นแบบทวิภาค ให้เริ่มจากการถดถอยโลจิสติก

สิ่งนี้ไม่ได้รับประกันว่าโมเดลจะดี แต่ช่วยให้คุณเข้าสู่ตระกูลโมเดลที่ถูกต้องได้อย่างรวดเร็ว

ลองทำโจทย์ที่คล้ายกัน

นำชุดข้อมูลเล็ก ๆ ชุดหนึ่งมา แล้วตั้งคำถามกับมันสองแบบ แบบแรกให้พยากรณ์ผลลัพธ์เชิงตัวเลข เช่น คะแนน จากนั้นแปลงผลลัพธ์ให้เป็นแบบทวิภาค เช่น ผ่านหรือไม่ผ่าน การเปรียบเทียบแบบวางคู่กันนี้เป็นหนึ่งในวิธีที่เร็วที่สุดที่จะทำให้การวิเคราะห์การถดถอยเข้าใจได้ชัดเจน

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →