การถดถอยเชิงเส้นเป็นวิธีอธิบายว่าตัวแปรหนึ่งเปลี่ยนไปพร้อมกับอีกตัวแปรหนึ่งอย่างไร โดยใช้เส้นตรงที่เหมาะสมที่สุดกับข้อมูล ในการถดถอยเชิงเส้นอย่างง่าย เมื่อมีตัวแปรนำเข้า หนึ่งตัว และตัวแปรผลลัพธ์ หนึ่งตัว แบบจำลองคือ
โดยที่ คือค่าที่พยากรณ์ได้, คือความชัน, และ คือจุดตัดแกน วิธีฟิตที่ใช้กันทั่วไปคือ ordinary least squares ซึ่งเลือกเส้นที่ทำให้ผลรวมกำลังสองของค่าคลาดเคลื่อนมีค่าน้อยที่สุด:
ถ้าคุณต้องการแค่แนวคิดหลัก ให้จำไว้ว่า ความชันบอกการเปลี่ยนแปลงของ ที่แบบจำลองพยากรณ์ไว้ เมื่อ เพิ่มขึ้น 1 หน่วย ตราบใดที่แบบจำลองเส้นตรงยังเหมาะสมกับข้อมูล
สมการการถดถอยเชิงเส้นบอกอะไรได้บ้าง
ความชัน บอกการเปลี่ยนแปลงของ ที่พยากรณ์ไว้เมื่อ เพิ่มขึ้น หากแบบจำลองเชิงเส้นอธิบายข้อมูลได้เหมาะสม ส่วนจุดตัดแกน คือค่าที่พยากรณ์ของ เมื่อ
คำว่า "พยากรณ์" สำคัญมาก เพราะโดยทั่วไปเส้นถดถอยจะไม่ผ่านทุกจุดข้อมูล แต่จะถ่วงดุลความคลาดเคลื่อนของทุกจุดแทน ดังนั้นมันจึงสรุปแนวโน้มของข้อมูล มากกว่าจะตรงกับทุกค่าที่สังเกตได้
สูตรการถดถอยเชิงเส้นสำหรับ และ
สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าค่า ไม่ได้เท่ากันทั้งหมด สัมประสิทธิ์แบบ least squares สามารถเขียนได้เป็น
และ
โดยที่ คือค่าเฉลี่ยของค่า และ คือค่าเฉลี่ยของค่า สูตรเหล่านี้ใช้สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าคุณมีตัวแปรนำเข้ามากกว่าหนึ่งตัว การตั้งแบบจำลองจะเปลี่ยนไป
ทำไม least squares จึงใช้กำลังสองของค่าคลาดเคลื่อน
ลองนึกภาพจุดข้อมูลเป็นกลุ่มจุดบนกราฟกระจาย จะมีเส้นตรงหลายเส้นที่ผ่านใกล้กลุ่มจุดนั้นได้ การถดถอยเชิงเส้นจะเลือกเส้นที่ทำให้ระยะคลาดเคลื่อนในแนวดิ่ง ซึ่งเรียกว่าค่าคลาดเคลื่อน หรือ residuals มีค่าน้อยโดยรวม
การยกกำลังสองของค่าคลาดเคลื่อนมีประโยชน์สองอย่าง อย่างแรกคือป้องกันไม่ให้ความผิดพลาดบวกและลบหักล้างกัน อย่างที่สองคือทำให้ความคลาดเคลื่อนที่มากได้รับน้ำหนักมากขึ้น
ตัวอย่างการถดถอยเชิงเส้นอย่างง่าย
สมมติว่าจุดข้อมูลคือ , , , และ เราจะฟิตเส้นถดถอยเชิงเส้นอย่างง่าย
เริ่มจากหาค่าเฉลี่ย:
จากนั้นคำนวณความชัน:
แล้วคำนวณจุดตัดแกน:
ดังนั้นสมการถดถอยคือ
ถ้า แบบจำลองจะพยากรณ์ว่า
คุณยังสามารถตรวจสอบ residual ได้หนึ่งค่า ที่ ค่าที่พยากรณ์คือ
ค่าจริงคือ ดังนั้น residual คือ
จุดนั้นอยู่ต่ำกว่าเส้นถดถอย หน่วย residual เพียงค่าเดียวไม่ได้บอกว่าแบบจำลองทั้งหมดดีหรือไม่ แต่ช่วยให้เห็นว่าการถดถอยวัดความคลาดเคลื่อนอย่างไร
ข้อผิดพลาดที่พบบ่อยในการถดถอยเชิงเส้น
ข้อผิดพลาดอย่างหนึ่งคือคิดว่าเส้นต้องผ่านทุกจุดข้อมูล การถดถอยเน้นเส้นที่เหมาะสมที่สุด ไม่ใช่ความพอดีแบบสมบูรณ์
อีกข้อผิดพลาดคืออ่านค่าความชันเหมือนเป็นกฎที่แน่นอนสำหรับทุกจุดข้อมูล จริงๆ แล้วความชันคือการเปลี่ยนแปลงเฉลี่ยที่แบบจำลองพยากรณ์ไว้
ข้อผิดพลาดข้อที่สามคือมองว่าการถดถอยเป็นหลักฐานของความเป็นเหตุเป็นผล รูปแบบเชิงเส้นที่ชัดเจนอาจช่วยในการพยากรณ์หรืออธิบายความสัมพันธ์ได้ แต่เพียงอย่างเดียวไม่ได้อธิบายว่าทำไมตัวแปรจึงเปลี่ยนไปด้วยกัน
อีกเรื่องที่พลาดได้ง่ายคือเชื่อการพยากรณ์มากเกินไปนอกช่วงข้อมูลที่สังเกตได้ การคาดคะเนนอกช่วงอาจผิดพลาดได้ แม้เส้นที่ฟิตจะดูดีในช่วงเดิมก็ตาม
ควรใช้การถดถอยเชิงเส้นเมื่อไร
การถดถอยเชิงเส้นเหมาะเมื่อการสรุปความสัมพันธ์ด้วยเส้นตรงมีประโยชน์ และความสัมพันธ์นั้นอย่างน้อยก็ใกล้เคียงเชิงเส้นในช่วงที่คุณสนใจ ตัวอย่างการใช้งานทั่วไป เช่น ประมาณราคาจากขนาด คะแนนจากเวลาอ่านหนังสือ หรือผลลัพธ์จากค่าป้อนเข้าในสภาวะที่คงที่
วิธีนี้มีประโยชน์มากเป็นพิเศษเมื่อคุณต้องการแบบจำลองที่ตีความได้ง่าย ความชัน จุดตัดแกน และ residuals ล้วนเรียบง่ายพอที่จะอธิบายได้โดยไม่ปิดบังว่าแบบจำลองกำลังทำอะไร
เช็กสั้นๆ ก่อนเชื่อเส้นถดถอย
ก่อนใช้เส้นถดถอย ให้ถามสองคำถาม กราฟกระจายดูมีแนวโน้มเป็นเส้นตรงคร่าวๆ หรือไม่? และบริบททำให้ความชันมีความหมาย ไม่ใช่ชวนให้เข้าใจผิดหรือไม่? ถ้าคำตอบข้อใดข้อหนึ่งคือไม่ แบบจำลองแบบอื่นอาจเหมาะกว่า
ลองทำโจทย์ที่คล้ายกัน
เลือกจุดสี่จุด วาดคร่าวๆ แล้วฟิตเส้นด้วยเครื่องคิดเลขหรือซอฟต์แวร์ จากนั้นเปรียบเทียบค่าที่พยากรณ์กับค่าจริง การดู residuals มักเป็นวิธีที่เร็วที่สุดในการเข้าใจว่าเส้นถดถอยกำลังทำอะไรอยู่จริงๆ
ต้องการความช่วยเหลือในการแก้โจทย์?
อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที
เปิด GPAI Solver →