การถดถอยเชิงเส้นเป็นวิธีอธิบายว่าตัวแปรหนึ่งเปลี่ยนไปพร้อมกับอีกตัวแปรหนึ่งอย่างไร โดยใช้เส้นตรงที่เหมาะสมที่สุดกับข้อมูล ในการถดถอยเชิงเส้นอย่างง่าย เมื่อมีตัวแปรนำเข้า xx หนึ่งตัว และตัวแปรผลลัพธ์ yy หนึ่งตัว แบบจำลองคือ

y^=b0+b1x\hat{y} = b_0 + b_1x

โดยที่ y^\hat{y} คือค่าที่พยากรณ์ได้, b1b_1 คือความชัน, และ b0b_0 คือจุดตัดแกน วิธีฟิตที่ใช้กันทั่วไปคือ ordinary least squares ซึ่งเลือกเส้นที่ทำให้ผลรวมกำลังสองของค่าคลาดเคลื่อนมีค่าน้อยที่สุด:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

ถ้าคุณต้องการแค่แนวคิดหลัก ให้จำไว้ว่า ความชันบอกการเปลี่ยนแปลงของ yy ที่แบบจำลองพยากรณ์ไว้ เมื่อ xx เพิ่มขึ้น 1 หน่วย ตราบใดที่แบบจำลองเส้นตรงยังเหมาะสมกับข้อมูล

สมการการถดถอยเชิงเส้นบอกอะไรได้บ้าง

ความชัน b1b_1 บอกการเปลี่ยนแปลงของ yy ที่พยากรณ์ไว้เมื่อ xx เพิ่มขึ้น 11 หากแบบจำลองเชิงเส้นอธิบายข้อมูลได้เหมาะสม ส่วนจุดตัดแกน b0b_0 คือค่าที่พยากรณ์ของ yy เมื่อ x=0x = 0

คำว่า "พยากรณ์" สำคัญมาก เพราะโดยทั่วไปเส้นถดถอยจะไม่ผ่านทุกจุดข้อมูล แต่จะถ่วงดุลความคลาดเคลื่อนของทุกจุดแทน ดังนั้นมันจึงสรุปแนวโน้มของข้อมูล มากกว่าจะตรงกับทุกค่าที่สังเกตได้

สูตรการถดถอยเชิงเส้นสำหรับ b0b_0 และ b1b_1

สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าค่า xx ไม่ได้เท่ากันทั้งหมด สัมประสิทธิ์แบบ least squares สามารถเขียนได้เป็น

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

และ

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

โดยที่ xˉ\bar{x} คือค่าเฉลี่ยของค่า xx และ yˉ\bar{y} คือค่าเฉลี่ยของค่า yy สูตรเหล่านี้ใช้สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าคุณมีตัวแปรนำเข้ามากกว่าหนึ่งตัว การตั้งแบบจำลองจะเปลี่ยนไป

ทำไม least squares จึงใช้กำลังสองของค่าคลาดเคลื่อน

ลองนึกภาพจุดข้อมูลเป็นกลุ่มจุดบนกราฟกระจาย จะมีเส้นตรงหลายเส้นที่ผ่านใกล้กลุ่มจุดนั้นได้ การถดถอยเชิงเส้นจะเลือกเส้นที่ทำให้ระยะคลาดเคลื่อนในแนวดิ่ง ซึ่งเรียกว่าค่าคลาดเคลื่อน หรือ residuals มีค่าน้อยโดยรวม

การยกกำลังสองของค่าคลาดเคลื่อนมีประโยชน์สองอย่าง อย่างแรกคือป้องกันไม่ให้ความผิดพลาดบวกและลบหักล้างกัน อย่างที่สองคือทำให้ความคลาดเคลื่อนที่มากได้รับน้ำหนักมากขึ้น

ตัวอย่างการถดถอยเชิงเส้นอย่างง่าย

สมมติว่าจุดข้อมูลคือ (1,2)(1,2), (2,2)(2,2), (3,4)(3,4), และ (4,4)(4,4) เราจะฟิตเส้นถดถอยเชิงเส้นอย่างง่าย

เริ่มจากหาค่าเฉลี่ย:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

จากนั้นคำนวณความชัน:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

แล้วคำนวณจุดตัดแกน:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

ดังนั้นสมการถดถอยคือ

y^=1+0.8x\hat{y} = 1 + 0.8x

ถ้า x=5x=5 แบบจำลองจะพยากรณ์ว่า

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

คุณยังสามารถตรวจสอบ residual ได้หนึ่งค่า ที่ x=2x=2 ค่าที่พยากรณ์คือ

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

ค่าจริงคือ 22 ดังนั้น residual คือ

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

จุดนั้นอยู่ต่ำกว่าเส้นถดถอย 0.60.6 หน่วย residual เพียงค่าเดียวไม่ได้บอกว่าแบบจำลองทั้งหมดดีหรือไม่ แต่ช่วยให้เห็นว่าการถดถอยวัดความคลาดเคลื่อนอย่างไร

ข้อผิดพลาดที่พบบ่อยในการถดถอยเชิงเส้น

ข้อผิดพลาดอย่างหนึ่งคือคิดว่าเส้นต้องผ่านทุกจุดข้อมูล การถดถอยเน้นเส้นที่เหมาะสมที่สุด ไม่ใช่ความพอดีแบบสมบูรณ์

อีกข้อผิดพลาดคืออ่านค่าความชันเหมือนเป็นกฎที่แน่นอนสำหรับทุกจุดข้อมูล จริงๆ แล้วความชันคือการเปลี่ยนแปลงเฉลี่ยที่แบบจำลองพยากรณ์ไว้

ข้อผิดพลาดข้อที่สามคือมองว่าการถดถอยเป็นหลักฐานของความเป็นเหตุเป็นผล รูปแบบเชิงเส้นที่ชัดเจนอาจช่วยในการพยากรณ์หรืออธิบายความสัมพันธ์ได้ แต่เพียงอย่างเดียวไม่ได้อธิบายว่าทำไมตัวแปรจึงเปลี่ยนไปด้วยกัน

อีกเรื่องที่พลาดได้ง่ายคือเชื่อการพยากรณ์มากเกินไปนอกช่วงข้อมูลที่สังเกตได้ การคาดคะเนนอกช่วงอาจผิดพลาดได้ แม้เส้นที่ฟิตจะดูดีในช่วงเดิมก็ตาม

ควรใช้การถดถอยเชิงเส้นเมื่อไร

การถดถอยเชิงเส้นเหมาะเมื่อการสรุปความสัมพันธ์ด้วยเส้นตรงมีประโยชน์ และความสัมพันธ์นั้นอย่างน้อยก็ใกล้เคียงเชิงเส้นในช่วงที่คุณสนใจ ตัวอย่างการใช้งานทั่วไป เช่น ประมาณราคาจากขนาด คะแนนจากเวลาอ่านหนังสือ หรือผลลัพธ์จากค่าป้อนเข้าในสภาวะที่คงที่

วิธีนี้มีประโยชน์มากเป็นพิเศษเมื่อคุณต้องการแบบจำลองที่ตีความได้ง่าย ความชัน จุดตัดแกน และ residuals ล้วนเรียบง่ายพอที่จะอธิบายได้โดยไม่ปิดบังว่าแบบจำลองกำลังทำอะไร

เช็กสั้นๆ ก่อนเชื่อเส้นถดถอย

ก่อนใช้เส้นถดถอย ให้ถามสองคำถาม กราฟกระจายดูมีแนวโน้มเป็นเส้นตรงคร่าวๆ หรือไม่? และบริบททำให้ความชันมีความหมาย ไม่ใช่ชวนให้เข้าใจผิดหรือไม่? ถ้าคำตอบข้อใดข้อหนึ่งคือไม่ แบบจำลองแบบอื่นอาจเหมาะกว่า

ลองทำโจทย์ที่คล้ายกัน

เลือกจุดสี่จุด วาดคร่าวๆ แล้วฟิตเส้นด้วยเครื่องคิดเลขหรือซอฟต์แวร์ จากนั้นเปรียบเทียบค่าที่พยากรณ์กับค่าจริง การดู residuals มักเป็นวิธีที่เร็วที่สุดในการเข้าใจว่าเส้นถดถอยกำลังทำอะไรอยู่จริงๆ

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →