การถดถอยเชิงเส้นคืออะไรแบบเข้าใจง่าย?

การถดถอยเชิงเส้นคือการฟิตเส้นตรงให้กับข้อมูล เพื่อใช้อธิบายหรือพยากรณ์ว่าตัวแปรหนึ่งเปลี่ยนไปอย่างไรเมื่ออีกตัวแปรหนึ่งเปลี่ยนไป

การถดถอยเชิงเส้นใช้สมการอะไร?

ในการถดถอยเชิงเส้นอย่างง่าย เส้นที่ฟิตได้เขียนเป็น $\hat{y} = b_0 + b_1x$ โดยที่ $b_0$ คือจุดตัดแกน และ $b_1$ คือความชัน

การถดถอยเชิงเส้นพิสูจน์เหตุและผลได้หรือไม่?

ไม่ได้ เส้นถดถอยสามารถใช้อธิบายความสัมพันธ์และช่วยในการพยากรณ์ได้ แต่เพียงอย่างเดียวไม่สามารถยืนยันความเป็นเหตุเป็นผลได้

การถดถอยเชิงเส้น — สมการ สูตร และตัวอย่าง

การถดถอยเชิงเส้นเป็นวิธีอธิบายว่าตัวแปรหนึ่งเปลี่ยนไปพร้อมกับอีกตัวแปรหนึ่งอย่างไร โดยใช้เส้นตรงที่เหมาะสมที่สุดกับข้อมูล ในการถดถอยเชิงเส้นอย่างง่าย เมื่อมีตัวแปรนำเข้า $x$ หนึ่งตัว และตัวแปรผลลัพธ์ $y$ หนึ่งตัว แบบจำลองคือ

\hat{y} = b_0 + b_1x

โดยที่ $\hat{y}$ คือค่าที่พยากรณ์ได้, $b_1$ คือความชัน, และ $b_0$ คือจุดตัดแกน วิธีฟิตที่ใช้กันทั่วไปคือ ordinary least squares ซึ่งเลือกเส้นที่ทำให้ผลรวมกำลังสองของค่าคลาดเคลื่อนมีค่าน้อยที่สุด:

\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

ถ้าคุณต้องการแค่แนวคิดหลัก ให้จำไว้ว่า ความชันบอกการเปลี่ยนแปลงของ $y$ ที่แบบจำลองพยากรณ์ไว้ เมื่อ $x$ เพิ่มขึ้น 1 หน่วย ตราบใดที่แบบจำลองเส้นตรงยังเหมาะสมกับข้อมูล

สมการการถดถอยเชิงเส้นบอกอะไรได้บ้าง

ความชัน $b_1$ บอกการเปลี่ยนแปลงของ $y$ ที่พยากรณ์ไว้เมื่อ $x$ เพิ่มขึ้น $1$ หากแบบจำลองเชิงเส้นอธิบายข้อมูลได้เหมาะสม ส่วนจุดตัดแกน $b_0$ คือค่าที่พยากรณ์ของ $y$ เมื่อ $x = 0$

คำว่า "พยากรณ์" สำคัญมาก เพราะโดยทั่วไปเส้นถดถอยจะไม่ผ่านทุกจุดข้อมูล แต่จะถ่วงดุลความคลาดเคลื่อนของทุกจุดแทน ดังนั้นมันจึงสรุปแนวโน้มของข้อมูล มากกว่าจะตรงกับทุกค่าที่สังเกตได้

สูตรการถดถอยเชิงเส้นสำหรับ $b_0$ และ $b_1$

สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าค่า $x$ ไม่ได้เท่ากันทั้งหมด สัมประสิทธิ์แบบ least squares สามารถเขียนได้เป็น

b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

และ

b_0 = \bar{y} - b_1\bar{x}

โดยที่ $\bar{x}$ คือค่าเฉลี่ยของค่า $x$ และ $\bar{y}$ คือค่าเฉลี่ยของค่า $y$ สูตรเหล่านี้ใช้สำหรับการถดถอยเชิงเส้นอย่างง่าย ถ้าคุณมีตัวแปรนำเข้ามากกว่าหนึ่งตัว การตั้งแบบจำลองจะเปลี่ยนไป

ทำไม least squares จึงใช้กำลังสองของค่าคลาดเคลื่อน

ลองนึกภาพจุดข้อมูลเป็นกลุ่มจุดบนกราฟกระจาย จะมีเส้นตรงหลายเส้นที่ผ่านใกล้กลุ่มจุดนั้นได้ การถดถอยเชิงเส้นจะเลือกเส้นที่ทำให้ระยะคลาดเคลื่อนในแนวดิ่ง ซึ่งเรียกว่าค่าคลาดเคลื่อน หรือ residuals มีค่าน้อยโดยรวม

การยกกำลังสองของค่าคลาดเคลื่อนมีประโยชน์สองอย่าง อย่างแรกคือป้องกันไม่ให้ความผิดพลาดบวกและลบหักล้างกัน อย่างที่สองคือทำให้ความคลาดเคลื่อนที่มากได้รับน้ำหนักมากขึ้น

ตัวอย่างการถดถอยเชิงเส้นอย่างง่าย

สมมติว่าจุดข้อมูลคือ $(1,2)$ , $(2,2)$ , $(3,4)$ , และ $(4,4)$ เราจะฟิตเส้นถดถอยเชิงเส้นอย่างง่าย

เริ่มจากหาค่าเฉลี่ย:

\bar{x} = \frac{1+2+3+4}{4} = 2.5

\bar{y} = \frac{2+2+4+4}{4} = 3

จากนั้นคำนวณความชัน:

b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2}

b_1 = \frac{4}{5} = 0.8

แล้วคำนวณจุดตัดแกน:

b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

ดังนั้นสมการถดถอยคือ

\hat{y} = 1 + 0.8x

ถ้า $x=5$ แบบจำลองจะพยากรณ์ว่า

\hat{y} = 1 + 0.8(5) = 5

คุณยังสามารถตรวจสอบ residual ได้หนึ่งค่า ที่ $x=2$ ค่าที่พยากรณ์คือ

\hat{y} = 1 + 0.8(2) = 2.6

ค่าจริงคือ $2$ ดังนั้น residual คือ

y-\hat{y} = 2 - 2.6 = -0.6

จุดนั้นอยู่ต่ำกว่าเส้นถดถอย $0.6$ หน่วย residual เพียงค่าเดียวไม่ได้บอกว่าแบบจำลองทั้งหมดดีหรือไม่ แต่ช่วยให้เห็นว่าการถดถอยวัดความคลาดเคลื่อนอย่างไร

ข้อผิดพลาดที่พบบ่อยในการถดถอยเชิงเส้น

ข้อผิดพลาดอย่างหนึ่งคือคิดว่าเส้นต้องผ่านทุกจุดข้อมูล การถดถอยเน้นเส้นที่เหมาะสมที่สุด ไม่ใช่ความพอดีแบบสมบูรณ์

อีกข้อผิดพลาดคืออ่านค่าความชันเหมือนเป็นกฎที่แน่นอนสำหรับทุกจุดข้อมูล จริงๆ แล้วความชันคือการเปลี่ยนแปลงเฉลี่ยที่แบบจำลองพยากรณ์ไว้

ข้อผิดพลาดข้อที่สามคือมองว่าการถดถอยเป็นหลักฐานของความเป็นเหตุเป็นผล รูปแบบเชิงเส้นที่ชัดเจนอาจช่วยในการพยากรณ์หรืออธิบายความสัมพันธ์ได้ แต่เพียงอย่างเดียวไม่ได้อธิบายว่าทำไมตัวแปรจึงเปลี่ยนไปด้วยกัน

อีกเรื่องที่พลาดได้ง่ายคือเชื่อการพยากรณ์มากเกินไปนอกช่วงข้อมูลที่สังเกตได้ การคาดคะเนนอกช่วงอาจผิดพลาดได้ แม้เส้นที่ฟิตจะดูดีในช่วงเดิมก็ตาม

ควรใช้การถดถอยเชิงเส้นเมื่อไร

การถดถอยเชิงเส้นเหมาะเมื่อการสรุปความสัมพันธ์ด้วยเส้นตรงมีประโยชน์ และความสัมพันธ์นั้นอย่างน้อยก็ใกล้เคียงเชิงเส้นในช่วงที่คุณสนใจ ตัวอย่างการใช้งานทั่วไป เช่น ประมาณราคาจากขนาด คะแนนจากเวลาอ่านหนังสือ หรือผลลัพธ์จากค่าป้อนเข้าในสภาวะที่คงที่

วิธีนี้มีประโยชน์มากเป็นพิเศษเมื่อคุณต้องการแบบจำลองที่ตีความได้ง่าย ความชัน จุดตัดแกน และ residuals ล้วนเรียบง่ายพอที่จะอธิบายได้โดยไม่ปิดบังว่าแบบจำลองกำลังทำอะไร

เช็กสั้นๆ ก่อนเชื่อเส้นถดถอย

ก่อนใช้เส้นถดถอย ให้ถามสองคำถาม กราฟกระจายดูมีแนวโน้มเป็นเส้นตรงคร่าวๆ หรือไม่? และบริบททำให้ความชันมีความหมาย ไม่ใช่ชวนให้เข้าใจผิดหรือไม่? ถ้าคำตอบข้อใดข้อหนึ่งคือไม่ แบบจำลองแบบอื่นอาจเหมาะกว่า

ลองทำโจทย์ที่คล้ายกัน

เลือกจุดสี่จุด วาดคร่าวๆ แล้วฟิตเส้นด้วยเครื่องคิดเลขหรือซอฟต์แวร์ จากนั้นเปรียบเทียบค่าที่พยากรณ์กับค่าจริง การดู residuals มักเป็นวิธีที่เร็วที่สุดในการเข้าใจว่าเส้นถดถอยกำลังทำอะไรอยู่จริงๆ

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →