Regresi linear adalah cara untuk menggambarkan bagaimana satu variabel berubah terhadap variabel lain dengan menggunakan garis lurus terbaik. Dalam regresi linear sederhana, dengan satu variabel input xx dan satu variabel output yy, modelnya adalah

y^=b0+b1x\hat{y} = b_0 + b_1x

Di sini y^\hat{y} adalah nilai prediksi, b1b_1 adalah kemiringan, dan b0b_0 adalah intersep. Metode fitting yang umum digunakan adalah kuadrat terkecil biasa, yang memilih garis yang membuat residual kuadrat sekecil mungkin:

i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2\sum_{i=1}^n \left(y_i - \hat{y}_i\right)^2 = \sum_{i=1}^n \left(y_i - (b_0 + b_1x_i)\right)^2

Jika Anda hanya membutuhkan gagasan utamanya, ingat ini: kemiringan menunjukkan perubahan prediksi pada yy untuk kenaikan satu satuan pada xx, selama model garis lurus merupakan kecocokan yang masuk akal.

Persamaan Regresi Linear: Apa yang Diberitahukannya

Kemiringan b1b_1 menunjukkan perubahan prediksi pada yy ketika xx naik sebesar 11, jika model linear merupakan gambaran yang masuk akal untuk data. Intersep b0b_0 adalah nilai prediksi dari yy saat x=0x = 0.

Kata "prediksi" itu penting. Garis regresi biasanya tidak melalui setiap titik. Sebaliknya, garis ini menyeimbangkan galat di semua titik, sehingga merangkum tren alih-alih mencocokkan setiap pengamatan.

Rumus Regresi Linear untuk b0b_0 dan b1b_1

Untuk regresi linear sederhana, jika nilai-nilai xx tidak semuanya sama, koefisien kuadrat terkecil dapat ditulis sebagai

b1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}

dan

b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x}

Di sini xˉ\bar{x} adalah rata-rata nilai xx dan yˉ\bar{y} adalah rata-rata nilai yy. Rumus-rumus ini berlaku untuk regresi linear sederhana. Jika Anda memiliki lebih dari satu variabel input, susunannya berubah.

Mengapa Kuadrat Terkecil Menggunakan Residual Kuadrat

Bayangkan titik-titik data sebagai sekumpulan titik pada diagram pencar. Banyak garis lurus bisa lewat dekat kumpulan titik itu. Regresi linear memilih garis yang menjaga selisih vertikal, yang disebut residual, tetap kecil secara keseluruhan.

Mengkuadratkan residual memberi dua manfaat. Pertama, ini mencegah galat positif dan negatif saling meniadakan. Kedua, ini memberi bobot lebih besar pada selisih yang besar.

Contoh Regresi Linear Sederhana

Misalkan titik-titik datanya adalah (1,2)(1,2), (2,2)(2,2), (3,4)(3,4), dan (4,4)(4,4). Kita akan menyesuaikan sebuah garis regresi linear sederhana.

Pertama, cari rata-ratanya:

xˉ=1+2+3+44=2.5\bar{x} = \frac{1+2+3+4}{4} = 2.5 yˉ=2+2+4+44=3\bar{y} = \frac{2+2+4+4}{4} = 3

Sekarang hitung kemiringannya:

b1=(1.5)(1)+(0.5)(1)+(0.5)(1)+(1.5)(1)(1.5)2+(0.5)2+(0.5)2+(1.5)2b_1 = \frac{(-1.5)(-1)+(-0.5)(-1)+(0.5)(1)+(1.5)(1)}{(-1.5)^2+(-0.5)^2+(0.5)^2+(1.5)^2} b1=45=0.8b_1 = \frac{4}{5} = 0.8

Lalu hitung intersepnya:

b0=yˉb1xˉ=30.8(2.5)=1b_0 = \bar{y} - b_1\bar{x} = 3 - 0.8(2.5) = 1

Jadi persamaan regresinya adalah

y^=1+0.8x\hat{y} = 1 + 0.8x

Jika x=5x=5, model memprediksi

y^=1+0.8(5)=5\hat{y} = 1 + 0.8(5) = 5

Anda juga dapat memeriksa satu residual. Saat x=2x=2, nilai prediksinya adalah

y^=1+0.8(2)=2.6\hat{y} = 1 + 0.8(2) = 2.6

Nilai aktualnya adalah 22, jadi residualnya adalah

yy^=22.6=0.6y-\hat{y} = 2 - 2.6 = -0.6

Titik itu berada 0.60.6 satuan di bawah garis regresi. Satu residual tidak memberi tahu apakah seluruh model itu baik, tetapi ini menunjukkan bagaimana regresi mengukur galat.

Kesalahan Umum dalam Regresi Linear

Salah satu kesalahan adalah menganggap garis harus melalui setiap titik. Regresi membahas kecocokan terbaik, bukan kecocokan sempurna.

Kesalahan lain adalah membaca kemiringan sebagai aturan yang tepat untuk setiap titik data. Kemiringan adalah perubahan prediksi rata-rata dari model.

Kesalahan ketiga adalah menganggap regresi sebagai bukti kausalitas. Pola linear yang kuat dapat mendukung prediksi atau menggambarkan hubungan, tetapi tidak dengan sendirinya menjelaskan mengapa variabel-variabel itu bergerak bersama.

Juga mudah untuk terlalu percaya pada prediksi di luar rentang data yang diamati. Ekstrapolasi bisa gagal bahkan ketika garis hasil fitting tampak baik di dalam rentang aslinya.

Kapan Menggunakan Regresi Linear

Regresi linear digunakan ketika ringkasan garis lurus berguna dan hubungan antarvariabel setidaknya kira-kira linear pada rentang yang Anda pedulikan. Penggunaan umum mencakup memperkirakan harga dari ukuran, nilai dari waktu belajar, atau output dari input dalam kondisi yang stabil.

Metode ini sangat berguna ketika Anda menginginkan model yang mudah ditafsirkan. Kemiringan, intersep, dan residual cukup sederhana untuk dijelaskan tanpa menyembunyikan apa yang dilakukan model.

Pemeriksaan Cepat Sebelum Mempercayai Garis

Sebelum menggunakan garis regresi, ajukan dua pertanyaan. Apakah diagram pencar terlihat kira-kira linear? Apakah konteksnya membuat kemiringan itu bermakna, bukan menyesatkan? Jika salah satu jawabannya tidak, model lain mungkin lebih baik.

Coba Soal Serupa

Pilih empat titik, buat sketsanya, lalu sesuaikan sebuah garis dengan kalkulator atau perangkat lunak. Setelah itu, bandingkan nilai prediksi dengan nilai aktual. Melihat residual sering kali merupakan cara tercepat untuk memahami apa yang sebenarnya dilakukan garis regresi.

Butuh bantuan mengerjakan soal?

Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.

Buka GPAI Solver →