Analisis Regresi — Sederhana, Berganda & Logistik

Analisis regresi menjelaskan bagaimana suatu outcome berubah ketika satu atau lebih prediktor berubah. Gunakan regresi linear sederhana untuk satu prediktor dan outcome numerik, regresi linear berganda untuk beberapa prediktor dan outcome numerik, serta regresi logistik untuk outcome biner seperti lulus/gagal.

Perbedaan ini langsung menjawab pertanyaan utama yang sering dicari:

Regresi linear sederhana: satu prediktor, outcome numerik.
Regresi linear berganda: beberapa prediktor, outcome numerik.
Regresi logistik: outcome biner seperti ya/tidak, lulus/gagal, atau klik/tidak klik.

Setelah itu, pekerjaan sebenarnya adalah interpretasi. Sebuah koefisien hanya berarti seperti yang Anda kira jika modelnya sesuai dengan jenis outcome dan cukup cocok dengan data.

Apa yang dilakukan analisis regresi

Regresi tidak sekadar menggambar garis melalui titik-titik. Regresi membangun aturan yang menghubungkan prediktor dengan outcome yang diharapkan, sehingga Anda bisa menjelaskan pola atau membuat prediksi.

Dalam regresi linear, aturan itu berupa model garis lurus untuk nilai harapan dari outcome. Dalam regresi logistik, model dibangun untuk probabilitas, sehingga nilai prediksi tetap berada di antara $0$ dan $1$ .

Regresi linear sederhana: satu prediktor, outcome numerik

Regresi linear sederhana menggunakan satu prediktor $x$ dan satu outcome numerik $y$ :

\hat{y} = b_0 + b_1x

Di sini $\hat{y}$ adalah outcome yang diprediksi, $b_0$ adalah intersep, dan $b_1$ adalah kemiringan.

Kemiringan $b_1$ memberi tahu Anda perubahan prediksi pada $y$ untuk kenaikan satu unit pada $x$ , jika pola garis lurus merupakan pendekatan yang masuk akal pada rentang yang Anda perhatikan.

Regresi linear berganda: beberapa prediktor, satu outcome numerik

Regresi linear berganda mempertahankan ide dasar yang sama, tetapi menggunakan lebih dari satu prediktor:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Ini berguna ketika satu prediktor saja terlalu sederhana. Outcome di dunia nyata sering bergantung pada beberapa faktor sekaligus.

Perubahan utama dalam interpretasi ini penting: $b_1$ adalah perubahan prediksi pada $y$ untuk kenaikan satu unit pada $x_1$ , sementara prediktor lain yang disertakan dianggap tetap.

Kondisi "prediktor lain dianggap tetap" inilah yang membuat regresi berganda berbeda dari serangkaian perbandingan satu variabel.

Regresi logistik: outcome biner dan probabilitas

Regresi logistik digunakan untuk outcome biner, bukan outcome numerik. Jika outcomenya berupa hal seperti diterima atau tidak diterima, berhenti berlangganan atau tetap, atau lulus atau gagal, regresi linear biasanya bukan alat yang tepat.

Alih-alih memodelkan outcome itu sendiri sebagai garis lurus, regresi logistik memodelkan log-odds dari outcome:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

dengan $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

Sisi kiri adalah log-odds, bukan probabilitas itu sendiri. Susunan ini penting karena probabilitas harus tetap berada di antara $0$ dan $1$ : model garis lurus biasa bisa memprediksi nilai yang mustahil seperti $1.2$ atau $-0.1$ , tetapi regresi logistik tidak bisa.

Contoh kerja: memprediksi nilai vs memprediksi lulus/gagal

Misalkan seorang guru ingin mempelajari performa siswa.

Jika outcomenya adalah nilai ujian dan satu-satunya prediktor adalah jam belajar, model linear sederhana mungkin adalah

\hat{y} = 42 + 5x

Jika seorang siswa belajar selama $6$ jam, nilai prediksinya adalah

\hat{y} = 42 + 5(6) = 72

Di sini kemiringannya mengatakan bahwa nilai prediksi meningkat sebesar $5$ poin untuk setiap tambahan satu jam belajar, jika model linear cukup cocok.

Sekarang misalkan guru itu juga memasukkan jam tidur dan jumlah kuis latihan. Model regresi berganda mungkin adalah

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

dengan $x_1$ adalah jam belajar, $x_2$ adalah jam tidur, dan $x_3$ adalah kuis latihan yang diselesaikan.

Koefisien $4$ sekarang memiliki arti yang lebih spesifik: itu adalah perubahan nilai prediksi untuk tambahan satu jam belajar, dengan jam tidur dan kuis latihan dianggap tetap.

Sekarang ubah pertanyaannya. Alih-alih memprediksi nilai, misalkan guru ingin mengetahui probabilitas seorang siswa lulus. Ini membuat outcomenya biner, jadi regresi logistik adalah pilihan yang alami:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Jika seorang siswa belajar $6$ jam dan tidur $7$ jam, maka

-6 + 0.8(6) + 0.5(7) = 2.3

sehingga probabilitas prediksinya adalah

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Model ini memprediksi peluang lulus sekitar $91\%$ . Angka pastinya hanya contoh. Gagasan utamanya adalah bahwa ketika outcome berubah dari nilai menjadi lulus/gagal, keluarga regresinya juga harus berubah.

Kesalahan umum dalam analisis regresi

Menggunakan regresi linear untuk outcome biner

Jika outcomenya hanya $0$ atau $1$ , regresi logistik biasanya lebih tepat karena dirancang untuk probabilitas. Regresi linear bisa digunakan dalam beberapa situasi khusus sebagai pendekatan, tetapi juga bisa menghasilkan prediksi probabilitas yang buruk.

Menganggap regresi sebagai bukti kausalitas

Regresi dapat menggambarkan asosiasi dan mendukung prediksi. Regresi tidak, dengan sendirinya, membuktikan bahwa perubahan pada satu variabel menyebabkan outcome berubah.

Mengabaikan syarat model

Sebuah koefisien hanya berarti seperti yang Anda kira jika model yang dipilih cukup cocok. Untuk regresi linear, ini sering berarti memeriksa apakah ringkasan garis lurus masuk akal dan apakah error menunjukkan pola yang terlewat oleh model.

Membaca koefisien regresi berganda secara berlebihan

Dalam regresi berganda, sebuah koefisien bersifat kondisional terhadap prediktor lain yang disertakan. Jika variabel penting tidak dimasukkan, atau jika prediktor saling terkait sangat kuat, interpretasi menjadi kurang stabil.

Di mana analisis regresi digunakan

Regresi digunakan ketika Anda ingin menjelaskan variasi, memperkirakan hubungan kondisional, atau membuat prediksi dari data.

Anda akan melihatnya dalam peramalan bisnis, kedokteran, ilmu sosial, pengendalian mutu, pendidikan, dan machine learning. Bentuk pastinya bergantung pada outcome: outcome numerik sering mengarah ke model linear, sedangkan outcome biner sering mengarah ke model logistik.

Cara memilih model regresi yang tepat

Ajukan dua pertanyaan ini terlebih dahulu:

Apakah outcomenya numerik atau biner?
Berapa banyak prediktor yang ingin saya sertakan?

Jika outcomenya numerik, mulailah dengan regresi linear. Jika ada satu prediktor, itu adalah regresi linear sederhana. Jika ada beberapa, itu adalah regresi linear berganda.

Jika outcomenya biner, mulailah dengan regresi logistik.

Itu tidak menjamin modelnya bagus, tetapi membantu Anda masuk ke keluarga model yang tepat dengan cepat.

Coba soal serupa

Ambil satu dataset kecil dan ajukan dua pertanyaan berbeda tentangnya. Pertama, prediksi outcome numerik, seperti nilai. Lalu ubah outcome itu menjadi versi biner, seperti lulus atau gagal. Perbandingan berdampingan seperti ini adalah salah satu cara tercepat untuk membuat analisis regresi benar-benar dipahami.

Butuh bantuan mengerjakan soal?

Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.

Buka GPAI Solver →