Analisis regresi menjelaskan bagaimana suatu outcome berubah ketika satu atau lebih prediktor berubah. Gunakan regresi linear sederhana untuk satu prediktor dan outcome numerik, regresi linear berganda untuk beberapa prediktor dan outcome numerik, serta regresi logistik untuk outcome biner seperti lulus/gagal.
Perbedaan ini langsung menjawab pertanyaan utama yang sering dicari:
- Regresi linear sederhana: satu prediktor, outcome numerik.
- Regresi linear berganda: beberapa prediktor, outcome numerik.
- Regresi logistik: outcome biner seperti ya/tidak, lulus/gagal, atau klik/tidak klik.
Setelah itu, pekerjaan sebenarnya adalah interpretasi. Sebuah koefisien hanya berarti seperti yang Anda kira jika modelnya sesuai dengan jenis outcome dan cukup cocok dengan data.
Apa yang dilakukan analisis regresi
Regresi tidak sekadar menggambar garis melalui titik-titik. Regresi membangun aturan yang menghubungkan prediktor dengan outcome yang diharapkan, sehingga Anda bisa menjelaskan pola atau membuat prediksi.
Dalam regresi linear, aturan itu berupa model garis lurus untuk nilai harapan dari outcome. Dalam regresi logistik, model dibangun untuk probabilitas, sehingga nilai prediksi tetap berada di antara dan .
Regresi linear sederhana: satu prediktor, outcome numerik
Regresi linear sederhana menggunakan satu prediktor dan satu outcome numerik :
Di sini adalah outcome yang diprediksi, adalah intersep, dan adalah kemiringan.
Kemiringan memberi tahu Anda perubahan prediksi pada untuk kenaikan satu unit pada , jika pola garis lurus merupakan pendekatan yang masuk akal pada rentang yang Anda perhatikan.
Regresi linear berganda: beberapa prediktor, satu outcome numerik
Regresi linear berganda mempertahankan ide dasar yang sama, tetapi menggunakan lebih dari satu prediktor:
Ini berguna ketika satu prediktor saja terlalu sederhana. Outcome di dunia nyata sering bergantung pada beberapa faktor sekaligus.
Perubahan utama dalam interpretasi ini penting: adalah perubahan prediksi pada untuk kenaikan satu unit pada , sementara prediktor lain yang disertakan dianggap tetap.
Kondisi "prediktor lain dianggap tetap" inilah yang membuat regresi berganda berbeda dari serangkaian perbandingan satu variabel.
Regresi logistik: outcome biner dan probabilitas
Regresi logistik digunakan untuk outcome biner, bukan outcome numerik. Jika outcomenya berupa hal seperti diterima atau tidak diterima, berhenti berlangganan atau tetap, atau lulus atau gagal, regresi linear biasanya bukan alat yang tepat.
Alih-alih memodelkan outcome itu sendiri sebagai garis lurus, regresi logistik memodelkan log-odds dari outcome:
dengan .
Sisi kiri adalah log-odds, bukan probabilitas itu sendiri. Susunan ini penting karena probabilitas harus tetap berada di antara dan : model garis lurus biasa bisa memprediksi nilai yang mustahil seperti atau , tetapi regresi logistik tidak bisa.
Contoh kerja: memprediksi nilai vs memprediksi lulus/gagal
Misalkan seorang guru ingin mempelajari performa siswa.
Jika outcomenya adalah nilai ujian dan satu-satunya prediktor adalah jam belajar, model linear sederhana mungkin adalah
Jika seorang siswa belajar selama jam, nilai prediksinya adalah
Di sini kemiringannya mengatakan bahwa nilai prediksi meningkat sebesar poin untuk setiap tambahan satu jam belajar, jika model linear cukup cocok.
Sekarang misalkan guru itu juga memasukkan jam tidur dan jumlah kuis latihan. Model regresi berganda mungkin adalah
dengan adalah jam belajar, adalah jam tidur, dan adalah kuis latihan yang diselesaikan.
Koefisien sekarang memiliki arti yang lebih spesifik: itu adalah perubahan nilai prediksi untuk tambahan satu jam belajar, dengan jam tidur dan kuis latihan dianggap tetap.
Sekarang ubah pertanyaannya. Alih-alih memprediksi nilai, misalkan guru ingin mengetahui probabilitas seorang siswa lulus. Ini membuat outcomenya biner, jadi regresi logistik adalah pilihan yang alami:
Jika seorang siswa belajar jam dan tidur jam, maka
sehingga probabilitas prediksinya adalah
Model ini memprediksi peluang lulus sekitar . Angka pastinya hanya contoh. Gagasan utamanya adalah bahwa ketika outcome berubah dari nilai menjadi lulus/gagal, keluarga regresinya juga harus berubah.
Kesalahan umum dalam analisis regresi
Menggunakan regresi linear untuk outcome biner
Jika outcomenya hanya atau , regresi logistik biasanya lebih tepat karena dirancang untuk probabilitas. Regresi linear bisa digunakan dalam beberapa situasi khusus sebagai pendekatan, tetapi juga bisa menghasilkan prediksi probabilitas yang buruk.
Menganggap regresi sebagai bukti kausalitas
Regresi dapat menggambarkan asosiasi dan mendukung prediksi. Regresi tidak, dengan sendirinya, membuktikan bahwa perubahan pada satu variabel menyebabkan outcome berubah.
Mengabaikan syarat model
Sebuah koefisien hanya berarti seperti yang Anda kira jika model yang dipilih cukup cocok. Untuk regresi linear, ini sering berarti memeriksa apakah ringkasan garis lurus masuk akal dan apakah error menunjukkan pola yang terlewat oleh model.
Membaca koefisien regresi berganda secara berlebihan
Dalam regresi berganda, sebuah koefisien bersifat kondisional terhadap prediktor lain yang disertakan. Jika variabel penting tidak dimasukkan, atau jika prediktor saling terkait sangat kuat, interpretasi menjadi kurang stabil.
Di mana analisis regresi digunakan
Regresi digunakan ketika Anda ingin menjelaskan variasi, memperkirakan hubungan kondisional, atau membuat prediksi dari data.
Anda akan melihatnya dalam peramalan bisnis, kedokteran, ilmu sosial, pengendalian mutu, pendidikan, dan machine learning. Bentuk pastinya bergantung pada outcome: outcome numerik sering mengarah ke model linear, sedangkan outcome biner sering mengarah ke model logistik.
Cara memilih model regresi yang tepat
Ajukan dua pertanyaan ini terlebih dahulu:
- Apakah outcomenya numerik atau biner?
- Berapa banyak prediktor yang ingin saya sertakan?
Jika outcomenya numerik, mulailah dengan regresi linear. Jika ada satu prediktor, itu adalah regresi linear sederhana. Jika ada beberapa, itu adalah regresi linear berganda.
Jika outcomenya biner, mulailah dengan regresi logistik.
Itu tidak menjamin modelnya bagus, tetapi membantu Anda masuk ke keluarga model yang tepat dengan cepat.
Coba soal serupa
Ambil satu dataset kecil dan ajukan dua pertanyaan berbeda tentangnya. Pertama, prediksi outcome numerik, seperti nilai. Lalu ubah outcome itu menjadi versi biner, seperti lulus atau gagal. Perbandingan berdampingan seperti ini adalah salah satu cara tercepat untuk membuat analisis regresi benar-benar dipahami.
Butuh bantuan mengerjakan soal?
Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.
Buka GPAI Solver →