Regresi logistik adalah model untuk klasifikasi biner. Model ini menggabungkan fitur input menjadi sebuah skor linear, mengalirkan skor itu melalui fungsi sigmoid, lalu menghasilkan angka antara dan yang ditafsirkan, berdasarkan model yang telah di-fit, sebagai estimasi probabilitas kelas positif.
Meskipun namanya mengandung kata "regresi", regresi logistik biasanya digunakan untuk memutuskan antara dua kelas seperti lulus/tidak lulus, spam/bukan spam, atau gagal bayar/tidak gagal bayar. Kata "regresi" merujuk pada rumus linear di dalam model, bukan pada prediksi keluaran kontinu.
Rumus regresi logistik secara singkat
Regresi logistik biner menggunakan
dengan fungsi sigmoid
Bagian linear dapat berupa bilangan real apa pun. Sigmoid memampatkan nilai itu ke dalam , sehingga outputnya dapat digunakan sebagai estimasi probabilitas.
Mengapa fungsi sigmoid penting
Jika Anda menggunakan skor linear mentah sebagai probabilitas, Anda bisa mendapatkan nilai yang tidak mungkin seperti atau . Sigmoid memperbaiki hal itu dengan memetakan skor negatif besar mendekati , skor positif besar mendekati , dan skor di sekitar mendekati .
Ini memberi pembacaan yang praktis:
- jika sangat negatif, model cenderung ke kelas
- jika dekat , model tidak yakin
- jika sangat positif, model cenderung ke kelas
Kurva paling curam di sekitar . Jadi perubahan kecil pada skor dapat banyak mengubah probabilitas di dekat , tetapi jauh lebih kecil pengaruhnya ketika probabilitas sudah dekat ke atau .
Contoh regresi logistik yang dikerjakan
Misalkan sebuah model menggunakan satu fitur dan memiliki
Anda bisa menganggap sebagai nilai ujian dan sebagai "lulus". Koefisien di sini hanya contoh untuk menunjukkan mekanismenya.
Jika , maka
Jadi probabilitas prediksinya adalah
Jika , maka
dan
Jadi model yang sama memberikan peluang lulus sekitar pada dan sekitar pada . Skornya naik sebesar , tetapi output akhirnya tetap berada di antara dan karena sigmoid membengkokkan hasilnya menjadi probabilitas.
Jika sekarang Anda memilih ambang batas , kasus pertama diklasifikasikan sebagai kelas dan kasus kedua sebagai kelas . Langkah terakhir itu bergantung pada ambang batas. Estimasi probabilitasnya sendiri tidak.
Satu jalan pintas yang berguna: dengan ambang batas , kelas berubah tepat saat , karena .
Bagaimana regresi logistik menjadi pengklasifikasi
Output model adalah estimasi probabilitas. Aturan klasifikasi ditambahkan setelahnya.
Sebagai contoh, dengan ambang batas :
- prediksi kelas jika
- prediksi kelas jika
Namun, tidak selalu merupakan ambang batas yang tepat. Jika false positive dan false negative memiliki biaya yang berbeda, atau jika kelas-kelasnya sangat tidak seimbang, ambang batas lain mungkin bekerja lebih baik.
Apa arti koefisien
Tanda dari sebuah koefisien memberi tahu arah pengaruhnya terhadap skor linear :
- jika , menaikkan akan menaikkan dan cenderung meningkatkan
- jika , menaikkan akan menurunkan dan cenderung menurunkan
Bagian itu cukup langsung. Poin yang lebih halus adalah bahwa probabilitas tidak berubah secara linear terhadap fitur, karena kurva sigmoid bukan garis lurus.
Dalam regresi logistik standar, model linear berada pada skala log-odds:
Artinya, setiap kenaikan satu unit pada sebuah fitur mengubah log-odds secara linear ketika fitur-fitur lain dijaga tetap. Ini lebih tepat daripada mengatakan bahwa probabilitas berubah sebesar jumlah tetap.
Kesalahan umum dalam regresi logistik
Menganggap output sebagai kelas yang pasti
Prediksi seperti tidak berarti peristiwa itu pasti terjadi. Itu berarti model memberikan estimasi probabilitas sekitar untuk kelas positif pada input tersebut.
Menganggap ambang batas harus
memang umum, tetapi itu adalah pilihan, bukan aturan mutlak. Ambang batas terbaik bergantung pada aplikasinya.
Mengira probabilitas berubah secara linear
Skor bersifat linear terhadap input, tetapi probabilitas tidak. Perubahan satu unit pada sebuah fitur dapat memberi pengaruh yang berbeda saat dibandingkan saat .
Lupa bahwa model ini bersifat biner kecuali diperluas
Regresi logistik dasar menangani dua kelas. Versi multi-kelas memang ada, tetapi itu adalah perluasan, bukan pengaturan biner yang sama hanya ditulis dengan cara berbeda.
Kapan regresi logistik digunakan
Regresi logistik sering digunakan ketika targetnya adalah ya/tidak, seperti deteksi spam, keberadaan penyakit, customer churn, gagal bayar pinjaman, atau hasil lulus/tidak lulus.
Metode ini tetap populer karena sederhana, cepat, dan cukup mudah diinterpretasikan. Metode ini sangat berguna ketika Anda menginginkan pengklasifikasi dasar, ketika dataset tidak terlalu besar, atau ketika Anda membutuhkan estimasi probabilitas, bukan hanya label tegas.
Cara sederhana untuk membayangkannya
Bayangkan regresi logistik sebagai mesin dua langkah:
- Jumlahkan bukti dengan skor linear.
- Ubah skor itu menjadi probabilitas dengan sigmoid.
Gambaran ini cukup untuk memahami sebagian besar contoh pengantar dan untuk melihat mengapa regresi logistik berada di antara model linear dan tugas klasifikasi.
Coba soal regresi logistik yang mirip
Pilih skor sederhana seperti
Hitung untuk beberapa nilai , seperti , , dan . Perhatikan bagaimana skor linear berubah secara stabil sementara probabilitas membengkok mengikuti kurva berbentuk S. Lalu coba ambang batas yang berbeda dan lihat kapan kelas prediksi berubah.
Butuh bantuan mengerjakan soal?
Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.
Buka GPAI Solver →