Lojistik regresyon, ikili sınıflandırma için kullanılan bir modeldir. Girdi özelliklerini doğrusal bir skorda birleştirir, bu skoru sigmoid fonksiyonundan geçirir ve eğitilmiş modele göre pozitif sınıfın tahmini olasılığı olarak yorumlanan ile arasında bir sayı üretir.
Adında "regresyon" geçmesine rağmen lojistik regresyon genellikle geçti/kaldı, spam/spam değil ya da temerrüt/temerrüt yok gibi iki sınıf arasında karar vermek için kullanılır. "Regresyon" sözcüğü, sürekli bir çıktı tahmin etmeyi değil, modelin içindeki doğrusal formülü ifade eder.
Lojistik regresyon formülüne hızlı bakış
İkili lojistik regresyon şu yapıyı kullanır:
ve sigmoid fonksiyonu şöyledir:
Doğrusal kısım olan , herhangi bir gerçek sayı olabilir. Sigmoid bu değeri aralığına sıkıştırır; bu yüzden çıktı bir olasılık tahmini olarak kullanılabilir.
Sigmoid fonksiyonu neden önemlidir?
Ham doğrusal skor 'yi doğrudan olasılık olarak kullansaydınız, ya da gibi imkânsız değerler elde edebilirdiniz. Sigmoid bunu düzeltir: büyük negatif skorları 'a, büyük pozitif skorları 'e, 'a yakın skorları ise 'e yakın değerlere eşler.
Bu da şu pratik yorumu verir:
- çok negatifse model sınıf 'a eğilimlidir
- 'a yakınsa model kararsızdır
- çok pozitifse model sınıf 'e eğilimlidir
Eğri en dik hâlini civarında alır. Bu yüzden skor küçük bir miktar değiştiğinde, olasılık yakınında çok değişebilir; ancak olasılık zaten ya da 'e yakınsa değişim daha az olur.
Çözümlü lojistik regresyon örneği
Bir modelin tek bir özellik kullandığını ve şu yapıya sahip olduğunu varsayalım:
Burada 'i bir sınav puanı, 'i ise "geçti" olarak düşünebilirsiniz. Katsayılar yalnızca işleyişi göstermek için verilmiş bir örnektir.
Eğer ise:
Dolayısıyla tahmin edilen olasılık:
Eğer ise:
ve
Yani aynı model, için yaklaşık , için ise yaklaşık geçme olasılığı verir. Skor arttı, ama son çıktı yine de ile arasında kaldı; çünkü sigmoid sonucu bükerek bir olasılığa dönüştürür.
Şimdi eşiğini seçerseniz, ilk durum sınıf , ikinci durum ise sınıf olarak sınıflandırılır. Bu son adım eşiğe bağlıdır. Olasılık tahmininin kendisi ise buna bağlı değildir.
Yararlı bir kısa yol: eşiğinde sınıf tam olarak iken değişir, çünkü .
Lojistik regresyon nasıl bir sınıflandırıcıya dönüşür?
Model çıktısı bir olasılık tahminidir. Sınıflandırma kuralı ise sonradan eklenir.
Örneğin, eşik ise:
- ise sınıf tahmin edilir
- ise sınıf tahmin edilir
Ama her zaman doğru eşik değildir. Yanlış pozitif ve yanlış negatiflerin maliyetleri farklıysa ya da sınıflar çok dengesizse, başka bir eşik daha iyi çalışabilir.
Katsayılar ne anlama gelir?
Bir katsayının işareti, doğrusal skor üzerindeki etkinin yönünü gösterir:
- ise, arttıkça artar ve genellikle yükselir
- ise, arttıkça azalır ve genellikle düşer
Bu kısım oldukça nettir. İnce nokta şudur: olasılık, özellikle doğrusal biçimde değişmez; çünkü sigmoid eğrisi düz bir çizgi değildir.
Standart lojistik regresyonda doğrusal model, log-olasılık oranı ölçeğindedir:
Bu, diğer özellikler sabit tutulduğunda bir özelliğin bir birim artmasının log-olasılık oranını doğrusal olarak değiştirdiği anlamına gelir. Bu ifade, olasılığı sabit bir miktar değiştirir demekten daha kesindir.
Lojistik regresyonda yaygın hatalar
Çıktıyı kesin bir sınıf gibi görmek
gibi bir tahmin, olayın kesin olarak gerçekleşeceği anlamına gelmez. Bu, modelin o girdi için pozitif sınıfa yaklaşık tahmini olasılık verdiği anlamına gelir.
Eşiğin mutlaka olması gerektiğini sanmak
yaygındır, ama bir seçimdir; kural değildir. En iyi eşik uygulamaya bağlıdır.
Olasılığın doğrusal değiştiğini düşünmek
Skor , girdiler açısından doğrusaldır; ama olasılık değildir. Bir özelliğin bir birim değişmesi, civarında farklı, civarında farklı bir etki yaratabilir.
Model genişletilmedikçe ikili olduğunu unutmak
Temel lojistik regresyon iki sınıfı ele alır. Çok sınıflı sürümleri vardır, ancak bunlar aynı ikili yapının farklı yazımı değil, genişletilmiş hâlleridir.
Lojistik regresyon ne zaman kullanılır?
Lojistik regresyon, hedef değişken evet/hayır türündeyse sıkça kullanılır. Örneğin spam tespiti, hastalık varlığı, müşteri kaybı, kredi temerrüdü ya da geçti/kaldı sonuçları buna girer.
Basit, hızlı ve makul ölçüde yorumlanabilir olduğu için hâlâ popülerdir. Özellikle bir başlangıç sınıflandırıcısı istediğinizde, veri kümesi çok büyük olmadığında ya da yalnızca kesin etiketler değil tahmini olasılıklar da gerektiğinde faydalıdır.
Bunu gözünüzde canlandırmanın basit bir yolu
Lojistik regresyonu iki adımlı bir makine gibi düşünün:
- Kanıtları doğrusal bir skorla topla.
- Bu skoru sigmoid ile bir olasılığa dönüştür.
Bu bakış açısı, giriş düzeyindeki örneklerin çoğunu anlamak ve lojistik regresyonun doğrusal modeller ile sınıflandırma görevleri arasında neden yer aldığını görmek için yeterlidir.
Benzer bir lojistik regresyon sorusu deneyin
Şöyle basit bir skor seçin:
için , ve gibi birkaç değer alıp hesaplayın. Doğrusal skorun düzenli biçimde değişirken olasılığın S biçimli bir eğri boyunca nasıl büküldüğünü izleyin. Sonra farklı bir eşik deneyin ve tahmin edilen sınıfın ne zaman değiştiğine bakın.
Bir soruyla yardıma mı ihtiyacın var?
Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.
GPAI Solver Aç →