Lojistik regresyon, ikili sınıflandırma için kullanılan bir modeldir. Girdi özelliklerini doğrusal bir skorda birleştirir, bu skoru sigmoid fonksiyonundan geçirir ve eğitilmiş modele göre pozitif sınıfın tahmini olasılığı olarak yorumlanan 00 ile 11 arasında bir sayı üretir.

Adında "regresyon" geçmesine rağmen lojistik regresyon genellikle geçti/kaldı, spam/spam değil ya da temerrüt/temerrüt yok gibi iki sınıf arasında karar vermek için kullanılır. "Regresyon" sözcüğü, sürekli bir çıktı tahmin etmeyi değil, modelin içindeki doğrusal formülü ifade eder.

Lojistik regresyon formülüne hızlı bakış

İkili lojistik regresyon şu yapıyı kullanır:

p(y=1x)=σ(z),z=β0+β1x1++βnxnp(y=1 \mid x) = \sigma(z), \qquad z = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

ve sigmoid fonksiyonu şöyledir:

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

Doğrusal kısım olan zz, herhangi bir gerçek sayı olabilir. Sigmoid bu değeri (0,1)(0,1) aralığına sıkıştırır; bu yüzden çıktı bir olasılık tahmini olarak kullanılabilir.

Sigmoid fonksiyonu neden önemlidir?

Ham doğrusal skor zz'yi doğrudan olasılık olarak kullansaydınız, 1.71.7 ya da 0.4-0.4 gibi imkânsız değerler elde edebilirdiniz. Sigmoid bunu düzeltir: büyük negatif skorları 00'a, büyük pozitif skorları 11'e, 00'a yakın skorları ise 0.50.5'e yakın değerlere eşler.

Bu da şu pratik yorumu verir:

  • zz çok negatifse model sınıf 00'a eğilimlidir
  • zz 00'a yakınsa model kararsızdır
  • zz çok pozitifse model sınıf 11'e eğilimlidir

Eğri en dik hâlini z=0z=0 civarında alır. Bu yüzden skor küçük bir miktar değiştiğinde, olasılık 0.50.5 yakınında çok değişebilir; ancak olasılık zaten 00 ya da 11'e yakınsa değişim daha az olur.

Çözümlü lojistik regresyon örneği

Bir modelin tek bir özellik xx kullandığını ve şu yapıya sahip olduğunu varsayalım:

z=7+0.1xz = -7 + 0.1x

Burada xx'i bir sınav puanı, y=1y=1'i ise "geçti" olarak düşünebilirsiniz. Katsayılar yalnızca işleyişi göstermek için verilmiş bir örnektir.

Eğer x=65x = 65 ise:

z=7+0.1(65)=0.5z = -7 + 0.1(65) = -0.5

Dolayısıyla tahmin edilen olasılık:

p(y=1x=65)=σ(0.5)=11+e0.50.378p(y=1 \mid x=65) = \sigma(-0.5) = \frac{1}{1 + e^{0.5}} \approx 0.378

Eğer x=80x = 80 ise:

z=7+0.1(80)=1z = -7 + 0.1(80) = 1

ve

p(y=1x=80)=σ(1)=11+e10.731p(y=1 \mid x=80) = \sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731

Yani aynı model, x=65x=65 için yaklaşık 37.8%37.8\%, x=80x=80 için ise yaklaşık 73.1%73.1\% geçme olasılığı verir. Skor 1.51.5 arttı, ama son çıktı yine de 00 ile 11 arasında kaldı; çünkü sigmoid sonucu bükerek bir olasılığa dönüştürür.

Şimdi 0.50.5 eşiğini seçerseniz, ilk durum sınıf 00, ikinci durum ise sınıf 11 olarak sınıflandırılır. Bu son adım eşiğe bağlıdır. Olasılık tahmininin kendisi ise buna bağlı değildir.

Yararlı bir kısa yol: 0.50.5 eşiğinde sınıf tam olarak z=0z=0 iken değişir, çünkü σ(0)=0.5\sigma(0)=0.5.

Lojistik regresyon nasıl bir sınıflandırıcıya dönüşür?

Model çıktısı bir olasılık tahminidir. Sınıflandırma kuralı ise sonradan eklenir.

Örneğin, eşik 0.50.5 ise:

  • p(y=1x)0.5p(y=1 \mid x) \ge 0.5 ise sınıf 11 tahmin edilir
  • p(y=1x)<0.5p(y=1 \mid x) < 0.5 ise sınıf 00 tahmin edilir

Ama 0.50.5 her zaman doğru eşik değildir. Yanlış pozitif ve yanlış negatiflerin maliyetleri farklıysa ya da sınıflar çok dengesizse, başka bir eşik daha iyi çalışabilir.

Katsayılar ne anlama gelir?

Bir katsayının işareti, doğrusal skor zz üzerindeki etkinin yönünü gösterir:

  • βi>0\beta_i > 0 ise, xix_i arttıkça zz artar ve p(y=1x)p(y=1 \mid x) genellikle yükselir
  • βi<0\beta_i < 0 ise, xix_i arttıkça zz azalır ve p(y=1x)p(y=1 \mid x) genellikle düşer

Bu kısım oldukça nettir. İnce nokta şudur: olasılık, özellikle doğrusal biçimde değişmez; çünkü sigmoid eğrisi düz bir çizgi değildir.

Standart lojistik regresyonda doğrusal model, log-olasılık oranı ölçeğindedir:

log(p1p)=β0+β1x1++βnxn\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n

Bu, diğer özellikler sabit tutulduğunda bir özelliğin bir birim artmasının log-olasılık oranını doğrusal olarak değiştirdiği anlamına gelir. Bu ifade, olasılığı sabit bir miktar değiştirir demekten daha kesindir.

Lojistik regresyonda yaygın hatalar

Çıktıyı kesin bir sınıf gibi görmek

0.730.73 gibi bir tahmin, olayın kesin olarak gerçekleşeceği anlamına gelmez. Bu, modelin o girdi için pozitif sınıfa yaklaşık 73%73\% tahmini olasılık verdiği anlamına gelir.

Eşiğin mutlaka 0.50.5 olması gerektiğini sanmak

0.50.5 yaygındır, ama bir seçimdir; kural değildir. En iyi eşik uygulamaya bağlıdır.

Olasılığın doğrusal değiştiğini düşünmek

Skor zz, girdiler açısından doğrusaldır; ama olasılık değildir. Bir özelliğin bir birim değişmesi, p=0.5p=0.5 civarında farklı, p=0.95p=0.95 civarında farklı bir etki yaratabilir.

Model genişletilmedikçe ikili olduğunu unutmak

Temel lojistik regresyon iki sınıfı ele alır. Çok sınıflı sürümleri vardır, ancak bunlar aynı ikili yapının farklı yazımı değil, genişletilmiş hâlleridir.

Lojistik regresyon ne zaman kullanılır?

Lojistik regresyon, hedef değişken evet/hayır türündeyse sıkça kullanılır. Örneğin spam tespiti, hastalık varlığı, müşteri kaybı, kredi temerrüdü ya da geçti/kaldı sonuçları buna girer.

Basit, hızlı ve makul ölçüde yorumlanabilir olduğu için hâlâ popülerdir. Özellikle bir başlangıç sınıflandırıcısı istediğinizde, veri kümesi çok büyük olmadığında ya da yalnızca kesin etiketler değil tahmini olasılıklar da gerektiğinde faydalıdır.

Bunu gözünüzde canlandırmanın basit bir yolu

Lojistik regresyonu iki adımlı bir makine gibi düşünün:

  1. Kanıtları doğrusal bir skorla topla.
  2. Bu skoru sigmoid ile bir olasılığa dönüştür.

Bu bakış açısı, giriş düzeyindeki örneklerin çoğunu anlamak ve lojistik regresyonun doğrusal modeller ile sınıflandırma görevleri arasında neden yer aldığını görmek için yeterlidir.

Benzer bir lojistik regresyon sorusu deneyin

Şöyle basit bir skor seçin:

z=3+0.5xz = -3 + 0.5x

xx için 22, 66 ve 1010 gibi birkaç değer alıp σ(z)\sigma(z) hesaplayın. Doğrusal skorun düzenli biçimde değişirken olasılığın S biçimli bir eğri boyunca nasıl büküldüğünü izleyin. Sonra farklı bir eşik deneyin ve tahmin edilen sınıfın ne zaman değiştiğine bakın.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →