Regresyon analizi, bir veya daha fazla yordayıcı değiştikçe sonucun nasıl değiştiğini açıklar. Tek bir yordayıcı ve sayısal bir sonuç için basit doğrusal regresyon, birden fazla yordayıcı ve sayısal bir sonuç için çoklu doğrusal regresyon, geçme/kalma gibi ikili bir sonuç için ise lojistik regresyon kullanılır.

Bu ayrım, en çok aranan soruyu hızlıca yanıtlar:

  • Basit doğrusal regresyon: bir yordayıcı, sayısal sonuç.
  • Çoklu doğrusal regresyon: birden fazla yordayıcı, sayısal sonuç.
  • Lojistik regresyon: evet/hayır, geçti/kaldı veya tıkladı/tıklamadı gibi ikili sonuç.

Bundan sonra asıl iş yorumlamadır. Bir katsayı, ancak model sonuç türüne uyuyorsa ve veriye makul ölçüde iyi uyuyorsa düşündüğünüz anlama gelir.

Regresyon analizi ne yapar

Regresyon sadece noktalardan geçen bir doğru çizmez. Yordayıcıları beklenen sonuca bağlayan bir kural kurar; böylece örüntüleri açıklayabilir veya tahmin yapabilirsiniz.

Doğrusal regresyonda bu kural, sonucun beklenen değeri için doğrusal bir modeldir. Lojistik regresyonda ise model olasılıklar için kurulur; bu yüzden tahmin edilen değerler 00 ile 11 arasında kalır.

Basit doğrusal regresyon: bir yordayıcı, sayısal sonuç

Basit doğrusal regresyon, bir yordayıcı xx ve bir sayısal sonuç yy kullanır:

y^=b0+b1x\hat{y} = b_0 + b_1x

Burada y^\hat{y} tahmin edilen sonuç, b0b_0 sabit terim ve b1b_1 eğimdir.

Eğim b1b_1, ilgilendiğiniz aralıkta doğrusal bir örüntü makul bir yaklaşım ise, xx'teki bir birimlik artış için yy'de beklenen değişimi verir.

Çoklu doğrusal regresyon: birkaç yordayıcı, bir sayısal sonuç

Çoklu doğrusal regresyon aynı temel fikri korur, ancak birden fazla yordayıcı kullanır:

y^=b0+b1x1+b2x2++bpxp\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Bu, tek bir yordayıcının tek başına fazla basit kaldığı durumlarda yararlıdır. Gerçek sonuçlar çoğu zaman aynı anda birkaç etkene bağlıdır.

Yorumdaki temel değişiklik önemlidir: b1b_1, diğer dahil edilen yordayıcılar sabit tutulurken, x1x_1'deki bir birimlik artış için yy'de beklenen değişimdir.

Diğer yordayıcıları sabit tutma koşulu, çoklu regresyonu tek değişkenli karşılaştırmalar dizisinden ayırır.

Lojistik regresyon: ikili sonuçlar ve olasılıklar

Lojistik regresyon, sayısal değil ikili bir sonuç içindir. Sonuç kabul edildi/edilmedi, ayrıldı/kaldı ya da geçti/kaldı gibi durumlarsa, doğrusal regresyon genellikle yanlış araçtır.

Lojistik regresyon, sonucun kendisini doğrusal bir çizgi olarak modellemek yerine, sonucun log-olasılık oranını modeller:

log(p1p)=b0+b1x1+b2x2++bpxp\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

burada p=P(Y=1x1,x2,,xp)p = P(Y=1 \mid x_1, x_2, \ldots, x_p).

Sol taraf log-olasılık oranıdır; olasılığın kendisi değildir. Bu kurulum önemlidir çünkü olasılıkların 00 ile 11 arasında kalması gerekir: sıradan bir doğrusal model 1.21.2 ya da 0.1-0.1 gibi imkânsız değerler tahmin edebilir, ama lojistik regresyon edemez.

Çözümlü örnek: puan tahmini ile geçti/kaldı tahmini

Bir öğretmenin öğrenci performansını incelemek istediğini düşünün.

Sonuç sınav puanıysa ve tek yordayıcı çalışma saatiyse, basit doğrusal model şöyle olabilir:

y^=42+5x\hat{y} = 42 + 5x

Bir öğrenci 66 saat çalışırsa, tahmin edilen puan

y^=42+5(6)=72\hat{y} = 42 + 5(6) = 72

olur.

Burada eğim, doğrusal model makul bir uyum sağlıyorsa, her ek çalışma saati için tahmin edilen puanın 55 puan arttığını söyler.

Şimdi öğretmenin uyku saatini ve çözülen deneme sayısını da eklediğini düşünün. Çoklu regresyon modeli şöyle olabilir:

y^=20+4x1+2x2+1.5x3\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

burada x1x_1 çalışma saati, x2x_2 uyku saati ve x3x_3 tamamlanan deneme sayısıdır.

Buradaki 44 katsayısı artık daha özel bir anlama sahiptir: uyku ve deneme sayısı sabit tutulurken, bir saat daha fazla çalışmanın tahmin edilen puandaki değişimidir.

Şimdi soruyu değiştirelim. Puan tahmin etmek yerine öğretmen, bir öğrencinin geçme olasılığını bilmek istesin. Bu durumda sonuç ikilidir; dolayısıyla doğal seçim lojistik regresyondur:

log(p1p)=6+0.8x1+0.5x2\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Bir öğrenci 66 saat çalışıp 77 saat uyursa,

6+0.8(6)+0.5(7)=2.3-6 + 0.8(6) + 0.5(7) = 2.3

olur; dolayısıyla tahmin edilen olasılık

p=11+e2.30.91p = \frac{1}{1 + e^{-2.3}} \approx 0.91

şeklindedir.

Bu model yaklaşık 91%91\% geçme olasılığı tahmin eder. Kesin sayılar sadece örnektir. Temel fikir şudur: sonuç puandan geçti/kaldıya dönüştüğünde, regresyon ailesi de değişmelidir.

Regresyon analizinde yaygın hatalar

İkili bir sonuç için doğrusal regresyon kullanmak

Sonuç yalnızca 00 veya 11 ise, olasılıklar için tasarlandığından lojistik regresyon genellikle daha uygundur. Doğrusal regresyon bazı özel durumlarda yaklaşık bir yöntem olarak kullanılabilir, ancak zayıf olasılık tahminleri de üretebilir.

Regresyonu nedenselliğin kanıtı gibi görmek

Regresyon ilişkiyi betimleyebilir ve tahmini destekleyebilir. Tek başına, bir değişkeni değiştirmenin sonucun değişmesine neden olduğunu kanıtlamaz.

Model koşullarını göz ardı etmek

Bir katsayı, ancak seçilen model makul bir uyum sağlıyorsa düşündüğünüz anlama gelir. Doğrusal regresyonda bu genellikle doğrusal bir özetin anlamlı olup olmadığını ve hataların modelin kaçırdığı bir örüntü gösterip göstermediğini kontrol etmeyi içerir.

Çoklu regresyon katsayılarını fazla yorumlamak

Çoklu regresyonda bir katsayı, diğer dahil edilen yordayıcılara koşulludur. Önemli değişkenler eksikse ya da yordayıcılar birbirine güçlü biçimde dolanmışsa, yorum daha az kararlı hale gelir.

Regresyon analizi nerelerde kullanılır

Regresyon; değişkenliği açıklamak, koşullu ilişkileri tahmin etmek veya veriden öngörü yapmak istediğinizde kullanılır.

İşletme tahminlerinde, tıpta, sosyal bilimlerde, kalite kontrolde, eğitimde ve makine öğrenmesinde karşınıza çıkar. Kesin biçim sonuca bağlıdır: sayısal sonuçlar çoğu zaman doğrusal modellere, ikili sonuçlar ise çoğu zaman lojistik modellere götürür.

Doğru regresyon modeli nasıl seçilir

Önce şu iki soruyu sorun:

  1. Sonuç sayısal mı yoksa ikili mi?
  2. Kaç yordayıcı dahil etmek istiyorum?

Sonuç sayısalsa, doğrusal regresyonla başlayın. Bir yordayıcı varsa bu basit doğrusal regresyondur. Birkaç yordayıcı varsa bu çoklu doğrusal regresyondur.

Sonuç ikiliyse, lojistik regresyonla başlayın.

Bu, modelin iyi olduğunu garanti etmez; ama sizi hızlıca doğru model ailesine götürür.

Benzer bir problem deneyin

Küçük bir veri kümesi alın ve onun hakkında iki farklı soru sorun. Önce puan gibi sayısal bir sonucu tahmin edin. Sonra bu sonucu geçti ya da kaldı gibi ikili bir biçime dönüştürün. Bu yan yana karşılaştırma, regresyon analizini kavramanın en hızlı yollarından biridir.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →