CNN yalnızca görüntüler için mi kullanılır?

Hayır. CNN’ler en yaygın olarak görüntülerde kullanılır, ancak aynı yerel filtre fikri; sinyallerde, seste, zaman serilerinde ve yakın örüntülerin önemli olduğu bazı metin ayarlarında da kullanılabilir.

Her CNN’de pooling olmak zorunda mı?

Hayır. Birçok CNN uzamsal boyutu küçültmek için pooling veya stride’lı evrişimler kullanır, ancak pooling her mimaride zorunlu değildir.

CNN — Evrişimli Sinir Ağı Mimarisi

Evrişimli sinir ağı ya da CNN, küçük yerel örüntüleri arayan ve sonra bunları daha büyük örüntüler hâlinde birleştiren bir sinir ağıdır. Görüntülerde ilk katmanlar çoğu zaman kenarları veya köşeleri, orta katmanlar dokuları ya da parçaları algılar; daha derin katmanlar ise bu sinyalleri son tahmini desteklemek için kullanır.

Temel fikir ağırlık paylaşımıdır. CNN, her piksel-konum çifti için ayrı bir ağırlık öğrenmek yerine aynı küçük filtreyi birçok konumda yeniden kullanır. Bu, ham görüntü üzerinde çalışan yoğun bir katmana göre onu çok daha ucuz hâle getirir ve aynı tür örüntüyü birden fazla yerde algılamasına yardımcı olur.

Evrişimli sinir ağı ne yapar?

Tam bağlı bir katmanda her çıktı aynı anda tüm girdi değerlerine bağlı olabilir. CNN ise daha yapısaldır. Genellikle filtre denen küçük çekirdekler kullanır ve bunlar her seferinde bir yerel yamaya bakar.

Tek kanallı bir girdi $x$ ve $k \times k$ boyutlu bir çekirdek $K$ için, bir çıktı girdisi şu şekilde yazılabilir:

y_{i,j} = \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} K_{m,n} x_{i+m,j+n}.

Bu, evrişim katmanının arkasındaki yerel ağırlıklı toplam fikridir. Birçok makine öğrenmesi kütüphanesinde uygulanan işlem teknik olarak ters çevrilmiş matematiksel evrişimden ziyade çapraz korelasyondur, ancak pratik sezgi aynıdır: çekirdek girdi üzerinde taranır ve bir özellik haritası üretir.

Özellik haritası, öğrenilen örüntünün nerede güçlü biçimde ortaya çıktığını gösterir.

Paylaşılan filtreler neden yardımcı olur?

Aynı dikey kenar bir görüntünün sol üst köşesinde de merkeze yakın bir yerde de görünebilir. Genelde modelin bunu her iki durumda da fark etmesini isteriz. CNN bunu, aynı filtre parametrelerini farklı konumlarda yeniden kullanarak sağlar.

Bunun iki pratik etkisi vardır:

Ham görüntü üzerinde çalışan yoğun bir katmana kıyasla öğrenilen parametre sayısını azaltır.
Ağın tek bir sabit konumu ezberlemek yerine tekrar eden yerel örüntüleri algılamasını teşvik eder.

Bu yeniden kullanım, CNN’lerin görüntü görevlerinde etkili olmasının nedenlerinden biridir.

Temel bir CNN mimarisi nasıl görünür?

Temel bir CNN çoğu zaman şu düzeni izler:

evrişim katmanı
ReLU gibi bir aktivasyon
isteğe bağlı pooling veya downsampling
daha fazla evrişim bloğu
son tahmin katmanı

İlk katmanlar genellikle basit yerel yapıları yakalar. Daha derin katmanlar bu tepkileri birleştirerek daha büyük ve göreve daha özgü özellikler oluşturur.

Pooling zorunlu değildir, ancak kullanıldığında uzamsal boyutları küçültür; böylece sonraki katmanlar daha kompakt bir gösterimle çalışabilir. Yaygın bir örnek max pooling’dir; bu yöntem her küçük bölgede en büyük değeri tutar.

Eğer stride $1$ ve padding $0$ ise, $n \times n$ boyutlu bir girdi ile $k \times k$ boyutlu bir çekirdek, $(n-k+1) \times (n-k+1)$ boyutlu bir çıktı üretir. Bir örneğin mantıklı olup olmadığını kontrol ederken bu boyut kuralı faydalıdır.

Çözümlü örnek: bir CNN özellik haritası nasıl oluşturulur?

Şu $4 \times 4$ giriş görüntüsünü alın:

X = \begin{bmatrix} 3 & 3 & 0 & 0 \\ 3 & 3 & 0 & 0 \\ 0 & 0 & 3 & 3 \\ 0 & 0 & 3 & 3 \end{bmatrix}

Şu $2 \times 2$ çekirdeği kullanın:

K = \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}

Stride’ın $1$ olduğunu ve padding olmadığını varsayın. Girdi $4 \times 4$ , çekirdek ise $2 \times 2$ olduğundan çıktı $3 \times 3$ olmalıdır. Her çıktı girdisi bir $2 \times 2$ yamanın toplamıdır; çünkü çekirdekteki her değer $1$ ’e eşittir.

Sol üstteki çıktı değeri şöyledir:

y_{1,1} = 3(1) + 3(1) + 3(1) + 3(1) = 12.

Sağa doğru bir adım ilerideki yama şudur:

\begin{bmatrix} 3 & 0 \\ 3 & 0 \end{bmatrix},

dolayısıyla

y_{1,2} = 3 + 0 + 3 + 0 = 6.

Tüm geçerli konumlar için hesaplama yapıldığında

Y = \begin{bmatrix} 12 & 6 & 0 \\ 6 & 6 & 6 \\ 0 & 6 & 12 \end{bmatrix}.

elde edilir.

Bu çıktı özellik haritasıdır. Büyük değerler, çekirdeğin nerede güçlü bir eşleşme bulduğunu gösterir. Burada filtre, tam bir $2 \times 2$ parlak blok görüldüğü yerlerde en güçlü tepkiyi verir.

Şimdi ReLU uygularsanız hiçbir şey değişmez; çünkü tüm girdiler zaten negatif değildir. Ardından stride’ı $1$ olan $2 \times 2$ max pooling kullanırsanız, pooling sonrası çıktı

\begin{bmatrix} 12 & 6 \\ 6 & 12 \end{bmatrix}.

olur.

Bu yeni bilgi üretmez. En güçlü yakın tepkileri korur ve uzamsal ızgarayı küçültür.

Bu örnek basittir, ama temel mekanizmayı açıkça gösterir: bir filtre kayar, yerel ağırlıklı toplamlar hesaplar ve bir örüntünün nerede göründüğünü gösteren bir harita oluşturur.

Bir CNN eğitim sırasında ne öğrenir?

Yukarıdaki çekirdek elle seçildi, ancak gerçek bir CNN’de filtre değerleri veriden öğrenilir. Eğitim, bu değerleri ayarlar; böylece ortaya çıkan özellik haritaları görev için yararlı hâle gelir.

Görev görüntü sınıflandırma ise ağ, sınıfları ayırmaya yardımcı olan filtreler öğrenir. Görev segmentasyon veya nesne tespiti ise sonraki katmanlar bunun yerine bu çıktılar için eğitilir. Temel mekanizma aynıdır: ileri yayılım, kayıp, geri yayılım, parametre güncellemesi.

CNN öğrenirken yapılan yaygın hatalar

CNN’in sadece “görüntü sınıflandırıcı” olduğunu düşünmek

Görüntüler standart örnektir, ancak CNN’ler aslında yerel yapı ve paylaşılan filtrelerle ilgilidir. Yakın değerler önemliyse, aynı fikir görüntülerin ötesinde de yararlı olabilir.

Pooling’in her zaman gerekli olduğunu varsaymak

Yaygındır, ama evrensel değildir. Bazı mimariler uzamsal boyutu bunun yerine stride’lı evrişimlerle küçültür, bazıları ise daha fazla uzamsal ayrıntıyı daha uzun süre korur.

Stride ve padding’i göz ardı etmek

Özellik haritasının boyutu bu seçimlere bağlıdır. Stride veya padding’i değiştirirseniz yalnızca çıktının şeklini değil, her birimin hangi yerel komşulukları görebileceğini de değiştirirsiniz.

Katmanı sadece bir formül olarak görmek

Evrişim formülü önemlidir, ama mimari de önemlidir. CNN; evrişim, aktivasyon, katmanların üst üste gelmesi ve eğitimin birlikte çalışması sayesinde işe yarar.

Evrişimli sinir ağları ne zaman kullanışlıdır?

CNN’ler; görüntü sınıflandırma, nesne tespiti ve segmentasyon gibi bilgisayarlı görü görevlerinde yaygın olarak kullanılır. Ayrıca yerel örüntülerin anlamlı olduğu bazı sinyal işleme ve dizi ayarlarında da görülürler.

Özellikle, girdinin belirgin bir ızgara yapısı veya sıralı komşuluk yapısı olduğunda çok kullanışlıdırlar. Bu koşul zayıfsa, farklı bir mimari daha uygun olabilir.

CNN’leri anlamayı kolaylaştıran bir zihinsel model

CNN’i, küçükten başlayıp derinlikle birlikte daha soyut hâle gelen bir örüntü algılayıcı gibi düşünün. Bir katman, “Bu küçük örüntü burada görünüyor mu?” diye sorar. Sonraki katmanlar ise “Bu daha basit örüntüler birleşip daha anlamlı bir şeye dönüşüyor mu?” diye sorar.

Bu yüzden CNN’leri, yalnızca “evrişim” kelimesine değil, özellik haritalarına odaklandığınızda anlamak daha kolaydır.

Kendi sürümünüzü deneyin

Aynı girdiyi koruyun, ama çekirdeği şu şekilde değiştirin:

\begin{bmatrix} 1 & -1 \\ 1 & -1 \end{bmatrix}.

Özellik haritasını yeniden hesaplayın ve şimdi hangi bölgelerin büyük pozitif ya da negatif tepkiler ürettiğine bakın. Bu küçük değişiklik, farklı filtrelerin farklı örüntüleri nasıl algıladığını çok daha net gösterir.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →