Makine öğrenmesi, her kuralı tek tek elle yazmadan verileri kullanarak tahmin yapmanın veya örüntüleri fark etmenin bir yoludur. Denetimli öğrenmede eğitim verisi doğru cevabı içerir. Denetimsiz öğrenmede ise içermez; bu yüzden amaç, gruplar ya da başlıca değişim yönleri gibi bir yapıyı bulmaktır.

Bu, makine öğrenmesinin temelindeki ana fikirdir. Verilerle başlarsınız, bir model seçersiniz, onu örnekler üzerinde eğitirsiniz ve sonra yalnızca gördüğü veride değil, yeni veride de işe yarayıp yaramadığını kontrol edersiniz.

Makine Öğrenmesi Ne Yapar?

Bir makine öğrenmesi modeli, girdileri çıktılara ya da örüntülere eşler. Girdi; evin büyüklüğü, sınav puanları, müşteri etkinliği ya da bir görüntüdeki piksel değerleri olabilir. Çıktı ise göreve bağlıdır:

  • fiyat gibi bir sayıyı tahmin etmek
  • spam ya da spam değil gibi bir etiketi tahmin etmek
  • etiket olmadan benzer öğeleri gruplamak
  • olası seçenekleri sıralamak ya da önermek

Buna "öğrenme" denmesinin nedeni, modelin parametrelerinin tamamen bir programcı tarafından sabitlenmek yerine veriden ayarlanmasıdır.

Denetimli Öğrenme ve Denetimsiz Öğrenme

Denetimli Öğrenme: Bilinen Bir Hedefi Tahmin Etmek

Denetimli öğrenme, xx girdiyi ve yy bilinen hedefi göstermek üzere (x,y)(x, y) biçimindeki örnekleri kullanır.

Eğer yy sayısalsa, bu göreve çoğunlukla regresyon denir. Eğer yy bir kategori ise, bu görev genellikle sınıflandırma olarak adlandırılır.

Yaygın denetimli algoritmalar arasında doğrusal regresyon, lojistik regresyon, karar ağaçları, rastgele ormanlar, destek vektör makineleri ve sinir ağları bulunur. Her durumda en iyi olan tek bir yöntem yoktur. Doğru seçim; veri boyutuna, gürültü düzeyine, özellik türüne ve ne kadar yorumlanabilirliğe ihtiyaç duyduğunuza bağlıdır.

Denetimsiz Öğrenme: Etiket Olmadan Yapıyı Bulmak

Denetimsiz öğrenme, hedef etiketleri olmadan xx girdilerini kullanır.

Burada amaç genellikle veride zaten var olan yapıyı keşfetmektir. k-means gibi bir kümeleme yöntemi, benzer gözlemleri gruplamaya çalışır. Temel bileşen analizi gibi bir boyut indirgeme yöntemi ise değişimi daha az sayıda yönle özetlemeye çalışır.

Denetimsiz öğrenme; keşif, sıkıştırma, anomali tespiti ya da ön işleme için yararlı olabilir. Sonuçları, verinin nasıl temsil edildiğine ve yöntemin içine hangi benzerlik anlayışının yerleştirildiğine güçlü biçimde bağlıdır.

Basit Bir Zihinsel Model

Makine öğrenmesini, belirsizlik altında eğri uydurma ya da örüntü uydurma olarak düşünebilirsiniz.

Doğrular, karar ağaçları ya da katmanlı sinir ağları gibi bir model ailesi seçersiniz. Eğitim süreci daha sonra, bir kayıp fonksiyonuna göre tahminleri eğitim verisiyle olabildiğince iyi eşleşecek şekilde modeli ayarlar. Model iyi genelleme yapıyorsa, daha önce görmediği yeni veride de iyi performans gösterir.

Bu son koşul önemlidir. Yalnızca eğitim kümesini ezberleyen bir model genellikle işe yaramaz.

Çözümlü Örnek: Doğrusal Regresyon ile Kira Tahmini

Diyelim ki daire kirasını metrekareye göre tahmin etmek istiyorsunuz. Basit bir denetimli model şudur:

y^=b0+b1x\hat{y} = b_0 + b_1x

Burada xx alanı, y^\hat{y} tahmin edilen kirayı, b0b_0 sabit terimi ve b1b_1 eğimi gösterir.

Eğitilmiş bir modelin şu sonucu verdiğini varsayalım:

y^=500+2x\hat{y} = 500 + 2x

Burada kira dolar cinsinden, alan ise square feet cinsinden ölçülmektedir.

Eğer bir dairenin x=700x = 700 ise, tahmin

y^=500+2(700)=1900\hat{y} = 500 + 2(700) = 1900

olur.

Yani model, kiranın 19001900 olacağını tahmin eder.

Burada üç ayrıntı önemlidir. Model, alan ve kira için etiketli örneklerden öğrendi. Tahmin bir kestirimdir, garanti değildir. Formül ancak yaklaşık doğrusal bir ilişkinin, ilgilendiğiniz aralıkta makul bir yaklaşım olması durumunda anlamlıdır.

Bu örnek bilerek basit tutulmuştur, ancak denetimli öğrenmenin ana döngüsünü gösterir: etiketli veriyi kullan, parametreleri uydur ve yeni bir girdi için hedefi tahmin et.

Temel Makine Öğrenmesi Algoritmaları ve Ne Zaman Kullanılırlar

Doğrusal Regresyon

Amaç sayısal bir değeri tahmin etmekse ve doğruya yakın bir yaklaşım makul bir ilk modelse bunu kullanın.

Lojistik Regresyon

Evet ya da hayır gibi kategorileri tahmin etmek için görece basit ve yorumlanabilir bir başlangıç modeli istediğinizde sınıflandırmada bunu kullanın.

Karar Ağaçları ve Rastgele Ormanlar

İlişkiler doğrusal değilse ya da etkileşimler içeriyorsa, özellikle tablo biçimindeki verilerde bunları kullanın. Rastgele ormanlar genellikle bir miktar yorumlanabilirlikten vazgeçip daha güçlü tahmin kararlılığı sağlar.

K-Means Kümeleme

Denetimsiz öğrenmede gözlemleri kk kümeye ayırmak için bunu kullanın. En iyi, kullandığınız özellikler için bir küme merkezinin anlamlı olduğu durumlarda çalışır.

Sinir Ağları

Girdiler ile çıktılar arasındaki ilişki çok karmaşıksa, özellikle görüntü, konuşma ve dil görevlerinde bunları kullanın. Genellikle daha basit modellere göre daha fazla veri ve ayar gerektirirler.

Makine Öğrenmesinin Temellerinde Sık Yapılan Hatalar

Tahmini Açıklamayla Karıştırmak

Bir model iyi tahmin yapabilir ama yine de örüntünün gerçek nedenini açıklayamayabilir.

Eğitim ve Test Arasındaki Farkı Göz Ardı Etmek

Eğitim doğruluğunun yüksek olması, modelin yeni veride de iyi çalışacağı anlamına gelmez. Genelleme ayrı veri üzerinde kontrol edilmelidir.

Yanlış Ölçütü Kullanmak

Dengesiz sınıflandırma problemlerinde doğruluk yanıltıcı olabilir. Bazı görevlerde precision, recall, ortalama mutlak hata ya da başka bir ölçüt daha önemli olabilir.

Algoritma Adlarını Garanti Gibi Görmek

"Sinir ağı" ya da "rastgele orman" kalite garantisi değildir. Veri kalitesi, özellik tasarımı, değerlendirme ve problemin nasıl çerçevelendiği, en az algoritmanın adı kadar önemlidir.

Makine Öğrenmesi Ne Zaman Yararlıdır?

Makine öğrenmesi, örüntü küçük ve sabit bir kural kümesiyle ifade edilemeyecek kadar karmaşıksa ama örneklerden öğrenmek için yeterli veri varsa yararlıdır. Yaygın kullanım alanları arasında öneri sistemleri, dolandırıcılık tespiti, tıbbi görüntü destek araçları, sıralama, tahminleme ve belge sınıflandırma bulunur.

Her zaman doğru araç değildir. Kural basit, kararlı ve tamamen biliniyorsa, sıradan bir formül ya da deterministik bir program daha iyi olabilir.

Benzer Bir Problem Deneyin

Küçük bir veri kümesi alın ve şu iki soruyu sorun: "Girdi nedir?" ve "Hedef nedir?" İkisine de cevap verebiliyorsanız, doğrusal regresyon ya da sınıflandırma gibi denetimli bir model deneyin. Cevap veremiyorsanız, verinin denetimsiz bir yöntemle doğal olarak gruplar oluşturup oluşturmadığını inceleyin.

Bir adım daha ileri gitmek isterseniz, önce benzer bir problemi basit bir modelle çözün, sonra bunu daha esnek bir modelle karşılaştırın. Bu, doğrudan en gelişmiş algoritmaya atlamaktan genellikle daha iyi bir öğrenme yoludur.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →