Makine Öğrenmesi — Denetimli, Denetimsiz ve Temel Algoritmalar

Makine öğrenmesi, her kuralı tek tek elle yazmadan verileri kullanarak tahmin yapmanın veya örüntüleri fark etmenin bir yoludur. Denetimli öğrenmede eğitim verisi doğru cevabı içerir. Denetimsiz öğrenmede ise içermez; bu yüzden amaç, gruplar ya da başlıca değişim yönleri gibi bir yapıyı bulmaktır.

Bu, makine öğrenmesinin temelindeki ana fikirdir. Verilerle başlarsınız, bir model seçersiniz, onu örnekler üzerinde eğitirsiniz ve sonra yalnızca gördüğü veride değil, yeni veride de işe yarayıp yaramadığını kontrol edersiniz.

Makine Öğrenmesi Ne Yapar?

Bir makine öğrenmesi modeli, girdileri çıktılara ya da örüntülere eşler. Girdi; evin büyüklüğü, sınav puanları, müşteri etkinliği ya da bir görüntüdeki piksel değerleri olabilir. Çıktı ise göreve bağlıdır:

fiyat gibi bir sayıyı tahmin etmek
spam ya da spam değil gibi bir etiketi tahmin etmek
etiket olmadan benzer öğeleri gruplamak
olası seçenekleri sıralamak ya da önermek

Buna "öğrenme" denmesinin nedeni, modelin parametrelerinin tamamen bir programcı tarafından sabitlenmek yerine veriden ayarlanmasıdır.

Denetimli Öğrenme ve Denetimsiz Öğrenme

Denetimli Öğrenme: Bilinen Bir Hedefi Tahmin Etmek

Denetimli öğrenme, $x$ girdiyi ve $y$ bilinen hedefi göstermek üzere $(x, y)$ biçimindeki örnekleri kullanır.

Eğer $y$ sayısalsa, bu göreve çoğunlukla regresyon denir. Eğer $y$ bir kategori ise, bu görev genellikle sınıflandırma olarak adlandırılır.

Yaygın denetimli algoritmalar arasında doğrusal regresyon, lojistik regresyon, karar ağaçları, rastgele ormanlar, destek vektör makineleri ve sinir ağları bulunur. Her durumda en iyi olan tek bir yöntem yoktur. Doğru seçim; veri boyutuna, gürültü düzeyine, özellik türüne ve ne kadar yorumlanabilirliğe ihtiyaç duyduğunuza bağlıdır.

Denetimsiz Öğrenme: Etiket Olmadan Yapıyı Bulmak

Denetimsiz öğrenme, hedef etiketleri olmadan $x$ girdilerini kullanır.

Burada amaç genellikle veride zaten var olan yapıyı keşfetmektir. k-means gibi bir kümeleme yöntemi, benzer gözlemleri gruplamaya çalışır. Temel bileşen analizi gibi bir boyut indirgeme yöntemi ise değişimi daha az sayıda yönle özetlemeye çalışır.

Denetimsiz öğrenme; keşif, sıkıştırma, anomali tespiti ya da ön işleme için yararlı olabilir. Sonuçları, verinin nasıl temsil edildiğine ve yöntemin içine hangi benzerlik anlayışının yerleştirildiğine güçlü biçimde bağlıdır.

Basit Bir Zihinsel Model

Makine öğrenmesini, belirsizlik altında eğri uydurma ya da örüntü uydurma olarak düşünebilirsiniz.

Doğrular, karar ağaçları ya da katmanlı sinir ağları gibi bir model ailesi seçersiniz. Eğitim süreci daha sonra, bir kayıp fonksiyonuna göre tahminleri eğitim verisiyle olabildiğince iyi eşleşecek şekilde modeli ayarlar. Model iyi genelleme yapıyorsa, daha önce görmediği yeni veride de iyi performans gösterir.

Bu son koşul önemlidir. Yalnızca eğitim kümesini ezberleyen bir model genellikle işe yaramaz.

Çözümlü Örnek: Doğrusal Regresyon ile Kira Tahmini

Diyelim ki daire kirasını metrekareye göre tahmin etmek istiyorsunuz. Basit bir denetimli model şudur:

\hat{y} = b_0 + b_1x

Burada $x$ alanı, $\hat{y}$ tahmin edilen kirayı, $b_0$ sabit terimi ve $b_1$ eğimi gösterir.

Eğitilmiş bir modelin şu sonucu verdiğini varsayalım:

\hat{y} = 500 + 2x

Burada kira dolar cinsinden, alan ise square feet cinsinden ölçülmektedir.

Eğer bir dairenin $x = 700$ ise, tahmin

\hat{y} = 500 + 2(700) = 1900

olur.

Yani model, kiranın $1900$ olacağını tahmin eder.

Burada üç ayrıntı önemlidir. Model, alan ve kira için etiketli örneklerden öğrendi. Tahmin bir kestirimdir, garanti değildir. Formül ancak yaklaşık doğrusal bir ilişkinin, ilgilendiğiniz aralıkta makul bir yaklaşım olması durumunda anlamlıdır.

Bu örnek bilerek basit tutulmuştur, ancak denetimli öğrenmenin ana döngüsünü gösterir: etiketli veriyi kullan, parametreleri uydur ve yeni bir girdi için hedefi tahmin et.

Temel Makine Öğrenmesi Algoritmaları ve Ne Zaman Kullanılırlar

Doğrusal Regresyon

Amaç sayısal bir değeri tahmin etmekse ve doğruya yakın bir yaklaşım makul bir ilk modelse bunu kullanın.

Lojistik Regresyon

Evet ya da hayır gibi kategorileri tahmin etmek için görece basit ve yorumlanabilir bir başlangıç modeli istediğinizde sınıflandırmada bunu kullanın.

Karar Ağaçları ve Rastgele Ormanlar

İlişkiler doğrusal değilse ya da etkileşimler içeriyorsa, özellikle tablo biçimindeki verilerde bunları kullanın. Rastgele ormanlar genellikle bir miktar yorumlanabilirlikten vazgeçip daha güçlü tahmin kararlılığı sağlar.

K-Means Kümeleme

Denetimsiz öğrenmede gözlemleri $k$ kümeye ayırmak için bunu kullanın. En iyi, kullandığınız özellikler için bir küme merkezinin anlamlı olduğu durumlarda çalışır.

Sinir Ağları

Girdiler ile çıktılar arasındaki ilişki çok karmaşıksa, özellikle görüntü, konuşma ve dil görevlerinde bunları kullanın. Genellikle daha basit modellere göre daha fazla veri ve ayar gerektirirler.

Makine Öğrenmesinin Temellerinde Sık Yapılan Hatalar

Tahmini Açıklamayla Karıştırmak

Bir model iyi tahmin yapabilir ama yine de örüntünün gerçek nedenini açıklayamayabilir.

Eğitim ve Test Arasındaki Farkı Göz Ardı Etmek

Eğitim doğruluğunun yüksek olması, modelin yeni veride de iyi çalışacağı anlamına gelmez. Genelleme ayrı veri üzerinde kontrol edilmelidir.

Yanlış Ölçütü Kullanmak

Dengesiz sınıflandırma problemlerinde doğruluk yanıltıcı olabilir. Bazı görevlerde precision, recall, ortalama mutlak hata ya da başka bir ölçüt daha önemli olabilir.

Algoritma Adlarını Garanti Gibi Görmek

"Sinir ağı" ya da "rastgele orman" kalite garantisi değildir. Veri kalitesi, özellik tasarımı, değerlendirme ve problemin nasıl çerçevelendiği, en az algoritmanın adı kadar önemlidir.

Makine Öğrenmesi Ne Zaman Yararlıdır?

Makine öğrenmesi, örüntü küçük ve sabit bir kural kümesiyle ifade edilemeyecek kadar karmaşıksa ama örneklerden öğrenmek için yeterli veri varsa yararlıdır. Yaygın kullanım alanları arasında öneri sistemleri, dolandırıcılık tespiti, tıbbi görüntü destek araçları, sıralama, tahminleme ve belge sınıflandırma bulunur.

Her zaman doğru araç değildir. Kural basit, kararlı ve tamamen biliniyorsa, sıradan bir formül ya da deterministik bir program daha iyi olabilir.

Benzer Bir Problem Deneyin

Küçük bir veri kümesi alın ve şu iki soruyu sorun: "Girdi nedir?" ve "Hedef nedir?" İkisine de cevap verebiliyorsanız, doğrusal regresyon ya da sınıflandırma gibi denetimli bir model deneyin. Cevap veremiyorsanız, verinin denetimsiz bir yöntemle doğal olarak gruplar oluşturup oluşturmadığını inceleyin.

Bir adım daha ileri gitmek isterseniz, önce benzer bir problemi basit bir modelle çözün, sonra bunu daha esnek bir modelle karşılaştırın. Bu, doğrudan en gelişmiş algoritmaya atlamaktan genellikle daha iyi bir öğrenme yoludur.

Sıkça Sorulan Sorular

Makine öğrenmesi yapay zekâ ile aynı şey mi?: Tam olarak değil. Makine öğrenmesi modern yapay zekânın önemli bir parçasıdır, ancak yapay zekâ daha geniş bir alandır; kural tabanlı sistemleri, aramayı, planlamayı ve başka yaklaşımları da içerir.
Makine öğrenmesi her zaman çok büyük miktarda veriye mi ihtiyaç duyar?: Hayır. Bazı modeller orta büyüklükte veri kümeleriyle de iyi çalışır; ancak gereken veri miktarı probleme, gürültü düzeyine ve modelin karmaşıklığına bağlıdır.
Bir makine öğrenmesi modeli bir şeyin neden olduğunu açıklar mı?: Tek başına hayır. Bir model, tahmine yardımcı olan örüntüleri yakalayabilir; ancak tahmin yapmak, nedenselliği kanıtlamakla aynı şey değildir.

Bir soruyla yardıma mı ihtiyacın var?

Sorunuzu yükleyin ve saniyeler içinde doğrulanmış adım adım çözüm alın.

GPAI Solver Aç →