Maschinelles Lernen ist eine Methode, Daten zu nutzen, um Vorhersagen zu treffen oder Muster zu erkennen, ohne jede Regel von Hand zu formulieren. Beim überwachten Lernen enthalten die Trainingsdaten die richtige Antwort. Beim unüberwachten Lernen ist das nicht der Fall, daher besteht das Ziel darin, Strukturen wie Gruppen oder wichtige Variationsrichtungen zu finden.

Das ist die Grundidee hinter den meisten Grundlagen des maschinellen Lernens. Man beginnt mit Daten, wählt ein Modell, trainiert es an Beispielen und prüft dann, ob es auch bei neuen Daten funktioniert statt nur bei den Daten, die es bereits gesehen hat.

Was maschinelles Lernen macht

Ein Modell des maschinellen Lernens ordnet Eingaben Ausgaben oder Mustern zu. Die Eingabe kann die Wohnfläche, Prüfungsergebnisse, Kundenaktivität oder Pixelwerte in einem Bild sein. Die Ausgabe hängt von der Aufgabe ab:

  • eine Zahl vorhersagen, zum Beispiel einen Preis
  • eine Klasse vorhersagen, zum Beispiel Spam oder kein Spam
  • ähnliche Elemente ohne Labels gruppieren
  • wahrscheinliche Optionen ordnen oder empfehlen

Was dies zu „Lernen“ macht, ist, dass die Parameter des Modells aus Daten angepasst werden, statt vollständig von einer Programmiererin oder einem Programmierer festgelegt zu sein.

Überwachtes Lernen vs. unüberwachtes Lernen

Überwachtes Lernen: Ein bekanntes Ziel vorhersagen

Überwachtes Lernen verwendet Beispiele der Form (x,y)(x, y), wobei xx die Eingabe und yy das bekannte Ziel ist.

Wenn yy numerisch ist, nennt man die Aufgabe oft Regression. Wenn yy eine Kategorie ist, spricht man meist von Klassifikation.

Zu den gängigen überwachten Algorithmen gehören lineare Regression, logistische Regression, Entscheidungsbäume, Random Forests, Support-Vector-Machines und neuronale Netze. Keine einzelne Methode ist in jeder Situation die beste. Die richtige Wahl hängt von der Datenmenge, dem Rauschniveau, dem Merkmalstyp und davon ab, wie gut das Modell interpretierbar sein soll.

Unüberwachtes Lernen: Struktur ohne Labels finden

Unüberwachtes Lernen verwendet Eingaben xx ohne Ziel-Labels.

Hier besteht das Ziel meist darin, Strukturen zu entdecken, die bereits in den Daten vorhanden sind. Ein Clustering-Verfahren wie k-means versucht, ähnliche Beobachtungen zu gruppieren. Ein Verfahren zur Dimensionsreduktion wie die Hauptkomponentenanalyse versucht, Variationen mit weniger Richtungen zusammenzufassen.

Unüberwachtes Lernen kann für Exploration, Kompression, Anomalieerkennung oder Vorverarbeitung nützlich sein. Seine Ergebnisse hängen stark davon ab, wie die Daten dargestellt sind und welche Ähnlichkeitsvorstellung in das Verfahren eingebaut ist.

Ein einfaches Denkmodell

Man kann sich maschinelles Lernen als Kurvenanpassung oder Musteranpassung unter Unsicherheit vorstellen.

Man wählt eine Modellfamilie, zum Beispiel Geraden, Entscheidungsbäume oder mehrschichtige neuronale Netze. Beim Training wird das Modell dann so angepasst, dass seine Vorhersagen gemäß einer Verlustfunktion möglichst gut zu den Trainingsdaten passen. Wenn das Modell gut generalisiert, funktioniert es auch bei neuen Daten gut, die es vorher nicht gesehen hat.

Diese letzte Bedingung ist wichtig. Ein Modell, das sich nur den Trainingsdatensatz merkt, ist meist nicht nützlich.

Durchgerechnetes Beispiel: Miete mit linearer Regression vorhersagen

Angenommen, du möchtest die Wohnungsmiete anhand der Wohnfläche vorhersagen. Ein einfaches überwachtes Modell ist

y^=b0+b1x\hat{y} = b_0 + b_1x

wobei xx die Fläche, y^\hat{y} die vorhergesagte Miete, b0b_0 der Achsenabschnitt und b1b_1 die Steigung ist.

Angenommen, ein angepasstes Modell ergibt

y^=500+2x\hat{y} = 500 + 2x

wobei die Miete in Dollar und die Fläche in Quadratfuß gemessen wird.

Wenn eine Wohnung x=700x = 700 hat, lautet die Vorhersage

y^=500+2(700)=1900\hat{y} = 500 + 2(700) = 1900

Das Modell sagt also eine Miete von 19001900 voraus.

Drei Details sind hier wichtig. Das Modell hat aus gelabelten Beispielen von Fläche und Miete gelernt. Die Vorhersage ist eine Schätzung, keine Garantie. Die Formel ist nur sinnvoll, wenn eine ungefähr lineare Beziehung in dem Bereich, der dich interessiert, eine vernünftige Näherung ist.

Dieses Beispiel ist bewusst einfach gehalten, aber es zeigt den zentralen Ablauf des überwachten Lernens: gelabelte Daten verwenden, Parameter anpassen und für eine neue Eingabe ein Ziel vorhersagen.

Wichtige Algorithmen des maschinellen Lernens und wann man sie verwendet

Lineare Regression

Verwende sie, wenn das Ziel darin besteht, einen numerischen Wert vorherzusagen und eine lineare Näherung ein sinnvolles erstes Modell ist.

Logistische Regression

Verwende sie für Klassifikation, wenn du eine relativ einfache und gut interpretierbare Ausgangsbasis für die Vorhersage von Kategorien wie Ja oder Nein möchtest.

Entscheidungsbäume und Random Forests

Verwende sie, wenn Beziehungen nichtlinear sind oder Wechselwirkungen enthalten, besonders bei tabellarischen Daten. Random Forests tauschen meist etwas Interpretierbarkeit gegen stabilere Vorhersagen ein.

K-Means-Clustering

Verwende es im unüberwachten Lernen, um Beobachtungen in kk Cluster zu gruppieren. Es funktioniert am besten, wenn die Idee eines Clusterzentrums für die verwendeten Merkmale sinnvoll ist.

Neuronale Netze

Verwende sie, wenn die Beziehung zwischen Eingaben und Ausgaben sehr komplex ist, besonders bei Bild-, Sprach- und Textaufgaben. Sie benötigen oft mehr Daten und mehr Feinabstimmung als einfachere Modelle.

Häufige Fehler bei den Grundlagen des maschinellen Lernens

Vorhersage mit Erklärung verwechseln

Ein Modell kann gut vorhersagen und trotzdem die wahre Ursache eines Musters nicht erklären.

Den Unterschied zwischen Training und Testen ignorieren

Eine hohe Genauigkeit auf den Trainingsdaten bedeutet nicht, dass das Modell auch bei neuen Daten gut funktioniert. Generalisierung muss an separaten Daten überprüft werden.

Die falsche Metrik verwenden

Accuracy kann bei unausgewogenen Klassifikationsproblemen irreführend sein. Für manche Aufgaben sind Precision, Recall, der mittlere absolute Fehler oder eine andere Metrik wichtiger.

Algorithmennamen als Garantie behandeln

„Neuronales Netz“ oder „Random Forest“ ist kein Qualitätsversprechen. Datenqualität, Merkmalsgestaltung, Auswertung und Problemformulierung sind mindestens genauso wichtig wie der Name des Algorithmus.

Wann maschinelles Lernen nützlich ist

Maschinelles Lernen ist nützlich, wenn das Muster zu kompliziert für ein kleines festes Regelwerk ist, aber genug Daten vorhanden sind, um aus Beispielen zu lernen. Häufige Anwendungen sind Empfehlungssysteme, Betrugserkennung, Hilfswerkzeuge für medizinische Bildanalyse, Ranking, Prognosen und Dokumentenklassifikation.

Es ist nicht immer das richtige Werkzeug. Wenn die Regel einfach, stabil und vollständig bekannt ist, kann eine gewöhnliche Formel oder ein deterministisches Programm besser sein.

Probiere ein ähnliches Problem aus

Nimm einen kleinen Datensatz und stelle zwei Fragen: „Was ist die Eingabe?“ und „Was ist das Ziel?“ Wenn du beide beantworten kannst, probiere ein überwachtes Modell wie lineare Regression oder Klassifikation aus. Wenn nicht, untersuche, ob die Daten mit einem unüberwachten Verfahren auf natürliche Weise Gruppen bilden.

Wenn du noch einen Schritt weitergehen willst, löse zuerst ein ähnliches Problem mit einem einfachen Modell und vergleiche es dann mit einem flexibleren. Das ist meist ein besserer Lernweg, als direkt zum fortgeschrittensten Algorithmus zu springen.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →