Ist maschinelles Lernen dasselbe wie künstliche Intelligenz?

Nicht ganz. Maschinelles Lernen ist ein wichtiger Teil moderner KI, aber KI ist umfassender und schließt auch regelbasierte Systeme, Suche, Planung und andere Ansätze ein.

Braucht maschinelles Lernen immer riesige Datenmengen?

Nein. Manche Modelle funktionieren auch mit kleineren Datensätzen gut, aber wie viele Daten man braucht, hängt vom Problem, vom Rauschniveau und von der Komplexität des Modells ab.

Erklärt ein Modell des maschinellen Lernens, warum etwas passiert?

Nicht von selbst. Ein Modell kann Muster erfassen, die bei Vorhersagen helfen, aber Vorhersage ist etwas anderes als ein kausaler Nachweis.

Maschinelles Lernen — Überwachtes, unüberwachtes Lernen & wichtige Algorithmen

Maschinelles Lernen ist eine Methode, Daten zu nutzen, um Vorhersagen zu treffen oder Muster zu erkennen, ohne jede Regel von Hand zu formulieren. Beim überwachten Lernen enthalten die Trainingsdaten die richtige Antwort. Beim unüberwachten Lernen ist das nicht der Fall, daher besteht das Ziel darin, Strukturen wie Gruppen oder wichtige Variationsrichtungen zu finden.

Das ist die Grundidee hinter den meisten Grundlagen des maschinellen Lernens. Man beginnt mit Daten, wählt ein Modell, trainiert es an Beispielen und prüft dann, ob es auch bei neuen Daten funktioniert statt nur bei den Daten, die es bereits gesehen hat.

Was maschinelles Lernen macht

Ein Modell des maschinellen Lernens ordnet Eingaben Ausgaben oder Mustern zu. Die Eingabe kann die Wohnfläche, Prüfungsergebnisse, Kundenaktivität oder Pixelwerte in einem Bild sein. Die Ausgabe hängt von der Aufgabe ab:

eine Zahl vorhersagen, zum Beispiel einen Preis
eine Klasse vorhersagen, zum Beispiel Spam oder kein Spam
ähnliche Elemente ohne Labels gruppieren
wahrscheinliche Optionen ordnen oder empfehlen

Was dies zu „Lernen“ macht, ist, dass die Parameter des Modells aus Daten angepasst werden, statt vollständig von einer Programmiererin oder einem Programmierer festgelegt zu sein.

Überwachtes Lernen vs. unüberwachtes Lernen

Überwachtes Lernen: Ein bekanntes Ziel vorhersagen

Überwachtes Lernen verwendet Beispiele der Form $(x, y)$ , wobei $x$ die Eingabe und $y$ das bekannte Ziel ist.

Wenn $y$ numerisch ist, nennt man die Aufgabe oft Regression. Wenn $y$ eine Kategorie ist, spricht man meist von Klassifikation.

Zu den gängigen überwachten Algorithmen gehören lineare Regression, logistische Regression, Entscheidungsbäume, Random Forests, Support-Vector-Machines und neuronale Netze. Keine einzelne Methode ist in jeder Situation die beste. Die richtige Wahl hängt von der Datenmenge, dem Rauschniveau, dem Merkmalstyp und davon ab, wie gut das Modell interpretierbar sein soll.

Unüberwachtes Lernen: Struktur ohne Labels finden

Unüberwachtes Lernen verwendet Eingaben $x$ ohne Ziel-Labels.

Hier besteht das Ziel meist darin, Strukturen zu entdecken, die bereits in den Daten vorhanden sind. Ein Clustering-Verfahren wie k-means versucht, ähnliche Beobachtungen zu gruppieren. Ein Verfahren zur Dimensionsreduktion wie die Hauptkomponentenanalyse versucht, Variationen mit weniger Richtungen zusammenzufassen.

Unüberwachtes Lernen kann für Exploration, Kompression, Anomalieerkennung oder Vorverarbeitung nützlich sein. Seine Ergebnisse hängen stark davon ab, wie die Daten dargestellt sind und welche Ähnlichkeitsvorstellung in das Verfahren eingebaut ist.

Ein einfaches Denkmodell

Man kann sich maschinelles Lernen als Kurvenanpassung oder Musteranpassung unter Unsicherheit vorstellen.

Man wählt eine Modellfamilie, zum Beispiel Geraden, Entscheidungsbäume oder mehrschichtige neuronale Netze. Beim Training wird das Modell dann so angepasst, dass seine Vorhersagen gemäß einer Verlustfunktion möglichst gut zu den Trainingsdaten passen. Wenn das Modell gut generalisiert, funktioniert es auch bei neuen Daten gut, die es vorher nicht gesehen hat.

Diese letzte Bedingung ist wichtig. Ein Modell, das sich nur den Trainingsdatensatz merkt, ist meist nicht nützlich.

Durchgerechnetes Beispiel: Miete mit linearer Regression vorhersagen

Angenommen, du möchtest die Wohnungsmiete anhand der Wohnfläche vorhersagen. Ein einfaches überwachtes Modell ist

\hat{y} = b_0 + b_1x

wobei $x$ die Fläche, $\hat{y}$ die vorhergesagte Miete, $b_0$ der Achsenabschnitt und $b_1$ die Steigung ist.

Angenommen, ein angepasstes Modell ergibt

\hat{y} = 500 + 2x

wobei die Miete in Dollar und die Fläche in Quadratfuß gemessen wird.

Wenn eine Wohnung $x = 700$ hat, lautet die Vorhersage

\hat{y} = 500 + 2(700) = 1900

Das Modell sagt also eine Miete von $1900$ voraus.

Drei Details sind hier wichtig. Das Modell hat aus gelabelten Beispielen von Fläche und Miete gelernt. Die Vorhersage ist eine Schätzung, keine Garantie. Die Formel ist nur sinnvoll, wenn eine ungefähr lineare Beziehung in dem Bereich, der dich interessiert, eine vernünftige Näherung ist.

Dieses Beispiel ist bewusst einfach gehalten, aber es zeigt den zentralen Ablauf des überwachten Lernens: gelabelte Daten verwenden, Parameter anpassen und für eine neue Eingabe ein Ziel vorhersagen.

Wichtige Algorithmen des maschinellen Lernens und wann man sie verwendet

Lineare Regression

Verwende sie, wenn das Ziel darin besteht, einen numerischen Wert vorherzusagen und eine lineare Näherung ein sinnvolles erstes Modell ist.

Logistische Regression

Verwende sie für Klassifikation, wenn du eine relativ einfache und gut interpretierbare Ausgangsbasis für die Vorhersage von Kategorien wie Ja oder Nein möchtest.

Entscheidungsbäume und Random Forests

Verwende sie, wenn Beziehungen nichtlinear sind oder Wechselwirkungen enthalten, besonders bei tabellarischen Daten. Random Forests tauschen meist etwas Interpretierbarkeit gegen stabilere Vorhersagen ein.

K-Means-Clustering

Verwende es im unüberwachten Lernen, um Beobachtungen in $k$ Cluster zu gruppieren. Es funktioniert am besten, wenn die Idee eines Clusterzentrums für die verwendeten Merkmale sinnvoll ist.

Neuronale Netze

Verwende sie, wenn die Beziehung zwischen Eingaben und Ausgaben sehr komplex ist, besonders bei Bild-, Sprach- und Textaufgaben. Sie benötigen oft mehr Daten und mehr Feinabstimmung als einfachere Modelle.

Häufige Fehler bei den Grundlagen des maschinellen Lernens

Vorhersage mit Erklärung verwechseln

Ein Modell kann gut vorhersagen und trotzdem die wahre Ursache eines Musters nicht erklären.

Den Unterschied zwischen Training und Testen ignorieren

Eine hohe Genauigkeit auf den Trainingsdaten bedeutet nicht, dass das Modell auch bei neuen Daten gut funktioniert. Generalisierung muss an separaten Daten überprüft werden.

Die falsche Metrik verwenden

Accuracy kann bei unausgewogenen Klassifikationsproblemen irreführend sein. Für manche Aufgaben sind Precision, Recall, der mittlere absolute Fehler oder eine andere Metrik wichtiger.

Algorithmennamen als Garantie behandeln

„Neuronales Netz“ oder „Random Forest“ ist kein Qualitätsversprechen. Datenqualität, Merkmalsgestaltung, Auswertung und Problemformulierung sind mindestens genauso wichtig wie der Name des Algorithmus.

Wann maschinelles Lernen nützlich ist

Maschinelles Lernen ist nützlich, wenn das Muster zu kompliziert für ein kleines festes Regelwerk ist, aber genug Daten vorhanden sind, um aus Beispielen zu lernen. Häufige Anwendungen sind Empfehlungssysteme, Betrugserkennung, Hilfswerkzeuge für medizinische Bildanalyse, Ranking, Prognosen und Dokumentenklassifikation.

Es ist nicht immer das richtige Werkzeug. Wenn die Regel einfach, stabil und vollständig bekannt ist, kann eine gewöhnliche Formel oder ein deterministisches Programm besser sein.

Probiere ein ähnliches Problem aus

Nimm einen kleinen Datensatz und stelle zwei Fragen: „Was ist die Eingabe?“ und „Was ist das Ziel?“ Wenn du beide beantworten kannst, probiere ein überwachtes Modell wie lineare Regression oder Klassifikation aus. Wenn nicht, untersuche, ob die Daten mit einem unüberwachten Verfahren auf natürliche Weise Gruppen bilden.

Wenn du noch einen Schritt weitergehen willst, löse zuerst ein ähnliches Problem mit einem einfachen Modell und vergleiche es dann mit einem flexibleren. Das ist meist ein besserer Lernweg, als direkt zum fortgeschrittensten Algorithmus zu springen.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →