L’apprentissage automatique est une manière d’utiliser des données pour faire des prédictions ou repérer des motifs sans écrire chaque règle à la main. En apprentissage supervisé, les données d’entraînement contiennent la bonne réponse. En apprentissage non supervisé, ce n’est pas le cas, donc l’objectif est de trouver une structure, comme des groupes ou les principales directions de variation.

C’est l’idée centrale derrière la plupart des bases du machine learning. On part de données, on choisit un modèle, on l’entraîne sur des exemples, puis on vérifie s’il fonctionne sur de nouvelles données plutôt que seulement sur celles qu’il a déjà vues.

Ce que fait l’apprentissage automatique

Un modèle d’apprentissage automatique associe des entrées à des sorties ou à des motifs. L’entrée peut être la surface d’une maison, des notes d’examen, l’activité d’un client ou les valeurs de pixels d’une image. La sortie dépend de la tâche :

  • prédire un nombre, comme un prix
  • prédire une étiquette, comme spam ou non-spam
  • regrouper des éléments similaires sans étiquettes
  • classer ou recommander des choix probables

Ce qui fait qu’il s’agit d’un « apprentissage », c’est que les paramètres du modèle sont ajustés à partir des données au lieu d’être entièrement fixés par un programmeur.

Apprentissage supervisé vs apprentissage non supervisé

Apprentissage supervisé : prédire une cible connue

L’apprentissage supervisé utilise des exemples de la forme (x,y)(x, y), où xx est l’entrée et yy la cible connue.

Si yy est numérique, on parle souvent de régression. Si yy est une catégorie, la tâche est généralement appelée classification.

Parmi les algorithmes supervisés courants, on trouve la régression linéaire, la régression logistique, les arbres de décision, les forêts aléatoires, les machines à vecteurs de support et les réseaux de neurones. Aucune méthode n’est la meilleure dans tous les contextes. Le bon choix dépend de la taille des données, du niveau de bruit, du type de variables et du degré d’interprétabilité dont vous avez besoin.

Apprentissage non supervisé : trouver une structure sans étiquettes

L’apprentissage non supervisé utilise des entrées xx sans étiquettes cibles.

Ici, l’objectif est généralement de découvrir une structure déjà présente dans les données. Une méthode de clustering comme k-means essaie de regrouper des observations similaires. Une méthode de réduction de dimension comme l’analyse en composantes principales cherche à résumer la variation avec moins de directions.

L’apprentissage non supervisé peut être utile pour l’exploration, la compression, la détection d’anomalies ou le prétraitement. Ses résultats dépendent fortement de la manière dont les données sont représentées et de la notion de similarité intégrée à la méthode.

Un modèle mental simple

On peut voir l’apprentissage automatique comme un ajustement de courbes ou de motifs en situation d’incertitude.

Vous choisissez une famille de modèles, comme des droites, des arbres de décision ou des réseaux de neurones à plusieurs couches. L’entraînement ajuste ensuite le modèle pour que ses prédictions correspondent le mieux possible aux données d’entraînement selon une fonction de perte. Si le modèle généralise bien, il fonctionne aussi bien sur de nouvelles données qu’il n’a jamais vues.

Cette dernière condition est essentielle. Un modèle qui se contente de mémoriser l’ensemble d’entraînement n’est généralement pas utile.

Exemple détaillé : prédire un loyer avec une régression linéaire

Supposons que vous vouliez prédire le loyer d’un appartement à partir de sa surface. Un modèle supervisé simple est

y^=b0+b1x\hat{y} = b_0 + b_1x

xx est la surface, y^\hat{y} le loyer prédit, b0b_0 l’ordonnée à l’origine et b1b_1 la pente.

Supposons qu’un modèle ajusté donne

y^=500+2x\hat{y} = 500 + 2x

avec le loyer mesuré en dollars et la surface mesurée en pieds carrés.

Si un appartement a x=700x = 700, la prédiction est

y^=500+2(700)=1900\hat{y} = 500 + 2(700) = 1900

Le modèle prédit donc un loyer de 19001900.

Trois détails comptent ici. Le modèle a appris à partir d’exemples étiquetés de surface et de loyer. La prédiction est une estimation, pas une garantie. La formule n’a de sens que si une relation à peu près linéaire est une approximation raisonnable sur l’intervalle qui vous intéresse.

Cet exemple est volontairement simple, mais il illustre la boucle principale de l’apprentissage supervisé : utiliser des données étiquetées, ajuster des paramètres et prédire une cible pour une nouvelle entrée.

Algorithmes clés du machine learning et quand les utiliser

Régression linéaire

Utilisez-la lorsque l’objectif est de prédire une valeur numérique et qu’une approximation par une droite constitue un premier modèle raisonnable.

Régression logistique

Utilisez-la pour la classification lorsque vous voulez une base de référence relativement simple et interprétable pour prédire des catégories comme oui ou non.

Arbres de décision et forêts aléatoires

Utilisez-les lorsque les relations sont non linéaires ou impliquent des interactions, en particulier sur des données tabulaires. Les forêts aléatoires échangent généralement un peu d’interprétabilité contre une meilleure stabilité prédictive.

Clustering k-means

Utilisez-le en apprentissage non supervisé pour regrouper des observations en kk clusters. Il fonctionne mieux lorsque l’idée d’un centre de cluster a du sens pour les variables utilisées.

Réseaux de neurones

Utilisez-les lorsque la relation entre les entrées et les sorties est très complexe, en particulier pour les tâches d’image, de parole et de langage. Ils demandent souvent plus de données et de réglages que les modèles plus simples.

Erreurs fréquentes dans les bases du machine learning

Confondre prédiction et explication

Un modèle peut bien prédire tout en échouant à expliquer la véritable cause du motif observé.

Ignorer la différence entre entraînement et test

Une forte précision sur l’entraînement ne signifie pas que le modèle fonctionnera bien sur de nouvelles données. La généralisation doit être vérifiée sur des données distinctes.

Utiliser la mauvaise métrique

L’accuracy peut être trompeuse dans les problèmes de classification déséquilibrée. Pour certaines tâches, la précision, le rappel, l’erreur absolue moyenne ou une autre métrique peut être plus importante.

Prendre le nom d’un algorithme comme une garantie

« Réseau de neurones » ou « forêt aléatoire » n’est pas une promesse de qualité. La qualité des données, la conception des variables, l’évaluation et la formulation du problème comptent au moins autant que le nom de l’algorithme.

Quand l’apprentissage automatique est utile

L’apprentissage automatique est utile lorsque le motif est trop complexe pour un petit ensemble fixe de règles, mais qu’il existe suffisamment de données pour apprendre à partir d’exemples. Parmi les usages courants, on trouve les systèmes de recommandation, la détection de fraude, les outils d’aide à l’analyse d’images médicales, le classement, la prévision et la classification de documents.

Ce n’est pas toujours le bon outil. Si la règle est simple, stable et entièrement connue, une formule ordinaire ou un programme déterministe peut être préférable.

Essayez un problème similaire

Prenez un petit jeu de données et posez-vous deux questions : « Quelle est l’entrée ? » et « Quelle est la cible ? » Si vous pouvez répondre aux deux, essayez un modèle supervisé comme la régression linéaire ou la classification. Si vous ne le pouvez pas, explorez si les données forment naturellement des groupes avec une méthode non supervisée.

Si vous voulez aller un peu plus loin, résolvez d’abord un problème similaire avec un modèle simple, puis comparez-le à un modèle plus flexible. C’est généralement une meilleure façon d’apprendre que de passer directement à l’algorithme le plus avancé.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →