ACP — Analyse en composantes principales expliquée

L’analyse en composantes principales, ou ACP, transforme plusieurs variables numériques en un plus petit ensemble de nouvelles variables qui conservent autant de variation que possible. Si vous avez cherché « qu’est-ce que l’ACP ? », la réponse courte est la suivante : elle fait tourner les données vers un nouvel ensemble d’axes, puis conserve les axes qui expliquent la plus grande dispersion.

Ces nouveaux axes s’appellent les composantes principales. Dans l’ACP standard, la première composante capte la plus grande variance possible, la deuxième capte la plus grande variance restante tout en restant orthogonale à la première, et les suivantes prolongent le même schéma.

Ce que l’ACP cherche à trouver

Imaginez un nuage de points dans un espace de grande dimension. L’ACP cherche les directions dans lesquelles ce nuage s’étale le plus.

Si l’essentiel de l’étalement se produit selon une ou deux directions, les données peuvent être bien résumées par une ou deux composantes principales au lieu de l’ensemble complet des variables d’origine. C’est pourquoi l’ACP est utilisée pour la réduction de dimension, la visualisation, la compression et le prétraitement.

Pour des données centrées, la première composante principale résout

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

où $X$ est la matrice de données centrées et $w$ est un vecteur direction.

La condition de centrage est importante. Sans centrage, les directions choisies peuvent être déterminées par le niveau moyen des variables plutôt que par la façon dont les données varient autour de cette moyenne.

Comment calculer l’ACP

Le déroulement standard est court :

Placez les observations en lignes et les variables en colonnes.
Centrez chaque variable en soustrayant sa moyenne.
Si les variables utilisent des unités très différentes et que l’échelle ne doit pas dominer, standardisez-les aussi.
Calculez la matrice de covariance des données centrées.
Trouvez ses vecteurs propres et ses valeurs propres.

Les vecteurs propres donnent les directions principales. Les valeurs propres indiquent quelle part de variance chaque direction explique.

Vous verrez aussi l’ACP calculée avec la décomposition en valeurs singulières, ou SVD. Pour des données centrées, elle donne les mêmes sous-espaces principaux et constitue souvent la méthode numérique préférée en pratique.

Exemple d’ACP en 2D

Prenons trois observations 2D :

(1,1), \quad (2,2), \quad (3,3).

Ces points sont exactement sur la droite $y=x$ , donc on s’attend déjà à une direction dominante.

Commençons par centrer les données en soustrayant la moyenne $(2,2)$ :

(-1,-1), \quad (0,0), \quad (1,1).

Pour cet ensemble de données centré, la matrice de covariance est proportionnelle à

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Ses deux directions propres orthogonales sont

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

La première direction pointe le long de la droite où les données varient réellement. La seconde pointe à travers cette droite.

Projetez les points centrés sur la première direction :

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Projetez-les sur la deuxième direction :

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Ainsi, toute la variation se trouve le long de $\frac{1}{\sqrt{2}}(1,1)$ , et aucune le long de $\frac{1}{\sqrt{2}}(1,-1)$ . Dans ce cas particulier, une seule composante principale conserve tout le schéma de variation avec un seul nombre par point.

C’est l’ACP dans sa forme la plus simple. Elle fait tourner le système de coordonnées pour l’aligner sur les données, puis demande quelles coordonnées tournées valent la peine d’être conservées.

Ce que signifient les composantes principales

Chaque composante principale est une combinaison linéaire des variables d’origine.

Si la première composante ressemble à

z_1 = 0.7x_1 + 0.7x_2,

cela signifie que la direction principale de variation est approximativement une combinaison à poids égaux des deux premières variables. L’interprétation exacte dépend des variables et du fait que les données aient seulement été centrées ou aussi standardisées.

Les scores sont les coordonnées de chaque observation après projection sur les directions principales. Les charges factorielles décrivent à quel point chaque variable d’origine contribue à une composante.

Erreurs fréquentes en ACP

Oublier le centrage

L’ACP standard s’applique généralement à des données centrées. Si vous sautez cette étape, le résultat peut davantage refléter le niveau moyen des variables que la variation qui vous intéresse réellement.

Ignorer l’échelle

Si une variable est mesurée en euros et une autre en millimètres, la variable à plus grande échelle peut dominer le calcul de la variance. La standardisation est souvent appropriée lorsque les unités diffèrent et que l’échelle relative ne doit pas décider du résultat.

Penser que l’ACP trouve la caractéristique la plus pertinente

L’ACP trouve des directions de grande variance, pas nécessairement des directions ayant le meilleur sens causal ou la meilleure séparation entre classes. Grande variance et grande utilité ne sont pas toujours la même chose.

Traiter les projections de faible dimension comme sans perte

Ne conserver que les premières composantes est une approximation. Elle peut être excellente, mais elle élimine tout de même une partie de l’information, sauf si les composantes restantes ont exactement une variance nulle.

Quand l’ACP est utile

L’ACP est courante lorsque les variables sont corrélées et que vous voulez une représentation plus simple des données.

Les usages typiques incluent :

réduire le nombre de variables d’entrée avant la modélisation
visualiser des données de grande dimension en deux ou trois dimensions
compresser des mesures tout en conservant l’essentiel de la variance
identifier des motifs dominants en finance, en biologie, en analyse d’images et en traitement du signal

La méthode est surtout utile lorsque une structure fondée sur la variance constitue un résumé raisonnable du problème.

Essayez un problème similaire

Tracez les points $(1,2)$ , $(2,3)$ , $(3,4)$ et $(4,5)$ . Centrez-les, puis comparez leur dispersion selon les directions $(1,1)$ et $(1,-1)$ . Ce petit exercice montre clairement pourquoi l’ACP choisit une direction comme importante et considère l’autre comme largement redondante.

Si vous voulez aller un peu plus loin, essayez votre propre version avec des points qui ne sont pas parfaitement alignés sur une droite et comparez la part de variance expliquée par la première composante à celle expliquée par la deuxième.

Besoin d'aide pour un problème ?

Envoyez votre question et obtenez une solution vérifiée, étape par étape, en quelques secondes.

Ouvrir GPAI Solver →