PCA — Análisis de Componentes Principales explicado

El análisis de componentes principales, o PCA, convierte varias variables numéricas en un conjunto más pequeño de variables nuevas que conservan la mayor variación posible. Si buscaste "qué es PCA", la respuesta corta es: rota los datos hacia un nuevo conjunto de ejes y luego conserva los ejes que explican la mayor dispersión.

Esos nuevos ejes se llaman componentes principales. En el PCA estándar, el primer componente captura la mayor varianza posible, el segundo captura la mayor varianza restante mientras sigue siendo ortogonal al primero, y los componentes posteriores continúan el mismo patrón.

Qué intenta encontrar PCA

Imagina una nube de puntos en un espacio de alta dimensión. PCA busca las direcciones en las que esa nube se dispersa más.

Si la mayor parte de la dispersión ocurre a lo largo de una o dos direcciones, los datos pueden resumirse bien con uno o dos componentes principales en lugar del conjunto completo de variables originales. Por eso PCA se usa para reducción de dimensionalidad, visualización, compresión y preprocesamiento.

Para datos centrados, el primer componente principal resuelve

\text{maximize } \mathrm{Var}(Xw) \quad \text{subject to } \|w\| = 1,

donde $X$ es la matriz de datos centrados y $w$ es un vector dirección.

La condición de centrado importa. Sin centrar, las direcciones elegidas pueden quedar determinadas por el nivel medio de las variables en lugar de por cómo varían los datos alrededor de esa media.

Cómo calcular PCA

El flujo de trabajo estándar es breve:

Coloca las observaciones en filas y las variables en columnas.
Centra cada variable restando su media.
Si las variables usan unidades muy distintas y la escala no debe dominar, estandarízalas también.
Calcula la matriz de covarianza de los datos centrados.
Encuentra sus autovectores y autovalores.

Los autovectores dan las direcciones principales. Los autovalores indican cuánta varianza explica cada dirección.

También verás PCA calculado con la descomposición en valores singulares, o SVD. Para datos centrados, eso da los mismos subespacios principales y a menudo es el método numérico preferido en la práctica.

Ejemplo resuelto de PCA en 2D

Toma tres observaciones en 2D:

(1,1), \quad (2,2), \quad (3,3).

Estos puntos están exactamente sobre la recta $y=x$ , así que ya esperamos una dirección dominante.

Primero centra los datos restando la media $(2,2)$ :

(-1,-1), \quad (0,0), \quad (1,1).

Para este conjunto de datos centrado, la matriz de covarianza es proporcional a

\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}.

Sus dos direcciones ortogonales de autovectores son

\frac{1}{\sqrt{2}}(1,1) \quad \text{and} \quad \frac{1}{\sqrt{2}}(1,-1).

La primera dirección apunta a lo largo de la recta donde los datos realmente varían. La segunda apunta de forma transversal a esa recta.

Proyecta los puntos centrados sobre la primera dirección:

(-1,-1) \mapsto -\sqrt{2}, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto \sqrt{2}.

Proyéctalos sobre la segunda dirección:

(-1,-1) \mapsto 0, \quad (0,0) \mapsto 0, \quad (1,1) \mapsto 0.

Así que toda la variación está a lo largo de $\frac{1}{\sqrt{2}}(1,1)$ , y no hay ninguna a lo largo de $\frac{1}{\sqrt{2}}(1,-1)$ . En este caso especial, un componente principal conserva todo el patrón de variación con un número por punto.

Eso es PCA en su forma más simple. Rota el sistema de coordenadas para alinearlo con los datos y luego pregunta qué coordenadas rotadas vale la pena conservar.

Qué significan los componentes principales

Cada componente principal es una combinación lineal de las variables originales.

Si el primer componente se ve así:

z_1 = 0.7x_1 + 0.7x_2,

eso significa que la dirección principal de variación es aproximadamente una combinación con pesos iguales de las dos primeras variables. La interpretación exacta depende de las variables y de si los datos solo se centraron o también se estandarizaron.

Los scores son las coordenadas de cada observación después de proyectarla sobre las direcciones principales. Las cargas describen con qué intensidad contribuye cada variable original a un componente.

Errores comunes en PCA

Omitir el centrado

El PCA estándar suele aplicarse a datos centrados. Si omites el centrado, el resultado puede reflejar más el nivel promedio de las variables que la variación que realmente te interesa.

Ignorar la escala

Si una variable se mide en dólares y otra en milímetros, la variable de mayor escala puede dominar el cálculo de la varianza. Estandarizar suele ser apropiado cuando las unidades difieren y la escala relativa no debería decidir la respuesta.

Pensar que PCA encuentra la característica más significativa

PCA encuentra direcciones de gran varianza, no necesariamente direcciones con el mejor significado causal o la mejor separación entre clases. Alta varianza y alta utilidad no siempre son lo mismo.

Tratar las proyecciones de baja dimensión como si no perdieran información

Conservar solo los primeros componentes es una aproximación. Puede ser excelente, pero aun así descarta parte de la información, salvo que los componentes restantes tengan varianza exactamente cero.

Cuándo es útil PCA

PCA es común cuando las variables están correlacionadas y quieres una representación más simple de los datos.

Los usos típicos incluyen:

reducir el número de variables de entrada antes de modelar
visualizar datos de alta dimensión en dos o tres dimensiones
comprimir mediciones conservando la mayor parte de la varianza
identificar patrones dominantes en finanzas, biología, análisis de imágenes y procesamiento de señales

El método es más útil cuando la estructura basada en la varianza es un resumen razonable del problema.

Prueba un problema similar

Grafica los puntos $(1,2)$ , $(2,3)$ , $(3,4)$ y $(4,5)$ . Céntralos y luego compara su dispersión a lo largo de las direcciones $(1,1)$ y $(1,-1)$ . Ese pequeño ejercicio deja claro por qué PCA elige una dirección como importante y trata la otra como mayormente redundante.

Si quieres ir un paso más allá, prueba tu propia versión con puntos que no estén perfectamente sobre una recta y compara cuánta varianza explica el primer componente con cuánta explica el segundo.

¿Necesitas ayuda con un problema?

Sube tu pregunta y obtén una solución verificada, paso a paso, en segundos.

Abrir GPAI Solver →