A análise de componentes principais, ou PCA, transforma várias variáveis numéricas em um conjunto menor de novas variáveis que preservam o máximo possível da variação. Se você pesquisou "o que é PCA", a resposta curta é: ela gira os dados para um novo conjunto de eixos e depois mantém os eixos que explicam a maior dispersão.
Esses novos eixos são chamados de componentes principais. No PCA padrão, o primeiro componente captura a maior variância possível, o segundo captura a maior variância restante enquanto permanece ortogonal ao primeiro, e os componentes seguintes continuam o mesmo padrão.
O Que o PCA Está Tentando Encontrar
Imagine uma nuvem de pontos em um espaço de alta dimensão. O PCA procura as direções em que essa nuvem mais se espalha.
Se a maior parte da dispersão acontece ao longo de uma ou duas direções, os dados podem ser bem resumidos com um ou dois componentes principais em vez do conjunto completo de variáveis originais. É por isso que o PCA é usado para redução de dimensionalidade, visualização, compressão e pré-processamento.
Para dados centralizados, o primeiro componente principal resolve
onde é a matriz de dados centralizados e é um vetor direção.
A condição de centralização importa. Sem centralizar, as direções escolhidas podem ser determinadas pelo nível médio das variáveis em vez de por como os dados variam em torno dessa média.
Como Calcular o PCA
O fluxo de trabalho padrão é curto:
- Coloque as observações nas linhas e as variáveis nas colunas.
- Centralize cada variável subtraindo sua média.
- Se as variáveis usam unidades muito diferentes e a escala não deve dominar, padronize-as também.
- Calcule a matriz de covariância dos dados centralizados.
- Encontre seus autovetores e autovalores.
Os autovetores fornecem as direções principais. Os autovalores indicam quanta variância cada direção explica.
Você também verá o PCA calculado com a decomposição em valores singulares, ou SVD. Para dados centralizados, isso fornece os mesmos subespaços principais e muitas vezes é o método numérico preferido na prática.
Exemplo Resolvido de PCA em 2D
Considere três observações 2D:
Esses pontos estão exatamente sobre a reta , então já esperamos uma direção dominante.
Primeiro centralize os dados subtraindo a média :
Para esse conjunto de dados centralizado, a matriz de covariância é proporcional a
Suas duas direções ortogonais de autovetores são
A primeira direção aponta ao longo da reta em que os dados realmente variam. A segunda aponta transversalmente a essa reta.
Projete os pontos centralizados na primeira direção:
Projete-os na segunda direção:
Portanto, toda a variação está ao longo de , e nenhuma está ao longo de . Nesse caso especial, um componente principal preserva todo o padrão de variação com um número por ponto.
Isso é o PCA em sua forma mais simples. Ele gira o sistema de coordenadas para alinhá-lo com os dados e depois pergunta quais coordenadas giradas vale a pena manter.
O Que Significam os Componentes Principais
Cada componente principal é uma combinação linear das variáveis originais.
Se o primeiro componente tiver a forma
isso significa que a principal direção de variação é aproximadamente uma combinação com pesos iguais das duas primeiras variáveis. A interpretação exata depende das variáveis e de os dados terem sido apenas centralizados ou também padronizados.
Os scores são as coordenadas de cada observação após a projeção nas direções principais. As cargas fatoriais descrevem o quanto cada variável original contribui para um componente.
Erros Comuns em PCA
Pular a Centralização
O PCA padrão geralmente é aplicado a dados centralizados. Se você pular a centralização, o resultado pode refletir mais o nível médio das variáveis do que a variação que realmente importa.
Ignorar a Escala
Se uma variável é medida em dólares e outra em milímetros, a variável de maior escala pode dominar o cálculo da variância. Padronizar costuma ser apropriado quando as unidades diferem e a escala relativa não deve decidir a resposta.
Achar Que o PCA Encontra a Característica Mais Significativa
O PCA encontra direções de grande variância, não necessariamente direções com o melhor significado causal ou a melhor separação entre classes. Alta variância e alta utilidade nem sempre são a mesma coisa.
Tratar Projeções de Baixa Dimensão Como Sem Perda
Manter apenas os primeiros componentes é uma aproximação. Ela pode ser excelente, mas ainda descarta alguma informação, a menos que os componentes restantes tenham variância exatamente zero.
Quando o PCA É Útil
O PCA é comum quando as variáveis são correlacionadas e você quer uma representação mais simples dos dados.
Usos típicos incluem:
- reduzir o número de atributos de entrada antes da modelagem
- visualizar dados de alta dimensão em duas ou três dimensões
- comprimir medições mantendo a maior parte da variância
- identificar padrões dominantes em finanças, biologia, análise de imagens e processamento de sinais
O método é mais útil quando uma estrutura baseada em variância é um resumo razoável do problema.
Tente um Problema Parecido
Faça o gráfico dos pontos , , e . Centralize-os e depois compare sua dispersão ao longo das direções e . Esse pequeno exercício deixa claro por que o PCA escolhe uma direção como importante e trata a outra como em grande parte redundante.
Se quiser ir um passo além, tente sua própria versão com pontos que não estejam perfeitamente sobre uma reta e compare quanta variância o primeiro componente explica com quanta o segundo explica.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →