O coeficiente de correlação normalmente se refere ao coeficiente de correlação de Pearson, escrito como rr. Ele mede a direção e a força de uma relação linear entre duas variáveis numéricas.

Se rr for positivo, as variáveis tendem a aumentar juntas. Se rr for negativo, uma tende a diminuir enquanto a outra aumenta. Se rr estiver perto de 00, o rr de Pearson está dizendo que há pouco padrão linear, não necessariamente ausência total de relação.

O rr de Pearson é mais útil quando os dados vêm em pares, as duas variáveis são numéricas e a tendência em linha reta é o padrão que você quer resumir.

O Que o Coeficiente de Correlação Mostra

O rr de Pearson é uma medida padronizada de como duas variáveis variam juntas. Para uma amostra de dados emparelhados, a fórmula é

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

O numerador é positivo quando as variáveis tendem a se mover na mesma direção e negativo quando tendem a se mover em direções opostas. O denominador reescala esse movimento conjunto usando a dispersão de cada variável.

Quando o rr de Pearson está definido, ele deve satisfazer

1r1-1 \le r \le 1

Se uma das variáveis não tiver variação nenhuma, o denominador se torna 00, então o rr de Pearson fica indefinido.

Como Interpretar Valores Positivos, Negativos e Próximos de Zero

Comece pelo sinal:

  • r>0r > 0: associação linear positiva
  • r<0r < 0: associação linear negativa
  • r=0r = 0: ausência de associação linear

Depois observe o módulo r|r|. Valores mais próximos de 11 significam que os pontos ficam mais próximos de um padrão em linha reta. Valores mais próximos de 00 significam que o padrão linear é mais fraco.

Tenha cuidado com rótulos como "fraca", "moderada" ou "forte". Esses cortes dependem do contexto. Em uma área, r=0.3r = 0.3 pode ser importante. Em outra, pode ser pequeno demais para sustentar uma decisão.

O hábito mais seguro é interpretar rr junto com um gráfico de dispersão. O número é um resumo do padrão que você vê; ele não deve substituir a figura.

Exemplo Resolvido: Calculando r=0.9r = 0.9

Suponha que os dados emparelhados sejam

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Primeiro, calcule as médias:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

Agora liste os desvios em relação às médias:

  • Para xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • Para yy: 2,1,1,0,2-2, -1, 1, 0, 2

Multiplique os desvios emparelhados e some:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Agora calcule as duas somas de quadrados:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Então,

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Isso mostra que há uma forte associação linear positiva nessa amostra. À medida que xx aumenta, yy geralmente também aumenta, e os pontos ficariam relativamente próximos de uma reta crescente.

Erros Comuns ao Interpretar Correlação

Tratar Correlação como Causalidade

Uma correlação alta não prova que uma variável causa a outra. Um terceiro fator pode influenciar ambas, ou a relação pode ser apenas coincidência nos dados observados.

Esquecer que o rr de Pearson é Linear

O rr de Pearson só mede bem associação linear. Uma relação curva pode produzir uma correlação pequena mesmo quando as variáveis estão claramente relacionadas.

Ignorar Outliers

Um único ponto incomum pode alterar bastante o valor de rr. Se o gráfico de dispersão tiver um outlier, a correlação pode contar uma história enganosa sobre o padrão geral.

Usar o rr de Pearson Quando o Contexto Não se Encaixa

O rr de Pearson foi feito para dados numéricos emparelhados e associação linear. Se uma variável for categórica, ou se o padrão for claramente curvo, esse coeficiente pode não responder à pergunta que realmente importa.

Interpretar Demais um Valor Próximo de Zero

Um valor próximo de 00 significa "pouca associação linear", não "nenhuma relação de qualquer tipo".

Quando o Coeficiente de Correlação de Pearson é Usado

O rr de Pearson é muito usado em estatística, ciência, economia, pesquisa social e aprendizado de máquina como um resumo rápido de dados numéricos emparelhados. Ele é mais útil quando você quer saber se existe um padrão em linha reta antes de passar para um modelo como a regressão linear.

Na prática, um gráfico de dispersão deve vir primeiro. O coeficiente é um resumo, não um substituto para olhar os dados.

Tente um Problema Parecido

Pegue um pequeno conjunto de dados que você já entenda, faça o gráfico dos pontos e estime se a tendência parece positiva, negativa ou pouco clara antes de calcular rr. Essa comparação rápida é uma das formas mais eficientes de desenvolver intuição sobre o que o coeficiente de correlação realmente está dizendo.

Se quiser ir um passo além, explore os mesmos dados com uma reta de regressão linear simples. Isso facilita ver como correlação e previsão estão relacionadas, mas não são a mesma coisa.

Precisa de ajuda com um problema?

Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.

Abrir GPAI Solver →