A covariância mede se duas variáveis tendem a ficar acima ou abaixo de suas médias ao mesmo tempo. Uma covariância positiva significa que as variáveis geralmente se movem na mesma direção em relação às suas médias. Uma covariância negativa significa que uma tende a ficar acima da média quando a outra fica abaixo da média.
Para a maioria dos estudantes, a ideia principal é esta: o sinal costuma ser mais útil do que o número bruto. O tamanho da covariância depende das unidades das duas variáveis, então ela não é, por si só, uma medida limpa de intensidade.
Fórmula da covariância para amostras e populações
Para uma amostra de dados pareados, uma fórmula comum é
Aqui, e são as médias amostrais. Cada produto é positivo quando o par fica do mesmo lado das duas médias e negativo quando o par fica em lados opostos.
Se você estiver trabalhando com uma população completa em vez de uma amostra, o denominador normalmente é em vez de :
Use a versão amostral para dados de amostra e a versão populacional apenas quando os dados representarem toda a população que você quer descrever.
Como interpretar o sinal da covariância
A covariância é construída a partir dos desvios pareados em relação à média.
Se os dois desvios forem positivos, o produto é positivo. Se os dois forem negativos, o produto também é positivo. Esses pares aumentam a covariância porque as variáveis estão se movendo juntas em relação aos seus centros.
Se um desvio for positivo e o outro negativo, o produto é negativo. Esses pares puxam a covariância para baixo porque as variáveis estão se movendo em direções opostas.
Então, a covariância é, na prática, uma média do “movimento conjunto em torno da média”.
Exemplo resolvido: horas de estudo e notas de quiz
Suponha que uma pequena amostra registre horas de estudo e notas de quiz:
Primeiro, encontre as médias:
Agora calcule os desvios e seus produtos:
- Para :
- Para :
- Para :
Some os produtos:
Como esta é uma covariância amostral, divida por :
A covariância é positiva, então as variáveis variam juntas nesta amostra. Aqui, mais tempo de estudo está associado a notas mais altas no quiz.
O cuidado importante é que não é uma escala universal de intensidade. Seu tamanho depende das unidades aqui: horas vezes pontos da nota. Se você mudasse a escala de medição, a covariância também mudaria, mesmo que o padrão geral permanecesse parecido.
Covariância vs. correlação: a diferença principal
Covariância e correlação estão intimamente relacionadas, mas respondem a perguntas um pouco diferentes.
A covariância informa a direção da variação conjunta e mantém a escala original. A correlação padroniza essa relação dividindo a covariância pelos desvios padrão, quando esses desvios padrão são diferentes de zero:
É por isso que a correlação não tem unidade e é mais fácil de comparar entre diferentes conjuntos de dados. Seu valor fica entre e , enquanto a covariância não tem faixa fixa.
Na prática:
- Use covariância quando você se importa com a variação conjunta nas unidades originais ou quando ela aparece dentro de um cálculo maior, como uma matriz de covariância.
- Use correlação quando quiser um resumo sem unidade que seja mais fácil de comparar entre conjuntos de dados.
Erros comuns com covariância
Tratar uma covariância grande como automaticamente forte
Uma covariância de não é automaticamente “mais forte” do que uma covariância de . As variáveis podem simplesmente estar medidas em escalas maiores.
Confundir as fórmulas de amostra e população
Se seus dados forem uma amostra, dividir por é o padrão. Se seus dados forem toda a população de interesse, dividir por é a versão populacional.
Achar que covariância zero significa ausência total de relação
Uma covariância próxima de significa pouca variação linear conjunta em torno das médias. Isso não exclui uma relação não linear.
Se duas variáveis forem independentes e a covariância existir, então a covariância é . O contrário nem sempre é verdadeiro.
Ler covariância como causalidade
A covariância apenas descreve como as variáveis variam juntas. Ela não explica por que elas variam juntas.
Quando a covariância é usada
A covariância aparece em estatística, finanças, aprendizado de máquina e análise de dados sempre que variáveis pareadas precisam ser estudadas em conjunto.
Ela é especialmente comum em matrizes de covariância, nas quais cada entrada resume como duas variáveis variam conjuntamente. Isso é importante em áreas como risco de portfólio, análise de componentes principais e modelagem multivariada.
Tente um problema parecido
Pegue quaisquer três ou quatro valores pareados, calcule as duas médias e depois multiplique os desvios pareados antes de tirar a média. Esse único procedimento torna o sinal da covariância muito mais concreto.
Se quiser dar o próximo passo, compare os mesmos dados com o coeficiente de correlação e observe como padronizar as escalas muda a interpretação.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →