La regressione lineare è un modo per descrivere come una variabile cambia rispetto a un’altra usando una retta di adattamento ottimale. Nella regressione lineare semplice, con una variabile di input e una variabile di output , il modello è
Qui è il valore previsto, è la pendenza e è l’intercetta. Il metodo di adattamento più comune è quello dei minimi quadrati ordinari, che sceglie la retta che rende i residui quadratici il più piccoli possibile:
Se ti serve solo l’idea principale, ricorda questo: la pendenza indica la variazione prevista di per un aumento di una unità in , purché un modello lineare sia un adattamento ragionevole.
Equazione della regressione lineare: cosa ti dice
La pendenza indica la variazione prevista di quando aumenta di , se un modello lineare descrive ragionevolmente i dati. L’intercetta è il valore previsto di quando .
La parola "previsto" è importante. Una retta di regressione di solito non passa per ogni punto. Invece bilancia gli errori su tutti i punti, quindi riassume l’andamento generale invece di coincidere con ogni osservazione.
Formula della regressione lineare per e
Per la regressione lineare semplice, se i valori di non sono tutti uguali, i coefficienti dei minimi quadrati si possono scrivere come
e
Qui è la media dei valori di e è la media dei valori di . Queste formule valgono per la regressione lineare semplice. Se hai più di una variabile di input, l’impostazione cambia.
Perché i minimi quadrati usano i residui quadratici
Immagina i punti dei dati come una nuvola in un diagramma di dispersione. Molte rette potrebbero passare vicino a quella nuvola. La regressione lineare sceglie la retta che mantiene complessivamente piccoli gli scarti verticali, chiamati residui.
Elevare al quadrato i residui ha due effetti utili. Impedisce che errori positivi e negativi si annullino tra loro e dà più peso agli scarti grandi.
Esempio di regressione lineare semplice
Supponiamo che i punti siano , , e . Adatteremo una retta di regressione lineare semplice.
Per prima cosa troviamo le medie:
Ora calcoliamo la pendenza:
Poi calcoliamo l’intercetta:
Quindi l’equazione di regressione è
Se , il modello prevede
Puoi anche controllare un residuo. Per , il valore previsto è
Il valore reale è , quindi il residuo è
Quel punto si trova unità sotto la retta di regressione. Un solo residuo non dice se l’intero modello è buono, ma mostra come la regressione misura l’errore.
Errori comuni nella regressione lineare
Un errore è pensare che la retta debba passare per ogni punto. La regressione riguarda il miglior adattamento, non l’adattamento perfetto.
Un altro errore è leggere la pendenza come una regola esatta per ogni punto dei dati. La pendenza è una variazione media prevista dal modello.
Un terzo errore è trattare la regressione come una prova di causalità. Un forte andamento lineare può supportare la previsione o descrivere un’associazione, ma da solo non spiega perché le variabili si muovano insieme.
È anche facile fidarsi troppo delle previsioni al di fuori dell’intervallo dei dati osservati. L’estrapolazione può fallire anche quando la retta adattata sembra buona all’interno dell’intervallo originale.
Quando usare la regressione lineare
La regressione lineare si usa quando una sintesi con una retta è utile e la relazione è almeno approssimativamente lineare nell’intervallo che ti interessa. Usi comuni includono stimare il prezzo dalla dimensione, il punteggio dal tempo di studio o l’output dall’input in condizioni stabili.
È particolarmente utile quando vuoi un modello interpretabile. Pendenza, intercetta e residui sono abbastanza semplici da spiegare senza nascondere ciò che il modello sta facendo.
Un rapido controllo prima di fidarti della retta
Prima di usare una retta di regressione, poniti due domande. Un diagramma di dispersione appare approssimativamente lineare? Il contesto rende la pendenza significativa invece che fuorviante? Se una delle due risposte è no, un modello diverso potrebbe essere migliore.
Prova un esercizio simile
Scegli quattro punti, disegnali e adatta una retta con una calcolatrice o un software. Poi confronta i valori previsti con quelli reali. Osservare i residui è spesso il modo più rapido per capire che cosa stia davvero facendo la retta di regressione.
Hai bisogno di aiuto con un problema?
Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.
Apri GPAI Solver →