Analisi di regressione — semplice, multipla e logistica

L'analisi di regressione spiega come cambia una variabile risposta quando cambiano uno o più predittori. Usa la regressione lineare semplice per un solo predittore e una risposta numerica, la regressione lineare multipla per più predittori e una risposta numerica, e la regressione logistica per una risposta binaria come promosso/bocciato.

Questa distinzione risponde subito alla domanda principale:

Regressione lineare semplice: un predittore, risposta numerica.
Regressione lineare multipla: più predittori, risposta numerica.
Regressione logistica: risposta binaria come sì/no, promosso/bocciato oppure ha cliccato/non ha cliccato.

Dopo questo, il vero lavoro è l'interpretazione. Un coefficiente significa davvero ciò che pensi solo se il modello corrisponde al tipo di risposta e si adatta ragionevolmente bene ai dati.

Che cosa fa l'analisi di regressione

La regressione non si limita a tracciare una retta tra i punti. Costruisce una regola che collega i predittori a un valore atteso della risposta, così puoi spiegare gli andamenti o fare previsioni.

Nella regressione lineare, questa regola è un modello lineare per il valore atteso della risposta. Nella regressione logistica, il modello è costruito per le probabilità, quindi i valori previsti restano tra $0$ e $1$ .

Regressione lineare semplice: un predittore, risposta numerica

La regressione lineare semplice usa un predittore $x$ e una risposta numerica $y$ :

\hat{y} = b_0 + b_1x

Qui $\hat{y}$ è la risposta prevista, $b_0$ è l'intercetta e $b_1$ è il coefficiente angolare.

Il coefficiente angolare $b_1$ ti dice la variazione prevista di $y$ per un aumento di una unità in $x$ , se un andamento lineare è un'approssimazione ragionevole nell'intervallo che ti interessa.

Regressione lineare multipla: più predittori, una risposta numerica

La regressione lineare multipla mantiene la stessa idea di base, ma usa più di un predittore:

\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

Questo è utile quando un solo predittore è troppo semplice. Nella realtà, i risultati dipendono spesso da diversi fattori allo stesso tempo.

Il cambiamento chiave nell'interpretazione è importante: $b_1$ è la variazione prevista di $y$ per un aumento di una unità in $x_1$ , mantenendo fissi gli altri predittori inclusi.

Questa condizione del "mantenere fissi gli altri predittori" è ciò che rende la regressione multipla diversa da una serie di confronti a una sola variabile.

Regressione logistica: risposte binarie e probabilità

La regressione logistica serve per una risposta binaria, non numerica. Se la risposta è qualcosa come ammesso o non ammesso, ha abbandonato o è rimasto, oppure promosso o bocciato, la regressione lineare di solito non è lo strumento giusto.

Invece di modellare direttamente la risposta come una retta, la regressione logistica modella il logit della risposta:

\log\left(\frac{p}{1-p}\right) = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

dove $p = P(Y=1 \mid x_1, x_2, \ldots, x_p)$ .

Il lato sinistro è il logit, non la probabilità stessa. Questa impostazione è importante perché le probabilità devono restare tra $0$ e $1$ : un normale modello lineare può prevedere valori impossibili come $1.2$ o $-0.1$ , mentre la regressione logistica no.

Esempio svolto: prevedere un punteggio oppure prevedere promosso/bocciato

Supponi che un insegnante voglia studiare il rendimento degli studenti.

Se la risposta è il punteggio dell'esame e l'unico predittore sono le ore di studio, un modello lineare semplice potrebbe essere

\hat{y} = 42 + 5x

Se uno studente studia per $6$ ore, il punteggio previsto è

\hat{y} = 42 + 5(6) = 72

Qui il coefficiente angolare dice che il punteggio previsto aumenta di $5$ punti per ogni ora di studio in più, se il modello lineare si adatta ragionevolmente bene.

Ora supponi che l'insegnante includa anche le ore di sonno e il numero di quiz di esercitazione. Un modello di regressione multipla potrebbe essere

\hat{y} = 20 + 4x_1 + 2x_2 + 1.5x_3

dove $x_1$ sono le ore di studio, $x_2$ sono le ore di sonno e $x_3$ è il numero di quiz di esercitazione completati.

Il coefficiente $4$ ora ha un significato più specifico: è la variazione prevista del punteggio per un'ora di studio in più, mantenendo fissi il sonno e i quiz di esercitazione.

Ora cambia la domanda. Invece di prevedere un punteggio, supponi che l'insegnante voglia la probabilità che uno studente venga promosso. Questo rende la risposta binaria, quindi la regressione logistica è la scelta naturale:

\log\left(\frac{p}{1-p}\right) = -6 + 0.8x_1 + 0.5x_2

Se uno studente studia $6$ ore e dorme $7$ ore, allora

-6 + 0.8(6) + 0.5(7) = 2.3

quindi la probabilità prevista è

p = \frac{1}{1 + e^{-2.3}} \approx 0.91

Questo modello prevede circa il $91\%$ di probabilità di essere promosso. I numeri esatti sono solo un esempio. L'idea chiave è che quando la risposta passa da un punteggio a promosso/bocciato, anche la famiglia di regressione dovrebbe cambiare.

Errori comuni nell'analisi di regressione

Usare la regressione lineare per una risposta binaria

Se la risposta è solo $0$ o $1$ , la regressione logistica è di solito più appropriata perché è progettata per le probabilità. La regressione lineare può essere usata in alcuni casi particolari come approssimazione, ma può anche produrre previsioni di probabilità scadenti.

Trattare la regressione come prova di causalità

La regressione può descrivere associazioni e supportare la previsione. Non dimostra, da sola, che cambiare una variabile causi un cambiamento nella risposta.

Ignorare le condizioni del modello

Un coefficiente significa davvero ciò che pensi solo se il modello scelto si adatta ragionevolmente bene. Per la regressione lineare, questo spesso significa controllare se una sintesi lineare ha senso e se gli errori mostrano un andamento che il modello non ha colto.

Interpretare troppo i coefficienti della regressione multipla

Nella regressione multipla, un coefficiente è condizionato agli altri predittori inclusi. Se mancano variabili importanti, oppure se i predittori sono fortemente intrecciati tra loro, l'interpretazione diventa meno stabile.

Dove si usa l'analisi di regressione

La regressione si usa quando vuoi spiegare la variabilità, stimare relazioni condizionate o fare previsioni a partire dai dati.

La troverai nelle previsioni aziendali, in medicina, nelle scienze sociali, nel controllo qualità, nell'istruzione e nel machine learning. La forma esatta dipende dalla risposta: le risposte numeriche portano spesso a modelli lineari, mentre le risposte binarie portano spesso a modelli logistici.

Come scegliere il modello di regressione giusto

Fatti prima queste due domande:

La risposta è numerica o binaria?
Quanti predittori voglio includere?

Se la risposta è numerica, inizia con la regressione lineare. Se c'è un solo predittore, si tratta di regressione lineare semplice. Se ce ne sono diversi, si tratta di regressione lineare multipla.

Se la risposta è binaria, inizia con la regressione logistica.

Questo non garantisce che il modello sia buono, ma ti porta rapidamente nella famiglia di modelli giusta.

Prova un problema simile

Prendi un piccolo dataset e poni due domande diverse su di esso. Prima prevedi una risposta numerica, come un punteggio. Poi trasforma la risposta in una versione binaria, come promosso o bocciato. Questo confronto affiancato è uno dei modi più rapidi per capire davvero l'analisi di regressione.

Hai bisogno di aiuto con un problema?

Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.

Apri GPAI Solver →