La regressione logistica è un modello per la classificazione binaria. Combina le caratteristiche di input in un punteggio lineare, fa passare quel punteggio attraverso la funzione sigmoide e produce un numero tra e che viene interpretato, nel modello adattato, come la probabilità stimata della classe positiva.
Nonostante il nome, la regressione logistica si usa di solito per decidere tra due classi, come promosso/bocciato, spam/non spam oppure insolvenza/non insolvenza. La parola "regressione" si riferisce alla formula lineare all’interno del modello, non alla previsione di un’uscita continua.
Formula della regressione logistica in sintesi
La regressione logistica binaria usa
con la funzione sigmoide
La parte lineare può essere qualsiasi numero reale. La sigmoide comprime quel valore nell’intervallo , ed è per questo che l’output può essere usato come stima di probabilità.
Perché la funzione sigmoide è importante
Se usassi il punteggio lineare grezzo come probabilità, potresti ottenere valori impossibili come o . La sigmoide risolve il problema mappando punteggi molto negativi vicino a , punteggi molto positivi vicino a e punteggi vicini a vicino a .
Questo dà un’interpretazione pratica:
- se è molto negativo, il modello propende per la classe
- se è vicino a , il modello è incerto
- se è molto positivo, il modello propende per la classe
La curva è più ripida vicino a . Quindi una piccola variazione del punteggio può cambiare molto la probabilità vicino a , ma molto meno quando la probabilità è già vicina a o .
Esempio svolto di regressione logistica
Supponiamo che un modello usi una sola caratteristica e abbia
Puoi pensare a come a un punteggio in un test e a come "promosso". I coefficienti qui sono solo un esempio per mostrare il meccanismo.
Se , allora
Quindi la probabilità prevista è
Se , allora
e
Quindi lo stesso modello dà circa il di probabilità di essere promosso per e circa il per . Il punteggio è aumentato di , ma l’output finale è rimasto tra e perché la sigmoide piega il risultato trasformandolo in una probabilità.
Se ora scegli una soglia di , il primo caso viene classificato come classe e il secondo come classe . Quest’ultimo passaggio dipende dalla soglia. La stima di probabilità in sé no.
Una scorciatoia utile: con una soglia di , la classe cambia esattamente quando , perché .
Come la regressione logistica diventa un classificatore
L’output del modello è una stima di probabilità. La regola di classificazione viene aggiunta dopo.
Per esempio, con soglia :
- prevedi la classe se
- prevedi la classe se
Ma non è sempre la soglia giusta. Se i falsi positivi e i falsi negativi hanno costi diversi, oppure se le classi sono molto sbilanciate, un’altra soglia può funzionare meglio.
Cosa significano i coefficienti
Il segno di un coefficiente ti dice la direzione dell’effetto sul punteggio lineare :
- se , aumentare fa crescere e tende ad aumentare
- se , aumentare fa diminuire e tende a ridurre
Questa parte è semplice. Il punto più sottile è che la probabilità non cambia in modo lineare con la caratteristica, perché la curva sigmoide non è una retta.
Nella regressione logistica standard, il modello lineare è sulla scala dei log-odds:
Questo significa che ogni aumento di una unità in una caratteristica modifica i log-odds in modo lineare, mantenendo fisse le altre caratteristiche. È più preciso che dire che cambia la probabilità di una quantità fissa.
Errori comuni nella regressione logistica
Trattare l’output come una classe garantita
Una previsione come non significa che l’evento accadrà sicuramente. Significa che il modello assegna a quell’input una probabilità stimata di circa il per la classe positiva.
Supporre che la soglia debba essere
è comune, ma è una scelta, non una legge. La soglia migliore dipende dall’applicazione.
Pensare che la probabilità cambi linearmente
Il punteggio è lineare negli input, ma la probabilità no. Una variazione di una unità in una caratteristica può avere un effetto diverso vicino a rispetto a vicino a .
Dimenticare che il modello è binario, a meno di estensioni
La regressione logistica di base gestisce due classi. Esistono versioni multiclasse, ma sono estensioni, non la stessa configurazione binaria scritta in un altro modo.
Quando si usa la regressione logistica
La regressione logistica si usa spesso quando il target è sì/no, come nel rilevamento dello spam, nella presenza di una malattia, nel churn dei clienti, nell’insolvenza di un prestito o negli esiti promosso/bocciato.
Rimane popolare perché è semplice, veloce e abbastanza interpretabile. È particolarmente utile quando vuoi un classificatore di base, quando il dataset non è enorme oppure quando ti servono probabilità stimate invece di sole etichette rigide.
Un modo semplice per visualizzarla
Pensa alla regressione logistica come a una macchina in due passaggi:
- Somma le evidenze con un punteggio lineare.
- Trasforma quel punteggio in una probabilità con la sigmoide.
Questa immagine basta per capire la maggior parte degli esempi introduttivi e per vedere perché la regressione logistica si colloca tra i modelli lineari e i problemi di classificazione.
Prova un problema simile di regressione logistica
Scegli un punteggio semplice come
Calcola per alcuni valori di , come , e . Osserva come il punteggio lineare cambi in modo regolare mentre la probabilità si incurva seguendo una curva a S. Poi prova una soglia diversa e vedi quando cambia la classe prevista.
Hai bisogno di aiuto con un problema?
Carica la tua domanda e ottieni una soluzione verificata, passo dopo passo, in pochi secondi.
Apri GPAI Solver →