Lo scienziato dei dati ha realizzato un modello di apprendimento automatico in una settimana e lo ha eseguito per solo un’ora al giorno sul suo laptop, generando previsioni sul covid-19 notevolmente accurate.
di Siobhan Robert
Youyang Gu nel suo profilo Twitter si definisce realista e indipendente. Quando ha visto le poco coerenti proiezioni sul covid-19 la scorsa primavera – un modello prevedeva 2 milioni di morti negli Stati Uniti entro l’estate, un altro ne prevedeva 60.000 – Gu ha deciso di provare a realizzare lui stesso un modello per il covid-19. “Il mio obiettivo era produrre qualcosa di accurato”, dice lo scienziato dal suo appartamento a Manhattan. “Fondamentalmente, una previsione realistica di ciò che sarebbe accaduto”.
In una settimana, aveva costruito un modello di apprendimento automatico e lanciato il suo sito web di proiezioni sul covid-19. Ha eseguito il modello ogni giorno – ci è voluta solo un’ora sul suo laptop – e ha pubblicato proiezioni dei decessi per il covid-19 nei 50 stati americani, in 34 contee e 71 paesi.
Entro la fine di aprile, aveva attirato l’attenzione di tutti: alla fine, milioni di persone hanno iniziato a collegarsi al suo sito web ogni giorno. Carl Bergstrom, professore di biologia presso l’Università di Washington, ha commentato su Twitter che il modello di Gu stava “funzionando alla grande”.
Laureato al MIT con un master in ingegneria elettrica e informatica (più una laurea in matematica), Gu, 27 anni, stava lavorando a una startup di analisi dei dati sportivi quando la pandemia ha iniziato a colpire. “Non avevo esperienza nella modellazione di malattie infettive”, egli spiega, “anche se avevo lavorato come scienziato dei dati in finanza, utilizzando modelli statistici per stabilire il prezzo futuro di un’azione.
“Molti modelli di malattie infettive sono fondamentalmente modelli statistici”, continua Gu. E l’obiettivo dell’accuratezza guidato dal profitto dell’industria finanziaria gli è stato prezioso nel dominio epidemiologico. “Se non puoi creare un modello accurato in finanza, rimani disoccupato”, sostiene. Al contrario, l’obiettivo nel mondo accademico, almeno dal punto di vista di Gu, non è tanto quello di creare modelli accurati, quanto piuttosto di pubblicare articoli e fornire pezze d’appoggio per le politiche pubbliche. “Questo vuol dire che i modelli non sono finalizzati esclusivamente alla precisione”, egli afferma.
Il modello di Gu combina l’apprendimento automatico con un classico simulatore di malattie infettive chiamato SEIR (che tiene conto degli individui della popolazione suscettibile, esposta, contagiosa, guarita o deceduta).
SEIR utilizza come input una serie di parametri simulati, un intervallo più probabile per variabili come il numero di riproduzione di base (la velocità con cui si verificano nuovi casi in una popolazione completamente suscettibile all’inizio di un’epidemia, prima degli interventi o dell’immunità), il tasso di infezione, inizio e fine del lockdown e numero di riproduzione effettivo (il tasso con cui si verificano nuovi casi dopo alcuni interventi). In termini di output, il simulatore SEIR calcola prima le infezioni nel tempo, quindi calcola i decessi (moltiplicando le infezioni per il tasso di mortalità dell’infezione).
Il livello di apprendimento automatico di Gu genera quindi migliaia di combinazioni diverse nel tentativo di trovare i parametri della vita reale per ciascuna regione geografica. Apprende quali parametri generano le proiezioni dei decessi più accurate, confrontando le previsioni SEIR con i dati reali sulle morti quotidiane della Johns Hopkins University e poi utilizza questi parametri per prevedere e fare proiezioni sui decessi nel futuro.
Le previsioni si sono dimostrate notevolmente accurate. Per esempio, il 3 maggio, Gu è apparso su CNN Tonight e ha condiviso le proiezioni del suo modello secondo cui gli Stati Uniti avrebbero raggiunto 70.000 morti il 5 maggio del 2020, 80.000 morti l’11 maggio, 90.000 morti il 18 maggio e 100.000 morti il 27 maggio. Il 28 maggio, ha twittato: “le proiezioni sul covid-19 si sono dimostrate corrette”.
Il modello non era perfetto, ovviamente, ma ha impressionato Nicholas Reich, biostatistico e ricercatore in malattie infettive dell’Università del Massachusetts, ad Amherst, il cui laboratorio, in collaborazione con i Centers for Disease Control and Prevention, aggrega i risultati di circa 100 team di modellisti internazionali. Tra tutti i modelli aggregati, ha osservato Reich, il modello di Gu era “costantemente tra i migliori”.
Il 6 ottobre, Gu ha pubblicato la sua ultima previsione sui decessi, poco prima dell’ondata autunnale. Il modello prevedeva che ci sarebbero stati 231.000 morti negli Stati Uniti entro il 1 novembre. Il totale registrato entro quella data è stato: 230.995. Da ottobre, Gu si è invece rivolto a modellare le infezioni vere rispetto alle infezioni segnalate. E poi, a dicembre, ha iniziato a monitorare l’implementazione del vaccino e l’inafferrabile “sentiero che porta all’immunità di gregge“, che all’inizio del 2021 ha ridefinito “percorso verso la normalità”.
Mentre l’immunità di gregge si ottiene quando una porzione sufficiente di una popolazione è immune al virus, limitandone così l’ulteriore diffusione, Gu definisce la normalità come “la revoca di tutte le restrizioni relative al covid-19 per la maggior parte degli stati americani”.
“È diventato chiaro che non raggiungeremo l’immunità di gregge nel 2021, almeno sicuramente non in tutto il paese”, dice. “E penso che sia importante, soprattutto se si sta cercando di infondere fiducia, che stiamo intraprendendo percorsi ragionevoli per tornare alla normalità. Non aiuta fissarsi su un obiettivo irrealistico come l’immunità del gregge. Sono ancora cautamente ottimista sul fatto che la mia previsione originale a febbraio, per un ritorno alla normalità in estate, sarà valida”.
All’inizio di marzo, ha fatto un passo indietro, anche se sta ancora facendo ricerche e analisi sulle varianti, sulla campagna vaccinale e sulla quarta ondata. “Se vedo qualcosa di particolarmente preoccupante che viene sottovalutata, interverrò pubblicamente”, spiega. Ma per il momento si sta concentrando su altri progetti, come “Yolo Stocks“, una piattaforma di analisi del mercato azionario. Il suo lavoro principale sulla pandemia è come membro indipendente del gruppo di consulenza tecnica dell’OMS sulla valutazione della mortalità per covid-19.
Sicuramente ho imparato molto dalla mia esperienza passata.
Lezione1: concentrarsi sui fondamentali
“Dal punto di vista della scienza dei dati, i miei modelli hanno dimostrato l’importanza della semplicità, spesso sottovalutata”, afferma Gu. Il suo modello di previsione dei decessi era semplice non solo nel suo design – il componente SEIR con l’aggiunta di uno strato di apprendimento automatico – ma anche nel suo approccio mirato e “dal basso verso l’alto” per quanto riguarda i dati di input. Dal basso verso l’alto significa “iniziare dal minimo essenziale e aggiungere complessità secondo le necessità”, egli afferma. “Il mio modello utilizza solo i decessi passati per prevedere quelli futuri”.
Gu ha notato che altri modelli hanno attinto a una varietà eclettica di dati su casi, ricoveri, test, mobilità, uso di mascherine, comorbidità, distribuzione per età, indagini demografiche, stagionalità e tasso di mortalità annuale per polmonite, densità della popolazione, inquinamento atmosferico, altitudine, influenza del fumo, contatti autosegnalati, traffico di passeggeri aerei, point of care, termometri intelligenti, post di Facebook, ricerche su Google e altro ancora.
“C’è questa convinzione che se si aggiungono sempre più dati, il modello andrà meglio”, egli afferma. “Ma in situazioni reali come la pandemia, in cui i dati non sono lineari, è necessario mantenere le cose il più semplici possibile. Ho deciso subito che le morti passate sono il miglior predittore di morti future. È molto semplice: input, output. L’aggiunta di più sorgenti di dati avrebbe reso solo più difficile l’estrazione del segnale dal rumore”.
Lezione 2: ridurre al minimo i presupposti
Gu ritiene di avere avuto un vantaggio nell’affrontare il problema a partire da una tabula rasa. “Il mio obiettivo era semplicemente seguire i dati sul covid per conoscere il virus”, spiega. “Questo è uno dei principali vantaggi della prospettiva di un estraneo al settore”. Ma non essendo un epidemiologo, Gu doveva anche essere sicuro di non fare supposizioni errate o imprecise. “Il mio ruolo è progettare il modello in modo che possa apprendere al mio posto”, afferma.
“Quando arrivano nuovi dati che vanno contro le nostre convinzioni, a volte tendiamo a trascurare questi nuovi dati o a ignorarli, e ciò può portare a conseguenze negative”, osserva. “Sicuramente mi sono ritrovato a cadere vittima di questo pregiudizio e so che anche molte altre persone hanno fatto lo stesso errore. Quindi essere consapevoli del potenziale pregiudizio che abbiamo e riconoscerlo, ed essere in grado di rivedere le nostre convinzioni se i nuovi dati le smentiscono è davvero importante, specialmente in un ambiente in rapido movimento come quello della pandemia”.
Lezione 3: verificare l’ipotesi
“Quello che ho visto negli ultimi mesi è che chiunque può fare affermazioni o manipolare i dati per adattarli a ciò che si vuole credere”, sostiene Gu. Questo meccanismo evidenzia l’importanza di formulare semplicemente ipotesi verificabili. “Per me, è il presupposto delle mie proiezioni e previsioni. Ho una serie di ipotesi, e se sono vere, allora dovranno verificarsi in futuro”, dice. “Se non si fanno ipotesi verificabili, non c’è modo di dimostrare se si ha effettivamente ragione o torto “.
Lezione 4: imparare dagli errori
“Non tutte le proiezioni che ho fatto erano corrette”, dice Gu. Nel maggio 2020, ha previsto 180.000 morti negli Stati Uniti entro agosto. “I numeri previsti erano molto più alti di quanto si è poi visto”, ricorda. La sua ipotesi verificabile si è rivelata errata “e questo mi ha costretto a rivedere le mie posizioni”. A quel tempo, Gu utilizzava un tasso fisso di mortalità per infezione di circa l’1 per cento come costante nel simulatore SEIR. Quando in estate ha abbassato il tasso di mortalità dell’infezione a circa lo 0,4 per cento (e successivamente allo 0,7), le sue proiezioni si sono dimostrate più realistiche.
Lezione 5: coinvolgere i critici
“Non tutti saranno d’accordo con le mie idee ed è un bene che sia così”, dice Gu, che ha usato Twitter per pubblicare le sue proiezioni e analisi. “Cerco di confrontarmi con tutti. Ti costringe a pensare a quali sono le tue ipotesi e perché pensi che siano corrette. Se non sono in grado di difendere adeguatamente la mia posizione, perché portarla avanti? Quando altre persone presentano prove che mettono in crisi le mie posizioni, devo essere in grado di riconoscere di aver sbagliato. Questo modo di pensare mi ha effettivamente aiutato moltissimo a migliorare il mio modello”, spiega Gu.
Lezione 6: esercitare un sano scetticismo
“Ora, per fortuna, sono molto più scettico nei confronti della scienza”, dice Gu. “Penso che sia importante mettere sempre in discussione i risultati, ma in modo sano, senza rifiutare apertamente la scienza”. ”Ma credo anche che sia importante non fidarsi ciecamente”, continua. “Gli scienziati non sono perfetti.” È opportuno fare domande e cercare spiegazioni. “È importante avere prospettive diverse. Se c’è qualcosa che abbiamo imparato nell’ultimo anno, è che nessuno ha mai ragione al 100 per cento”.
“Non posso parlare a nome di tutti gli scienziati, ma il mio lavoro è eliminare tutto il ‘rumore’ e avvicinarmi alla verità”, dice. “Ho sbagliato molte volte nell’ultimo anno, ma penso che tutti noi possiamo imparare a considerare la scienza come un metodo per concordare su una verità comune, anche se non è la verità assoluta”.
(rp)