Uno dei migliori laboratori statunitensi specializzati nell’analisi degli andamenti di un’infezione virale, adatta i propri algoritmi alla pandemia da Covid-19.
di Karen Hao
Ogni anno il CDC statunitense organizza una competizione per vedere chi sa prevedere meglio la diffusione dell’influenza stagionale. Squadre di ricerca di tutto il paese si sfidano utilizzando metodi diversi. I vincitori ottengono finanziamenti e una partnership con l’agenzia federale per la stagione successiva. L’agenzia sta ora contattando diverse dozzine di queste squadre perchè adattino i propri modelli all’attuale pandemia e producano previsioni realistiche.
Tra i gruppi di ricerca contattati c’è un gruppo della Carnegie Mellon University che, negli ultimi cinque anni, ha costantemente ottenuto alcuni dei risultati migliori. Roni Rosenfeld, direttore del gruppo e del dipartimento dedicato all’apprendimento automatico della CMU, ammette di essere stato inizialmente riluttante ad accettare il compito, in quanto formulare un modello di previsioni per un focolaio completamente nuovo rende difficile generare previsioni accurate.
Il laboratorio utilizza tre metodi per individuare crescita e riduzione del numero di casi durante la stagione influenzale. Il primo prende il nome di “nowcast”, un calcolo del potenziale numero attuale di persone infette. Il laboratorio raccoglie dati recenti e storici dal CDC e da altri archivi, come le ricerche di informazioni sull’influenza lanciate su Google, Twitter, siti medici e Wikipedia. Questi dati vengono quindi inseriti negli algoritmi di apprendimento automatico per produrre previsioni in tempo reale.
Il secondo e il terzo metodo producono potenziali previsioni di ciò che verrà. Il primo utilizza strumenti di apprendimento automatico, mentre il secondo raccoglie informazioni in crowdsourcing. Le previsioni comprendono potenziali tendenze per 4 settimane a venire, nonché possibili appuntamenti importanti come il picco d’infezioni per la stagione e il numero massimo di casi previsti. Tali informazioni aiutano sia il CDC che i fornitori di servizi sanitari a calibrare la capacità ospedaliera e prepararsi in anticipo.
Le previsioni prodotte grazie all’apprendimento automatico tengono conto del nowcast e altri dati storici raccolti per 20 anni dal CDC. Il metodo di crowdsourcing, invece, fa riferimento a un gruppo di volontari. Ogni settimana, esperti e non esperti, studiano un grafico che mostra la traiettoria delle stagioni influenzali passate e attuali. Devono quindi completare la curva della stagione in corso, teorizzando quanti nuovi casi di influenza possono emergere nelle settimane successive. Per quanto imprecise siano le previsioni individuali, il risultato totale tende ad essere non meno valido delle previsioni prodotte con l’apprendimento automatico.
Negli ultimi anni, la squadra di Rosenfeld ha prodotto previsioni quasi perfette. Ogni anno, il CDC aggiorna retroattivamente i numeri reali, permettendo al laboratorio della CMU di affinare sempre più i propri strumenti. I ricercatori stanno ora adattando i propri modelli al Covid-19, ma non sarà facile ottenere risultati precisi.
Il nowcast creato grazie all’apprendimento automatico utilizzerà fondamentalmente dati ottenuti dalle stesse fonti, ma il modello di previsione sarà diverso. Gli algoritmi dovranno apprendere nuove correlazioni tra le informazioni presenti nei dati e la realtà di base. Il panico generato dal coronavirus, per esempio, induce anche persone sane a fare ricerche online sull’argomento, creando modelli di comportamento online completamente diversi da quelli del passato.
Nel caso di una pandemia, la scarsità di dati storici ha un impatto su entrambe le previsioni. L’influenza colpisce ogni anno secondo un ciclo molto regolare, molto differente dall’irregolarità delle rare epidemie. L’ultima pandemia, provocata dal virus H1N1 nel 2009, timeiline aveva caratteristiche completamente diverse e rappresentava un rischio soprattutto per i più giovani invece che per gli anziani, come sta avvenendo ora con il Covid-19. Oggigiorno abbiamo dalla nostra sistemi di sorveglianza localizzare casi più sviluppati.
“Questa sarà la difficoltà maggiore”, spiega Rosenfeld, “i sistemi di apprendimento automatico, per loro natura, imparano dall’esempi”. Il metodo di crowdsourcing dovrebbe dimostrarsi più resiliente, in quanto “le persone sono capaci di adattarsi a circostanze nuove”, spiega.
I ricercatori si stanno ora concentrando sulla raccolta dei dati necessari a produrre le previsioni migliori. In assenza di dati storici, stanno utilizzando i dati relativi ai primi mesi dell’attuale pandemia in altri paesi.
Rosenfeld è preoccupato dei limiti di queste previsioni. “Non pubblicheremo previsioni certe di come andranno le cose”, dice. “Pubblicheremo dei possibili scenari e la probabilità che ciascuno si realizzi.” Anche a pandemia conclusa, rimarrà l’incertezza. “Sarà molto difficile valutare quanto sarà stato efficiente il metodo”, dichiara. “Con una sola stagione su cui testarlo, non sarà possibile trarre conclusioni definitive, ma è meglio di niente”.
(lo)