In Scozia, alcuni giovani ricercatori hanno ideato Pango, un sistema per tracciare l’evoluzione del covid e registrare il numero impressionante di dati relativi al virus per operare una classificazione delle varianti.
di Cat Ferguson
A marzo, quando i casi di covid hanno iniziato a crescere in tutta l’India, Bani Jolly è andata a caccia di risposte nel codice genetico del virus. I ricercatori nel Regno Unito avevano appena infiammato il mondo scientifico con la notizia che una variante del covid chiamata B.1.1.7, che presto sarebbe stata chiamata alfa, era la causa dell’impennata di casi. Jolly, una studentessa di dottorato del terzo anno presso il CSIR Institute of Genomics and Integrative Biology di Nuova Delhi, si aspettava di scoprire che stava causando infezioni anche nel suo paese.
Poiché la sua istituzione è in prima linea nella ricerca sul covid in India, ha avuto accesso a sequenze di migliaia di campioni di covid prelevati in tutto il paese. Ha iniziato a gestirli attraverso un software che li raggruppava in base ai rami dell’albero genealogico di covid. Invece di casi prevalenti di B.1.1.7, Jolly ha trovato un gruppo di sequenze che non assomigliavano a nessuna variante nota, alcune delle quali con due mutazioni della proteina spike che si sospettava già rendessero il virus più pericoloso.
Jolly ha contattato altri laboratori di sequenziamento in India. Anche i loro dati hanno mostrato segni che un focolaio locale aveva dato origine a una nuova famiglia del virus. In poco tempo, i giornalisti hanno avuto sentore dei nuovi sviluppi e Jolly ha iniziato a vedere articoli sui “doppi mutanti” e sulla “variante indiana”.
Sapeva che i ricercatori potevano fare di più con un’etichetta utile che con un soprannome “spaventoso”. Così è andata nel luogo in cui un piccolo gruppo di scienziati ha dato i loro nomi a nuove varianti: una pagina GitHub gestita da una manciata di volontari in tutto il mondo, guidati principalmente da uno studente di dottorato in Scozia.
Questi volontari supervisionano un sistema chiamato Pango, che è diventato silenziosamente essenziale per la ricerca globale sul covid. I suoi strumenti software e il sistema di denominazione hanno ora aiutato gli scienziati di tutto il mondo a comprendere e classificare quasi 2,5 milioni di campioni del virus.
Ad aprile, Jolly ha pubblicato le sue sequenze sulla pagina GitHub, insieme a una spiegazione del motivo per cui rappresentavano un cambiamento significativo per il virus (è stata la seconda a contrassegnare la nuova variante; prima di lei è arrivato un ricercatore nel Regno Unito). Il team di Pango ha rapidamente inventato un nuovo nome, B.1.617. La famiglia include la famigerata variante trasmissibile ora nota, nei media, come delta.
Ricercatori, funzionari della sanità pubblica e giornalisti di tutto il mondo utilizzano Pango per comprendere l’evoluzione del covid. Ma pochi si rendono conto che l’iniziativa, come molte nel nuovo campo della genomica del covid, è alimentata da un piccolo team di giovani ricercatori che hanno spesso messo da parte il proprio lavoro per costruirlo.
Troppi dati senza nome
Si potrebbe presumere che ci sia stato a lungo un processo ufficiale e collaudato per nominare nuovi rami dell’albero genealogico di un virus mentre si evolve, infettando una persona dopo l’altra. Dopotutto, i ricercatori hanno utilizzato il sequenziamento genomico per studiare i virus per due decenni. Ma questo lavoro ha storicamente dovuto far fronte a scarsità di dati e una limitata collaborazione tra scienziati di diversi continenti. Prima del covid, non c’era mai stato una necessità urgente di sviluppare nomi standardizzati.
Nel marzo del 2020, quando l’OMS ha dichiarato la pandemia, il database pubblico di sequenze GISAID conteneva 524 sequenze covid. Nel mese successivo gli scienziati ne hanno caricati altri 6.000. Alla fine di maggio, il totale era di oltre 35.000 (In tutto il 2019, gli scienziati hanno aggiunto complessivamente 40.000 sequenze influenzali a GISAID). “Senza un nome comune, non possiamo capire cosa dicono gli altri”, afferma Anderson Brito, postdoc in epidemiologia genomica della Yale School of Public Health, che collabora a Pango.
Man mano che il numero di sequenze del covid aumentava, i ricercatori che cercavano di studiarle sono stati costretti a creare al volo infrastrutture e standard completamente nuovi. Un sistema di denominazione universale è stato uno degli elementi più importanti di questo tentativo: senza di esso, gli scienziati farebbero fatica a sapere come i discendenti del virus si stanno modificando e quali possono essere i segnali di uno sviluppo critico.
Da dove viene Pango
Nell’aprile del 2020, una manciata di eminenti virologi nel Regno Unito e in Australia ha proposto un sistema di lettere e numeri per nominare i lignaggi, o nuovi rami, della famiglia del covid. Aveva una logica e una gerarchia, anche se i nomi che generava, come B.1.1.7, erano un po’ stringati. Uno degli autori dell’articolo era Áine O’Toole, dottoranda presso l’Università di Edimburgo. Ben presto era diventata la responsabile dell’ordinamento e classificazione, setacciando alla fine centinaia di migliaia di sequenze a mano.
Ha rapidamente iniziato a creare software per assegnare nuovi genomi ai lignaggi giusti. Non molto tempo dopo, un’altra ricercatrice, la postdoc Emily Scher, ha creato un algoritmo di apprendimento automatico per accelerare ulteriormente le cose. Hanno chiamato il software Pangolin, un riferimento ironico a un dibattito sull’origine animale del covid. (L’intero sistema è ora semplicemente conosciuto come Pango).
Il sistema di denominazione, insieme al software per implementarlo, è diventato rapidamente un elemento essenziale a livello globale. Sebbene l’OMS abbia recentemente iniziato a utilizzare lettere greche per varianti che sembrano particolarmente preoccupanti, come delta, questi soprannomi sono per il pubblico e i media. Delta in realtà si riferisce a una famiglia in crescita di varianti, che gli scienziati chiamano con la classificazione di Pango: B.1.617.2, AY.1, AY.2 e AY.3.
“Quando l’alfa è emersa nel Regno Unito, Pango ci ha reso molto facile cercare quelle mutazioni nei nostri genomi per vedere se avevamo quel lignaggio anche nel nostro paese”, afferma Jolly. “Da allora, Pango è stato utilizzato come base per la segnalazione e la sorveglianza delle varianti in India”. Poiché il sistema offre un approccio razionale e ordinato a quello che altrimenti sarebbe il caos, potrebbe cambiare per sempre il modo in cui gli scienziati chiamano i ceppi virali, consentendo agli esperti di tutto il mondo di lavorare insieme con un vocabolario condiviso. Brito afferma: “Molto probabilmente, questo sarà un formato che utilizzeremo per tracciare qualsiasi altro nuovo virus”.
Molti degli strumenti fondamentali per tracciare i genomi del covid sono stati sviluppati e mantenuti da scienziati all’inizio della carriera come O’Toole e Scher nell’ultimo anno e mezzo. Con l’esplosione della necessità di una collaborazione mondiale, gli scienziati si sono affrettati a supportarla con infrastrutture ad hoc come Pango. Gran parte del lavoro è stato affidato a giovani ricercatori esperti di tecnologia tra i 20 ei 30 anni. Hanno usato reti e strumenti informali che erano open source, il che significa che erano liberi di usare e chiunque poteva offrirsi volontario per aggiungere modifiche e miglioramenti.
“Le persone all’avanguardia delle nuove tecnologie tendono a essere studenti laureati e postdoc”, afferma Angie Hinrichs, bioinformatica della UC Santa Cruz che ha aderito al progetto all’inizio di quest’anno. Ad esempio, O’Toole e Scher lavorano nel laboratorio di Andrew Rambaut, un epidemiologo genomico che ha pubblicato online le prime sequenze di covid pubbliche dopo averle ricevute da scienziati cinesi. “Si sono trovati in una posizione perfetta per fornire questi strumenti che sono diventati assolutamente critici”, afferma Hinrichs.
Un sistema in rapida trasformazione
Non è stato facile. Per la maggior parte del 2020, O’Toole ha assunto da sola la maggior parte della responsabilità di identificare e nominare nuovi lignaggi. L’università era chiusa, ma lei e un’altra studentessa di dottorato di Rambaut, Verity Hill, hanno ottenuto il permesso di entrare in ufficio. Ogni poche settimane, O’Toole scaricava l’intero repository covid dal database GISAID, che era cresciuto esponenzialmente. Quindi andava a caccia di gruppi di genomi con mutazioni che sembravano simili, o cose che sembravano strane e avrebbero potuto essere etichettate erroneamente.
Decidere quando i discendenti del virus meritano un nuovo cognome può essere tanto arte quanto scienza. Col passare del tempo, O’Toole ha lottato per tenere il passo con il volume di nuovi genomi da ordinare e nominare. Nel giugno del 2020, c’erano oltre 57.000 sequenze memorizzate nel database GISAID e O’Toole le aveva ordinate in 39 varianti. A novembre del 2020, erano 200.000
Fortunatamente, il software Pango è costruito per essere collaborativo e altri si sono fatti avanti. Una comunità online, quella a cui Jolly si è rivolta quando ha notato la variante diffusa in tutta l’India, è nata e cresciuta. Quest’anno, il lavoro di O’Toole è stato molto più diretto. I nuovi lignaggi sono ora designati principalmente quando gli epidemiologi di tutto il mondo contattano O’Toole e il resto del team tramite Twitter, e-mail o GitHub.
Il diluvio di dati è continuato. La scorsa primavera, il team ha tenuto un “pangothon”, una sorta di hackathon in cui ha suddiviso 800.000 sequenze in circa 1.200 lignaggi. “Ci siamo concessi tre giorni pieni”, afferma O’Toole. Da allora, il team di Pango ha reclutato altri volontari, come il ricercatore UCSC Hindriks e il ricercatore di Yale Brito. Un postdoc presso l’Università di Cambridge, Chris Ruis, ha aiutato O’Toole a smaltire l’arretrato delle richieste di GitHub.
O’Toole ha recentemente chiesto loro di unirsi formalmente all’organizzazione come parte del Network Lineage Designation Committee di Pango che discute e prende decisioni sui nomi delle varianti. Un altro comitato, che include il capo del laboratorio Rambaut, prende decisioni di livello superiore. “Abbiamo un sito web e un’e-mail che non è solo la mia e-mail”, afferma O’Toole. “Il meccanismo è molto più formalizzato e penso che questo lo aiuterà davvero a fare un salto in avanti”.
Il futuro
Ad oggi, ci sono quasi 2,5 milioni di sequenze covid in GISAID, che il team di Pango ha suddiviso in 1.300 filiali. Ad ogni ramo corrisponde una variante. Di questi, otto sono quelli da tenere d’occhio, secondo l’OMS. Con così tanti dati da elaborare, il software sta iniziando a cedere. Ci sono errori nelle etichette perché il virus evolve continuamente con mutazioni più vantaggiose. Come misura di ripiego, il team ha creato un nuovo software che utilizza un metodo di smistamento diverso e può interagire con Pango.
È importante ricordare, tuttavia, che nessun sistema ha mai gestito una tale quantità di dati su come i virus si trasformano. Il covid è diventato il virus più seguito di tutti i tempi. È anche la prima volta che gli scienziati sono stati in grado di vedere esattamente come cambia il virus mentre si sposta da un paese all’altro.
Dietro le quinte, il team di Pango continua a seguire l’evoluzione del covid in modo che gli scienziati di tutto il mondo possano lavorare insieme per fermare la pandemia. “La CNN brasiliana parla del sequenziamento dei genomi” conclude Brito, “e dice che il lignaggio sarà assegnato e si avrà un rapporto in pochi giorni”… Sarebbe stato inimmaginabile due anni fa”.
(rp)