Il tentativo di riunire i dati di milioni di pazienti sta ottenendo risultati positivi e il database N3C del NIH è diventato una delle più grandi raccolte di cartelle cliniche sul covid-19 al mondo.
di Cat Ferguson
Durante tutta la pandemia, c’è stata una seria tensione tra ciò che l’opinione pubblica voleva sapere e ciò che gli scienziati sono stati in grado di dire con certezza. I medici non sono stati in grado di rispondere a domande apparentemente semplici: quali sono i sintomi del covid-19? Come si diffonde? Chi è più esposto? Qual è la cura più efficace?
Da nessuna parte questo conflitto è stato più chiaro che negli Stati Uniti, che spendono quasi un quinto del proprio prodotto interno lordo per l’assistenza sanitaria, ma ottengono risultati peggiori di qualsiasi altro paese ricco. Trovare le risposte è stato complicato non solo per la complessità del problema, ma perché l’assistenza sanitaria americana è costruita su un mosaico di sistemi arcaici e incompatibili.
In tutta la nazione, le leggi sulla privacy federali, statali e locali si sovrappongono e talvolta si contraddicono a vicenda. Le cartelle cliniche sono frammentate in più sedi e gelosamente conservate dalle istituzioni che le possiedono, sia per motivi di privacy sia per vendere dati medici anonimi.
Ma accedere ai dati intrappolati in questi silos è l’unico modo per rispondere alle domande sul covid. Ecco perché tanta ricerca vitale è stata fatta all’estero, in paesi con sistemi sanitari nazionali, anche se gli Stati Uniti hanno un numero enorme di pazienti covid e istituti di ricerca. Alcuni dei dati più solidi sui fattori di rischio per la mortalità da covid e le caratteristiche del covid lungo provengono, per esempio, dal Regno Unito. Lì, i ricercatori della sanità pubblica hanno accesso ai dati di 56 milioni di cartelle cliniche dei pazienti del SSN.
All’inizio della pandemia, un gruppo di ricercatori finanziati dal National Institutes of Health degli Stati Uniti, o NIH, si è reso conto che a molte domande sul covid-19 sarebbe stato impossibile rispondere senza abbattere le barriere alla condivisione dei dati. Così hanno sviluppato un quadro per combinare i dati dei pazienti effettivi di diverse istituzioni.
Il risultato è la National COVID Cohort Collaborative (N3C), che raccoglie le cartelle cliniche di milioni di pazienti in tutto il paese, le “pulisce” e quindi concede l’accesso a gruppi che studiano di tutto, da quando usare un ventilatore a come il covid influisce sui cicli mestruali.
“È scioccante che non avessimo dati sanitari aggregati e armonizzati per la ricerca di fronte a una pandemia”, afferma Melissa Haendel, professore di informatica per la ricerca presso l’Università del Colorado Anschutz Medical Campus e una dei co-responsabili di N3C. “Non avremmo mai potuto convincere tutti a fornirci questo grado di dati al di fuori del contesto di una pandemia, ma ora che è successo i dati clinici possono essere armonizzati e condivisi ampiamente in modo sicuro”.
Il database è ora una delle più grandi raccolte di dati sul covid al mondo, con 6,3 milioni di registrazioni di pazienti provenienti da 56 istituzioni e in aumento, compresi 2,1 milioni di pazienti con il virus. La maggior parte dei dati risale al 2018 e le organizzazioni che contribuiscono si sono impegnate a continuare ad aggiornarli per cinque anni. Ciò rende N3C non solo una delle risorse più utili per studiare la malattia oggi, ma uno dei modi più promettenti per studiare il covid lungo.
Un sistema in cui le istituzioni inviano i dati, in blocco, a un governo federale centralizzato è un’anomalia nell’assistenza sanitaria americana. Messo a frutto, ha il potenziale per rispondere a domande dettagliate molto tempo dopo la pandemia. E potrebbe anche servire come piattaforma per iniziative simili in futuro.
Dati open source
Per fornire informazioni al database, i fornitori partecipanti scelgono prima due gruppi di pazienti: persone che sono risultate positive al test del covid-19 e altri che fungeranno da gruppo di controllo. Quindi eliminano tutto ciò che rende i dati identificabili personalmente, tranne il codice postale e le date, e li trasmettono in modo sicuro a N3C. Lì, i tecnici puliscono i dati, un compito non sempre facile, e li inseriscono nel database.
Chiunque può presentare una proposta di ricerca tramite il dashboard di N3C, affiliato o meno a un’istituzione richiedente. Anche i cittadini scienziati possono richiedere l’accesso a una versione anonima del set di dati. Un comitato della Johns Hopkins esamina ogni proposta e decide a quale versione dei dati i ricercatori potranno accedere. Esistono diversi livelli di informazioni: un set di dati limitato, un secondo livello contenente registrazioni reali con codici postali e date oscurate e un terzo costituito da dati “sintetici” generati dal computer, che tentano di mantenere le stesse caratteristiche di quelli reali del paziente. Tutti devono seguire una formazione sulla sicurezza dei dati prima di ottenere l’accesso.
Finora sono stati approvati 215 progetti di ricerca, compresi studi per tenere traccia dei risultati per i pazienti che hanno ricevuto diversi vaccini per il covid ed esaminare i tassi di complicanze degli interventi chirurgici in pazienti non covid durante la pandemia. La prima pubblicazione della collaborazione è stata un’analisi dei fattori di rischio di mortalità nei pazienti oncologici che hanno contratto la SARS CoV2 e sono stati rilasciati diversi pre-print su argomenti tra cui gli esiti del covid-19 nei pazienti con malattie epatiche e nelle persone con HIV.
Più controlli per una scienza migliore
Dati puliti e accurati sono fondamentali per tali studi, ma è stato difficile trovarli nel caos della pandemia. Lo scorso giugno, due importanti riviste, “BMJ” e “The Lancet” hanno ritirato documenti basati su “dati” da Surgisphere, un’azienda di dati medici poco conosciuta con una manciata di dipendenti, che affermava di avere accesso alle cartelle cliniche in tempo reale di quasi 100.000 pazienti covid in 700 ospedali in tutto il mondo. In alcuni casi i numeri rappresentavano più pazienti di quelli effettivamente diagnosticati in un dato paese.
Prima di essere ritirati, i documenti hanno portato a decisioni di interrompere le sperimentazioni cliniche e a modificare le pratiche mediche. Ma quando i ricercatori si sono insospettiti, soprattutto considerando che anche un singolo accordo sul trasferimento di dati medici richiede tempo e lavoro enormi, l’azienda si è rifiutata di consentire a chiunque di controllare i dati. In realtà non ci sono prove che il database sia mai esistito.
N3C, d’altra parte, è verificabile e responsabile nei confronti di migliaia di ricercatori presso centinaia di istituzioni partecipanti, con una forte attenzione alla trasparenza e alla riproducibilità. Tutto ciò che gli utenti fanno attraverso l’interfaccia, che utilizza la piattaforma GovCloud di Palantir, è conservato con cura, in modo che chiunque abbia accesso possa tornare sui propri passi. “Si tratta di un lavoro duro. È noioso, deve essere fatto con attenzione e dobbiamo convalidare ogni passaggio”, afferma Christopher Chute, professore di medicina generale alla Johns Hopkins che è anche co-direttore di N3C.
Una ricerca esaustiva
Haendel sottolinea che queste iniziative non sono stati facili. “La diversità di competenze che ci sono volute per far sì che ciò accadesse – la perseveranza, la dedizione e la ricerca esaustiva – è semplicemente senza precedenti”, afferma. Durante il covid le persone erano molto più disposte a collaborare”, afferma Mary Boland, professoressa di informatica all’Università della Pennsylvania. “Si è potuto collaborare con scienziati informatici, fisici, tutte persone che normalmente non partecipavano alla ricerca sulla salute pubblica”.
Boland fa parte di un gruppo che utilizza i dati N3C per verificare se il covid-19 aumenta il sanguinamento irregolare nelle donne con sindrome dell’ovaio policistico. Di solito, afferma, la maggior parte dei ricercatori deve utilizzare i dati sui sinistri assicurativi per ottenere un database sufficientemente ampio per analisi a livello di popolazione. I dati sui reclami possono rispondere, per esempio, ad alcune domande su come funzionano i farmaci nel mondo reale. Ma a quei database mancano enormi quantità di informazioni, compresi i risultati di laboratorio, i sintomi che le persone stanno segnalando e persino i dati sulla sopravvivenza o la morte dei pazienti.
Le fasi di raccolta e pulizia
Al di fuori dei database dei sinistri assicurativi, la maggior parte delle collaborazioni sui dati sanitari negli Stati Uniti utilizza un modello federato. I partecipanti a questi studi concordano tutti di formattare i propri set di dati in un formato comune e quindi eseguire query dal collettivo, come la proporzione di casi gravi di covid-19 per fascia di età. Diversi collettivi internazionali di ricerca sul covid-19, tra cui Observational Health Data Sciences and Informatics (OHDSI, pronunciato “Odyssey”), operano in questo modo, evitando problemi legali e politici con i dati dei pazienti transfrontalieri.
OHDSI, che è stata fondata nel 2014, ha ricercatori provenienti da 30 paesi e detiene registrazioni di 600 milioni di pazienti. “Ciò consente a ciascuna istituzione di mantenere i propri dati protetti dal firewall. Non è necessario che i dati del paziente vengano spostati avanti e indietro”, afferma Boland. “Questo è confortante in molte situazioni, specialmente con il continuo hacking”. Ma fare affidamento su ciascuna istituzione per preparare i propri dati per un tale sistema comporta molti rischi.
“L’acquisizione dei dati in un formato comune è la sfida più grande, perché anche i nomi dei farmaci potrebbero essere standardizzati negli Stati Uniti, ma in realtà non lo sono”, afferma Boland. “Le farmacie avranno spesso il loro farmaco generico e potrebbe avere ingredienti leggermente diversi a causa delle leggi sui brevetti”.
N3C, d’altra parte, chiede a tutti i partecipanti di inviare i loro record grezzi e disordinati in un posto e lasciare che l’ente centrale li pulisca e li standardizzi. Mentre ci sono molti vantaggi evidenti, ci sono significativi ostacoli legali e sociali a partecipare in questo modo, sia in America sia a livello internazionale; molte istituzioni, per esempio, non possono contribuire a N3C a causa delle leggi sulla privacy nei loro stati.
È anche tecnologicamente impegnativo. Combinare anche solo due serie di cartelle cliniche elettroniche è estremamente difficile e richiede molto lavoro; la qualità dei dati è spesso bassa e la standardizzazione è scarsa. Nelle organizzazioni sanitarie multi-sito, fino a 1 cartella clinica su 5 sono file duplicati, principalmente a causa di errori di immissione dei dati durante gli appuntamenti o i check-in, secondo un documento Pew del 2018. Coloro che difendono i modelli federati spesso affermano di eseguire il proprio controllo di qualità dietro il proprio firewall. Ma i ricercatori di N3C sono rimasti scioccati nello scoprire quanto fossero disordinati i dati.
“C’era una certa dose di scetticismo da parte dei siti, del tipo: ‘Non abbiamo davvero bisogno di questo tipo di framework per la qualità dei dati, lo facciamo già nei nostri siti in modo confidenziale, con il nostro firewall. Non abbiamo bisogno di strumenti di armonizzazione esterni”, afferma Haendel. “Ma abbiamo appreso che quelle misure di qualità sono insufficienti quando si guardano i dati in forma aggregata”.
Alcuni dei problemi di qualità dei dati hanno rasentato l’assurdo. “In alcuni casi, le organizzazioni non sono riuscite a inserire le unità di misura. Quindi c’era un peso, ma non c’era un’unità”, dice Chute. Ma avere un numero così elevato di registrazioni ha dato loro un vantaggio e ha permesso loro di salvare molti punti dati che altrimenti sarebbero stati eliminati. “Siamo stati in grado di esaminare le distribuzioni dei dati per cui avevamo unità e verificare se si trattava di libbre o chilogrammi”.
Un grande pesce in un oceano molto più grande
Per quanto esteso, il database N3C è sovrastato dalla mole dei dati raccolti e gestiti altrove nel sistema sanitario degli Stati Uniti, dalle agenzie governative agli ospedali, ai laboratori di analisi, alle assicurazioni e altri. Il Dipartimento della salute e dei servizi umani tiene traccia di oltre 2,000 set di dati relativi alla salute provenienti dalle sole agenzie federali, statali e locali.
L’utilità di ciascuno è limitata dal siloing, vale a dire la frammentazione dei dati che rende impossibile per i ricercatori che lavorano da soli collegare le richieste Medicare, i record dei registri dei vaccini, i dati razziali ed etnici degli stati per le vaccinazioni o i database sulle varianti di covid-19 sequenziate da campioni di pazienti a livello nazionale. In effetti, trasformare i record grezzi in informazioni utili è così impegnativo che si è sviluppato un fiorente settore privato: i broker di dati acquistano in blocco registrazioni anonimizzate, analizzano le correlazioni tra le variabili e vendono le loro analisi, o i dati stessi, a ricercatori e governi.
“Siamo disposti a dare tutti i nostri dati a un’entità commerciale e lasciare che ce li rivendano, ma non siamo disposti a pagare per l’infrastruttura sanitaria pubblica più elementare”, afferma Haendel. “Questa iniziativa di volontariato di fronte a una pandemia è lodevole, ma non è una soluzione sostenibile a lungo termine per affrontare future pandemie o l’assistenza sanitaria in generale”.
L’approccio N3C risolve alcuni di questi problemi, ma ci sono lacune significative nei suoi dati, in particolare le informazioni sulle vaccinazioni. La maggior parte dei vaccini viene somministrata nei siti della comunità, mentre i registri della collaborazione provengono da visite di assistenza primaria e ricoveri, il che significa che solo 245.000 vaccini Pfizer e 104.000 vaccini Moderna sono stati inseriti nei registri. Un’azienda di analisi sanitaria sta costruendo uno strumento per integrare in modo sicuro i record dei pazienti da più fonti, ma non sarà disponibile per almeno alcuni mesi.
Anche con queste lacune, tuttavia, l’enorme database di N3C offre una delle migliori risorse per i ricercatori che cercano di rispondere alle molte domande irrisolte sul covid-19. “Siamo arrivati a questo punto”, dice Haendel. “Abbiamo davvero bisogno di esperti di dominio in tutti i diversi aspetti dell’assistenza clinica e della scienza più in generale, per fare il passo avanti decisivo”.
(rp)
Foto: Mario Tema / Getty Images