La qualità dei dati: i bollettini quotidiani

Nell’articolo precedente ho cercato di definire gli attributi fondamentali che permettono di giudicare la qualità dei dati. Come promesso, cercherò adesso di esaminare, lungo queste linee, i dati di una delle nostre letture ricorrenti di questo periodo: i bollettini della protezione civile (illustrati anche con una dashboard) e, ancor più, i comunicati del Ministero della Salute. I primi riportano i casi attualmente positivi in Italia e nelle varie regioni e comunicano il numero dei decessi; nelle comunicazioni del ministero della salute, questi dati sono integrati dalle informazioni sui pazienti guariti e sugli esami (tamponi) effettuati, anche questi ripartiti su base regionale.

Si tratta di un insieme di dati molto generoso, molto più di quelli forniti da servizi analoghi in Francia, Germania o Regno Unito. A prima vista, quindi, noi italiani dovremmo essere soddisfatti della puntualità con cui veniamo informati e della quantità di informazioni ricevute.

Il problema, però, sta appunto nella qualità dei dati. Con ciò, non voglio dire che i dati italiani siano affetti da particolari problemi, o comunque da carenze maggiori di quelle che possono inficiare quelli di altri paesi. Carenze che sono strutturali e, in qualche modo, inevitabili: i dati nascono da eventi che hanno luogo nella realtà e vi è una lunga e complessa catena, che porta dal singolo evento al rapporto che lo riguarda, da qui alla sede locale che lo elabora insieme ad altri e poi a quella centrale che li compendia per trovare infine espressione nel riepilogo generale. Lungo questa catena si possono verificare ritardi, incidenti di percorso ed errori, il che trova espressione, quando questi accadono in numero particolarmente significativo, in forti sbalzi nei dati giornalieri. Si tratta di una dinamica abbastanza nota, che può essere mitigata in vario modo ma che, come tutti i problemi di questo tipo, tende ad aggravarsi nelle fasi di maggiore emergenza. Per riallacciarsi agli attributi definiti nel pezzo precedente, questi fattori di deterioramento della qualità dei dati riguardano le caratteristiche di affidabilità e precisione.

Per fare un annuncio grande, serve un megafono grande. Fonte; minima&moralia

Come si diceva, però, non esistono elementi che permettano di supporre una diversa qualità dei dati italiani rispetto ai loro omologhi di altri paesi europei. Il problema riguarda l’insieme di questi dati, per due aspetti:

  • si tratta di dati molto eterogenei, perché i processi che li originano sono assai diversi, il che crea un necessario sfasamento temporale: il contagio avviene in un dato momento e il decesso o la guarigione si verificano soltanto in seguito. Perciò, presentare i dati tutti insieme causa una falsa impressione di sincronia dei processi a cui si riferiscono, quando in realtà si sviluppano su sequenze temporali diverse. A essere precisi, il dato sulle guarigioni è ancora più sfasato di quello dei decessi, visto che il tempo per guarire dall’infezione è mediamente maggiore di quello per l’esito infausto (per essere chiari: dall’infezione al decesso passa un tempo minore rispetto a quello che ci vuole per guarire completamente). Questa eterogeneità riguarda anche il diverso grado di affidabilità dei dati. Infatti, il numero dei decessi viene comunicato dalla protezione civile con l’avviso “conferma dati in attesa di ISS”, che è un modo non molto chiaro per dire che i dati sui decessi devono essere confermati dall’Istituto Superiore di Sanità, il quale determina le cause effettive di morte. Gli altri dati, invece, sembrano in genere molto più solidi. Di conseguenza, la rassegna quotidiana mette insieme dati diversi per scala temporale e per affidabilità;
  • al tempo stesso, questi dati sono collegati: ciò significa che fanno riferimento a un fenomeno complessivo unitario (per l’appunto, l’epidemia di COVID-19), per cui vanno interpretati in modo sinergico, vale a dire in rapporto tra loro. Ecco che, per esempio, il numero dei decessi o dei guariti va rapportato al totale dei positivi (e che può essere molto utile paragonare questo rapporto a quello di altri paesi), o che, più che il semplice numero dei tamponi effettuati, è importante tenere presente il rapporto tra esami e positivi. 

Perciò, la semplice giustapposizione di questi dati, tipica di ogni bollettino del genere, non è di per sé particolarmente utile a una reale comprensione di ciò che sta accadendo. Il risultato è che l’attenzione del pubblico, frastornato da una massa di numeri non immediatamente comprensibili, si concentra sui soli due numeri immediatamente chiari: il numero dei contagi e quello dei decessi.

Prima di proseguire, può essere utile una precisazione. Il nostro modello predittivo si basa fondamentalmente su un dato, quello degli infetti, che è abbastanza solido; anche le incertezze sul numero dei decessi non possono inficiare particolarmente questo dato, visto che comunque chi è deceduto, per qualsiasi causa, non può comunque più far parte del numero degli infetti. Nel prossimo articolo, cercherò di esaminare il significato di questa scelta in termini di comunicazione e di interpretare alcuni di questi dati, per provare a raccontare una storia diversa partendo dagli stessi numeri.

Info Autore
Chief of Strategy , Tombolini & Associati
Ho studiato filosofia alla Sapienza (tesi su Hegel, dottorato su Husserl, qualche pubblicazione qua e là) e, fin dai miei ultimi anni da studente, lavoro nella comunicazione e nell’analisi strategica. Adesso faccio queste cose con Tombolini & Associati, di cui sono socio e partner.
×
Chief of Strategy , Tombolini & Associati
Ho studiato filosofia alla Sapienza (tesi su Hegel, dottorato su Husserl, qualche pubblicazione qua e là) e, fin dai miei ultimi anni da studente, lavoro nella comunicazione e nell’analisi strategica. Adesso faccio queste cose con Tombolini & Associati, di cui sono socio e partner.
Latest Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ridimensiona font
Contrasto