i dati bugiardi

di Alessandro Capezzuoli, funzionario ISTAT e responsabile
osservatorio dati professioni e competenze Aidr

I dati statistici permettono di descrivere un certo tipo di fenomeno
(naturale, sociale, etc.) e di rappresentare la realtà con una buona
approssimazione: questa è la buona notizia. La brutta notizia è che,
laddove nel processo di produzione e di diffusione non sia applicato
un metodo scientifico rigoroso, i dati statistici possono prestarsi a
interpretazioni fantasiose e possono dar luogo a una conseguente
distorsione della verità. La storia, anche la più recente, ha
ampiamente dimostrato che una bugia “certificata” attraverso i dati
può essere trasformata in una falsa verità supportata da numeri e
opinioni, diffuse in contesti social-televisivi, che non provengono
quasi mai da analisi scientifiche approfondite, ma da sensazioni o
interessi personali. Questi ultimi, in particolare, inducono
l’interessato a narrare capziosamente i dati, aggiungendo al racconto
una buona dose di pathos e di trasporto emotivo che non hanno nulla in
comune con la rigorosità scientifica. Umberto Eco ha insegnato che in
qualsiasi narrazione esiste un patto narrativo tra l’autore e il
lettore. Nel caso dei dati, affinché la narrazione sia quanto più
possibile vicina alla verità, è necessario che il produttore conosca a
fondo il fenomeno che sta descrivendo e i metodi per rappresentarlo
con il massimo rigore scientifico possibile. Il lettore, invece,
dovrebbe avere un insieme minimo di conoscenze per capire il
significato di ciò che sta leggendo e metterlo in dubbio, se
necessario. Questa condizione è molto infrequente poiché, spesso,
anche gli addetti ai lavori sottovalutano le insidie del mestiere e,
soprattutto, sottovalutano il nesso che c’è tra il dato statistico e
le finalità di chi lo produce o lo diffonde.
Il metodo utilizzato per trarre in inganno i fruitori dei dati è
collaudato e funziona molto bene: si sceglie la verità (o la bugia)
che fa comodo e si supporta con una certa interpretazione dei dati,
omettendo volutamente informazioni metodologiche o altre
interpretazioni più veritiere. Accade spesso che, tra le tante
interpretazioni associate ai dati, non prevalga mai quella più vicina
alla verità ma quella più verosimile: e questo, laddove ci siano
intenzioni dolose, o semplicemente superficialità, è molto pericoloso.
La credulità nei numeri, che deriva dalla scarsa conoscenza della
matematica e della statistica, dà la possibilità ai malintenzionati di
trasformare le falsità in verità e viceversa. La comunicazione, i
notiziari e gli articoli sono pieni di esempi di questo tipo.
L’interpretazione di qualsiasi fenomeno attraverso i dati dovrebbe
essere introdotta da una frase di pericolo, come avviene per i
pacchetti di sigarette, qualcosa del tipo “Con i dati si può mentire:
leggere con cautela, pensare, ragionare e dubitare. Sempre”.

“Siamo invasi dai migranti” è una notizia che viene utilizzata
frequentemente allo scopo di far leva sulle paure di chi vede nella
diversità un pericolo e nella povertà una minaccia: questo per
raccogliere consensi elettorali o per altri motivi poco nobili. Ci
sarebbe da chiedersi come sarebbe una società in cui questa stessa
informazione fosse divulgata in modo martellante sotto un’altra forma,
descrivendo la diversità come un’opportunità e la povertà come
un’occasione per abbattere le barriere piuttosto che alzarle. Di certo
c’è che, a fronte di un titolo simile, un’esigua minoranza di persone
consulta i dati prodotti dalla statistica ufficiale. Una minoranza
ancora più ristretta riesce a contestualizzarli e a rendersi conto
autonomamente che non c’è nessuna “operazione invasione” in corso. Uno
dei peccati capitali delle informazioni statistiche riguarda la
diffusione dei valori assoluti senza le adeguate descrizioni e
contestualizzazioni. E anche dei valori relativi (percentuali) senza
le dovute precisazioni. Quel numero, 700 migranti, significa tanto o
poco? Diciamo che tanto e poco non hanno mai un significato vero e
proprio, se non viene specificato “rispetto a cosa”. Effettivamente,
in un villaggio di 10 abitanti, 700 può essere “tanto”, ma in una
metropoli di 5 milioni di abitanti è relativamente “poco”. Se però,
all’interno della stessa metropoli, i 700 migranti vengono fatti
alloggiare in un comprensorio, ecco che per la percezione “locale” il
numero significa di nuovo “tanti”. Se poi si considerano i dettagli
temporali, ovvero il periodo in cui si analizzano i dati complessivi
(generalmente lo stock riferito all’anno solare), e lo status
(rifugiati, richiedenti asilo politico, minori non accompagnati o
persone che si ricongiungono con un famigliare) ecco che la
descrizione del fenomeno cambia ulteriormente in maniera radicale.
C’è poi un’altra questione, sempre riferita alla contestualizzazione
dei dati, che non deve essere trascurata: la definizione delle
variabili analizzate.

Un articolo di questo tipo, per esempio, prima di suscitare
indignazione per la situazione occupazionale del Paese, dovrebbe
indurre il lettore a porsi parecchie domande: Chi sono gli occupati a
cui fa riferimento la notizia?, Quali metodologie sono state
utilizzate per ricavare quel numero? Che cosa rappresenta quel dato?
Qual è l’errore statistico considerato?
I non addetti ai lavori probabilmente non sanno che esiste una
definizione, condivisa dopo molti anni dall’Istat, dall’Inps e dal
Ministero del lavoro, che identifica gli occupati nelle persone di 15
anni e più che nella settimana di riferimento (a cui sono riferite le
informazioni):presentano una delle seguenti caratteristiche:
– hanno svolto almeno un’ora di lavoro in una qualsiasi attività che
prevede un corrispettivo monetario o in natura;
– hanno svolto almeno un’ora di lavoro non retribuito nella ditta di
un familiare nella quale collaborano abitualmente;
– sono assenti dal lavoro (ad esempio, per ferie, malattia o Cassa
integrazione).

Se questa definizione (peraltro incompleta per motivi editoriali)
potrebbe essere lontana dall’idea comune di occupato, le
interpretazioni dei dati diffusi dalle principali istituzioni prima di
giungere all’accordo sono ancora più complesse e articolate da
comprendere. Questa definizione, oltretutto, è integrata da altre
definizioni specifiche (disoccupato, occupato a tempo indeterminato,
etc), che permettono di fornire descrizioni più dettagliate riguardo
alle diverse forme di occupazione. È sufficiente questa osservazione
per fornire una chiave di lettura migliore? Ovviamente no. La
definizione deve essere riferita a una metodologia di calcolo
scientificamente valida, altrimenti resta priva di senso. I dati
riguardanti gli occupati possono essere elaborati attraverso diverse
fonti, integrate o meno tra loro, attraverso le quali descrivere la
situazione occupazionale da diversi punti di vista. In generale, per
rispondere alla domanda “quanti sono i/gli… ?”, si ricorre a due
metodi, ciascuno dei quali può introdurre degli errori: o si contano
tutti gli oggetti di analisi, o si stima il numero attraverso un
campione. Tempo fa, mi sono imbattuto in un articolo in cui si
affermava che, secondo uno studio non meglio specificato, i topi
presenti a Roma fossero circa 6 milioni.

Che metodologia ha adottato chi ha condotto lo studio? Escludendo a
priori che possa aver contato i topi uno a uno, e in quel caso si
sarebbe trattato di un censimento, che avrebbe dato luogo a un
“archivio amministrativo dei topi” con tanto di nome, cognome e
indirizzo, l’ipotesi più sensata è che abbia stimato la popolazione
totale di ratti attraverso un campione rappresentativo. Le parole
stima e campione rappresentativo dovrebbero essere introdotte per
legge a corredo delle informazioni diffuse dai media, per evitare ogni
tipo di misunderstanding. Nella quasi totalità dei casi, infatti, i
dati statistici rappresentano la stima di un certo fenomeno, non la
misura di una verità assoluta e incontrovertibile, derivante
dall’analisi di dati raccolti attraverso metodi censuari o campionari.
Le stime, per definizione, sono corredate dall’errore statistico
campionario e non campionario: il primo deriva dalle tecniche di
campionamento, il secondo dagli strumenti e dai metodi di rilevazione.
Questa affermazione, che potrebbe sembrare ovvia, non lo è affatto
quando si tratta di comunicare un dato alla popolazione. Dichiarare
apertamente che un dato è associato a un certo margine di errore,
possibilmente descritto accuratamente in tutti i suoi aspetti, induce
il lettore a dubitare e a interrogarsi sulla possibile falsificazione
popperiana dei modelli applicati. Un campione statistico, per quanto
accurato e rappresentativo possa essere, introduce sempre una qualche
distorsione e un errore che può essere più o meno accentuato laddove
si stimi la misura di fenomeni oggettivi (ad esempio il numero di
biglie bianche e rosse presenti in un contenitore) o di “opinioni”
derivanti da questionari sociali e indagini di mercato. Analogamente,
un archivio amministrativo è affetto da altri tipi di criticità,
ugualmente complesse, che necessitano di “aggiustamenti” spesso molto
complessi per poter essere utilizzati a scopi statistici. In entrambi
i casi, è vero che uno studio condotto su un campione o su un archivio
amministrativo non può essere migliore del campione o dell’archivio su
cui si basa. È altrettanto vero che da un campione (di)storto non può
nascere un dato dritto. Tra le ulteriori tecniche di distorsione della
realtà c’è sicuramente l’utilizzo fraudolento e spericolato di quello
che nella statistica prende il nome di ’”indice di posizione”, ovvero
di quel “numero” attraverso il quale si sintetizzano i risultati di
un’elaborazione statistica. Gli indici di posizione più utilizzati per
sintetizzare le analisi statistiche sono la media, la moda e la
mediana. Anche in questo caso, è utile far riferimento a una notizia
vera (o verosimile?) diffusa dai media senza le giuste avvertenze, per
mettere in risalto alcuni aspetti interessanti.

Indicare il salario medio dei lavoratori di un’azienda potrebbe avere
un senso laddove si abbia un certo interesse a livellare verso l’alto
la rappresentazione delle retribuzioni: in un’azienda in cui ci sono
tre lavoratori, uno che percepisce un salario da 5000 euro e due che
ne percepiscono 500, il salario medio aziendale è 2000 euro. Lo stesso
fenomeno, descritto attraverso l’uso della moda, dà una lettura
diversa: il salario più diffuso nella stessa azienda ammonta 500
euro. La mediana, invece, suggerisce che circa la metà dei dipendenti
percepisce meno di 500 euro e l’altra metà di più. Le tre affermazioni
sono vere, ma ognuna descrive un aspetto diverso della stessa verità.
Il problema, in questo caso, non è l’indicatore statistico, ma è l’uso
che se ne fa a fare la differenza…
Potrei continuare per pagine a elencare le possibili insidie dei dati
statistici, ma diventerebbe estremamente noioso e poco utile. È utile,
invece, riflettere su una domanda: “Quali e quante notizie e report
relativi alla pandemia hanno rispettato i requisiti minimi richiesti
per la produzione e la diffusione di un dato statistico di qualità?”.