Nota tecnica sul clustering

You are here:
< All Topics
Table of Contents

I modelli pubblicati finora su questo sito sono classificabili come supervised (apprendimento supervisionato): vengono costruiti su una variabile target da cui, per vederla in ottica di machine learning/AI, si insegna a una macchina come riprodurre quel risultato dalle componenti di partenza date. In questo modello, invece, usiamo il clustering, una delle tecniche più famose di apprendimento non supervisionato. La cluster analysis ha lo scopo di selezionare e raggruppare elementi omogenei in un insieme di dati. Quando raggruppiamo le osservazioni su un set di dati, cerchiamo di dividerle in gruppi distinti in modo che le osservazioni all’interno di ciascun gruppo siano abbastanza simili tra loro e che quelle in gruppi diversi siano abbastanza diverse l’una dall’altra.

Il clustering può essere utilizzato per trovare questi sottogruppi. Questo è un problema senza supervisione, dal momento che stiamo cercando di scoprire la struttura – in questo caso, cluster distinti – sulla base dei dati senza nessuna assunzione o ipotesi iniziale. L’algoritmo di clustering raccoglie le osservazioni base di una misura di somiglianza/dissomiglianza, che spesso è rappresentata dalla distanza in uno spazio multidimensionale in p dimensioni (come introdotto nella sezione precedente, per ognuna delle n osservazioni sono disponibili p caratteristiche). I risultati del clustering, quindi, spesso dipendono non solo dalla distribuzione dei dati sottostanti, ma anche dalla scelta della metrica e quindi dalla definizione della distanza.

L’algoritmo di clustering utilizzato è il DBSCAN proposto nel 1996 da Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu. Ecco una animazione che permette di comprendere la flessibilità dell’algoritmo utilizzato:

Rispetto ad altri metodi di cluster come il K-means, essendo basato sulla densità, questo metodo non richiede di conoscere il numero di cluster a priori. Inoltre l’algoritmo possiede la nozione di rumore quindi permette di isolare punti con valori estremi (c.d. outliers). Nel nostro caso, questa caratteristica ci consente di escludere dal raggruppamento/confronto le nazioni con valori troppo differenti dalle altre.

Dal nostro punto di vista, questo metodo può essere molto utile perché permette di elaborare delle forme di correlazione euristica: in altri termini, possiamo vedere quali paesi esibiscono un profilo simile e cercare di capire se vi siano dei fattori determinanti comuni che abbiano prodotto questa convergenza, formulando quindi delle ipotesi a posteriori sulla cui base costruire dei modelli che, a loro volta, potranno essere verificati sulla base di nuovi dati.

Qui, i dati alla base del nostro lavoro sono molto eterogenei: da una parte abbiamo degli indicatori relativi all’andamento della pandemia nei Paesi UE 28 (quindi comprensivi dell’UK), dall’altro le stime OCSE sulla caduta percentuale del PIL. Siamo, quindi, in presenza di una doppia eterogeneità, dato che riguarda sia l’ambito di riferimento dei dati (rispettivamente, indicatori economici e sanitari), sia la loro tipologia (dati reali da una parte, stime dall’altro). Proprio per questo, abbiamo deciso di limitare la nostra analisi al contesto europeo e non all’insieme dei Paesi OCSE, sia perché, pur con tutte le differenze del caso, siamo in presenza di un panorama economico, politico e sociale relativamente omogeneo (in molti casi con la stessa moneta e gli stessi decisori finanziari), sia perché in tutti questi Paesi, con la notevole eccezione del Regno Unito e forse della Svezia, la pandemia sembra aver superato da tempo il picco ed essersi decisamente avviata a una fase discendente. Altrove, come per esempio nelle Americhe, il ciclo epidemico sembra ancora molto sostenuto ed è difficile dire quando le cose cominceranno davvero a migliorare, il che rende molto più incerte anche le stime dell’impatto economico diretto.

In ogni caso, da qui potremo iniziare a trarre qualche deduzione e a produrre qualche analisi e persino alcune stime, correndo tutti i rischi del caso.

Il meccanismo di “contagio economico” dell’attuale crisi, battezzata The Great Lockdown, ha seguito tre canali di trasmissione:

  • shock sanitario, cioè l’impossibilità per i lavoratori malati di partecipare ai processi produttivi;
  • misure di contenimento dell’epidemia, con chiusura di fabbriche e scuole, blocco degli spostamenti e quarantene;
  • shock psicologico.

Tale anatomia della crisi ha provocato, in maniera molto peculiare, uno shock contemporaneo alla domanda e all’offerta con un crollo simultaneo di spesa e produzione:

  • shock all’offerta diretto con lo stop delle attività produttive in Cina, Stati Uniti, Germania e altre potenze industriali colpite dal coronavirus;
  • contagio a livello di supply chain a causa delle difficoltà logistiche di approvvigionamento di materie prime e semilavorati anche per le nazioni meno raggiunte dall’ondata epidemica;
  • shock alla domanda con calo della spesa aggregata (recessione), rinvio degli acquisti di beni durevoli da parte delle famiglie e rinvio degli investimenti delle imprese, ansiose di conoscere meglio l’evoluzione della pandemia.
Was this article helpful?
4.5 out Of 5 Stars
5 Stars 0%
4 Stars 100%
3 Stars 0%
2 Stars 0%
1 Stars 0%
How can we improve this article?
Previous Modelling the spread of Covid19 in Italy using a revised version of the SIR model
Next Previsioni future in funzione di R0
Ridimensiona font
Contrasto