Statistica e grafica con R: kmeans()

Visualizzazione post con etichetta kmeans(). Mostra tutti i post

lunedì 8 maggio 2023

Analisi dei gruppi (clustering non gerarchico)

L'analisi dei gruppi si applica a dati multivariati ed è un metodo statistico di tassonomia numerica che riveste un ruolo importante nella analisi esplorativa dei dati.

L'obiettivo dell'analisi dei gruppi (cluster analysis o clustering) è concettualmente semplice: verificare la possibile esistenza, in un insieme di oggetti, di sottoinsiemi di oggetti particolarmente simili tra loro (gruppi/cluster).

Nonostante alla base dell'analisi dei gruppi vi sia un'idea semplice e logica, vi sono numerosi modi per realizzarla [1], qui ci occupiamo dell'implementazione del clustering non gerarchico con metodi esclusivi nelle due versioni:

→ clustering con il metodo di MacQueen (k-means);

→ clustering con il metodo di Rousseew (k-medoids).

Come dati impieghiamo i valori di BMI (indice di massa corporea) rilevati a livello europeo alcuni anni fa e pubblicati dall'Istat [2].

Per proseguire è necessario:

→ effettuare il download del file di dati bmi.csv

→ salvare il file nella cartella C:\Rdati\

Per il file di dati trovate link e modalità di download alla pagina Dati, ma potete anche semplicemente copiare i dati riportati qui sotto aggiungendo un ↵ Invio al termine dell'ultima riga e salvarli in C:\Rdati\ in un file di testo denominato bmi.csv (assicuratevi che il file sia effettivamente salvato con l'estensione .csv).

Nazione;sottopeso;normale;sovrappeso;obeso

Austria;2.4;49.6;33.3;14.7

Belgio;2.7;48.0;35.3;14.0

Bulgaria;2.2;43.8;39.2;14.8

Cipro;3.9;47.8;33.8;14.5

Croazia;1.9;40.7;38.7;18.7

Danimarca;2.2;50.0;32.9;14.9

Estonia;2.2;43.9;33.5;20.4

Finlandia;1.2;44.1;36.4;18.3

Francia;3.2;49.6;31.9;15.3

Germania;1.8;46.1;35.2;16.9

Grecia;1.9;41.3;39.4;17.3

Irlanda;1.9;42.3;37.0;18.7

Lettonia;1.7;41.8;35.2;21.3

Lituania;1.9;42.5;38.3;17.3

Lussemburgo;2.8;49.3;32.4;15.6

Malta;2.0;37.0;35.0;26.0

Olanda;1.6;49.0;36.0;13.3

Polonia;2.4;42.9;37.5;17.2

Portogallo;1.8;44.6;36.9;16.6

Regno Unito;2.1;42.2;35.6;20.1

Repubblica Ceca;1.1;42.1;37.6;19.3

Romania;1.3;42.9;46.4;9.4

Slovacchia;2.1;43.6;38.0;16.3

Slovenia;1.6;41.8;37.4;19.2

Spagna;2.2;45.4;35.7;16.7

Svezia;1.8;48.3;35.9;14.0

Ungheria;2.9;41.9;34.0;21.2

Inoltre è necessario scaricare dal CRAN il pacchetto aggiuntivo cluster [3], il pacchetto aggiuntivo factoextra [4] e il pacchetto aggiuntivo ggplot2 [5].

Iniziamo con il clustering con il metodo di MacQueen che impiega l'algoritmo k-means.

Copiate questo script, incollatelo nella Console di R e premete ↵ Invio:

# CLUSTERING (NON GERARCHICO) con il metodo di MacQueen (k-means)

library(cluster) # carica il pacchetto

mydata <- read.table("c:/Rdati/bmi.csv", header=TRUE, sep=";", row.names="Nazione") # importa i dati

z <- scale(mydata) # standardizza le variabili

windows() # apre e inizializza una nuova finestra grafica

myclust <- kmeans(z, 4, algorithm="MacQueen", nstart=50) # genera i 4 gruppi/cluster

clusplot(z, myclust$cluster, color=TRUE, labels=2, lines=0, main="Grafico dei cluster - metodo di MacQueen (k.means)", xlab="Componente principale 1", sub="", ylab="Componente principale 2", cex=0.6, col.txt="black", col.p="black") # traccia il grafico dei cluster

Con prima cosa viene caricato il pacchetto cluster, quindi i dati sono importati in mydata.

Con la funzione scale() della terza riga per ciascun dato viene calcolata la deviata normale standardizzata z. Questa funzione calcola per i dati di ciascuna colonna/variabile la media e la deviazione standard, poi calcola per ciascun dato x la corrispondente deviata normale standardizzata z come

z = (x – media) / deviazione standard

I valori di z sono salvati nel nuovo oggetto qui denominato per comodità mnemonica z.

Se nella Console di R digitate z

> z

sono mostrati i dati standardizzati, in coda ai quali sono riportate la media

attr(,"scaled:center")

sottopeso normale sovrappeso obeso

2.103704 44.537037 36.240741 17.111111

e la deviazione standard

attr(,"scaled:scale")

sottopeso normale sovrappeso obeso

0.6111033 3.3717318 2.8989732 3.2322097

impiegate per effettuare la standardizzazione dei dati.

Quindi viene aperta e inizializzata una nuova finestra grafica con windows().

La funzione kmeans() impiega i dati standardizzati z per generare 4 cluster, impiegando l'algoritmo "MacQueen" e 50 iterazioni (nstart=50) dell'algoritmo di scelta iniziale dei cluster. I risultati sono salvati in myclust.

I risultati del clustering salvati in myclust sono quindi impiegati per tracciare il grafico con la funzione clusplot() e i seguenti argomenti:

→ l'oggetto z contenente i dati standardizzati;

→ l'oggetto myclust$cluster contenente i cluster generati con kmeans();

→ color=TRUE per riportare i cluster in colore;

→ labels=2 per riportare la numerazione assegnata ai cluster;

→ lines=0 per non riportare le linee che collegano i cluster;

→ sub="" che elimina il sottotitolo previsto di default dalla funzione;

→ cex=0.6 per rimpicciolire i caratteri del testo applicato;

→ col.txt che definisce il colore del testo che compare all'interno del grafico;

→ col.p che definisce il colore impiegato per rappresentare i punti all'interno del grafico.

Per semplicità nella funzione clusplot() sono stati lasciati i valori di default per numerosi altri argomenti, digitate help(clusplot) nella Console di R per un approfondimento del tema.

Se nella Console di R digitate mydata[order(-mydata$normale),]

> mydata[order(-mydata$normale),]

sono mostrati i dati ordinati in ordine decrescente per la colonna che contiene la percentuale di soggetti con peso normale

sottopeso normale sovrappeso obeso

Danimarca 2.2 50.0 32.9 14.9

Austria 2.4 49.6 33.3 14.7

Francia 3.2 49.6 31.9 15.3

Lussemburgo 2.8 49.3 32.4 15.6

Olanda 1.6 49.0 36.0 13.3

Svezia 1.8 48.3 35.9 14.0

Belgio 2.7 48.0 35.3 14.0

Cipro 3.9 47.8 33.8 14.5

Germania 1.8 46.1 35.2 16.9

Spagna 2.2 45.4 35.7 16.7

Portogallo 1.8 44.6 36.9 16.6

Finlandia 1.2 44.1 36.4 18.3

Estonia 2.2 43.9 33.5 20.4

Bulgaria 2.2 43.8 39.2 14.8

Slovacchia 2.1 43.6 38.0 16.3

Polonia 2.4 42.9 37.5 17.2

Romania 1.3 42.9 46.4 9.4

Lituania 1.9 42.5 38.3 17.3

Irlanda 1.9 42.3 37.0 18.7

Regno Unito 2.1 42.2 35.6 20.1

Repubblica Ceca 1.1 42.1 37.6 19.3

Ungheria 2.9 41.9 34.0 21.2

Lettonia 1.7 41.8 35.2 21.3

Slovenia 1.6 41.8 37.4 19.2

Grecia 1.9 41.3 39.4 17.3

Croazia 1.9 40.7 38.7 18.7

Malta 2.0 37.0 35.0 26.0

e potete vedere subito come - giusto per chiarire con un esempio - Danimarca, Austria, Francia, Lussemburgo, Olanda, Svezia, Belgio e Cipro, graficamente incluse nello stesso cluster, numericamente si distinguono dalle altre nazione per avere la maggior percentuale di soggetti con peso normale e contemporaneamente una ridotta percentuale di soggetti obesi.

Vediamo ora il clustering con il metodo di Rousseew che impiega l'algoritmo k-medoids.

# CLUSTERING NON GERARCHICO con il metodo di Rousseew (k-medoids)

library(factoextra) # carica il pacchetto

library(cluster) # carica il pacchetto

mydata <- read.table("c:/Rdati/bmi.csv", header=TRUE, sep=";", row.names="Nazione") # importa i dati

windows() # apre e inizializza una nuova finestra grafica

myclust <- pam(mydata, 4, metric=c("euclidean"), stand=TRUE) # genera un oggetto pam che contiene i dati dei cluster

fviz_cluster(myclust, myclust$cluster, labelsize=7, main = "Grafico dei cluster - metodo di Rousseew (k-medoids)") # grafico dei cluster per le prime due componenti principali

windows() # apre e inizializza una nuova finestra grafica

distance <- get_dist(mydata, method="euclidean", stand=TRUE) # genera la matrice delle distanze

fviz_dist(distance, order=TRUE, show_labels=TRUE, gradient = list(low="#00AFBB", mid="white", high="#FC4E07")) + theme(axis.text.x=element_text(angle=90, vjust=0.3))+ theme(axis.text.y=element_text(angle=0, vjust=0.3)) # grafico della matrice delle distanze

windows() # apre e inizializza una nuova finestra grafica

fviz_nbclust(mydata, FUNcluster=cluster::pam, method="wss") # calcola il numero ottimale di cluster

I preliminari sono gli stessi dello script precedente a parte il fatto che in questo caso viene impiegato anche il pacchetto factoextra che a sua volta si basa sul pacchetto ggplot2 che deve anch'esso essere stato installato.

La prima funzione utilizzata è pam() che deriva il suo nome da "Partitioning Around Medoids", impiega l'algoritmo di clustering dei dati k-medoids (un versione robusta dell'algoritmo k-means) e prevede come argomenti:

→ i dati mydata da impiegare;

→ il numero di cluster, in questo caso 4, in cui classificare i dati;

→ la metrica da impiegare che può essere "euclidean" o "manhattan";

→ stand=TRUE che impone la standardizzazione dei dati, che nel caso del clustering con il metodo di MacQueen che abbiamo visto sopra deve invece essere eseguita in via preliminare con la funzione scale().

Con la successiva funzione fviz_cluster() è generato il grafico dei cluster (myclust$cluster) ottenuti con l'algoritmo k-medoids e contenuti nell'oggetto myclust.

La matrice delle distanze distance generata con la funzione get_dist() sui dati (mydata), previa la loro standardizzazione (stand=TRUE), viene impiegata dalla funzione fviz_dist() per generare il grafico delle distanze tra gli oggetti clusterizzati, un grafico facoltativo e accessorio rispetto al precedente, ma che potrebbe interessare.

In diagonale compare in azzurro la distanza 0 della relazione di identità degli oggetti con se stessi. Il colore azzurro si va attenuando via via che inizia la dissimilarità tra gli oggetti, fino a trasformarsi in un rosso sempre più intenso al suo progressivo aumentare.

Il colore rosso, ad esempio, diventa la dominante nell'incrocio della Romania con tutte le altre Nazioni, a conferma della sua peculiarità: se guardate i dati, ha la percentuale in assoluto più elevata di sovrappeso (46.4%) e la percentuale in assoluto più bassa di obesi (9.4%). In termini di dissimilarità dalle restanti Nazioni, la Romania è immediatamente seguita da Malta, come risulta evidente anche nel grafico dei cluster.

Infine con la funzione fviz_nbclust() viene generato il grafico che in teoria consentirebbe di valutare il numero ottimale di cluster da imporre nella funzione pam().

Il numero ottimale di cluster dovrebbe corrispondere ad un punto in cui cambia la curvatura: qui vediamo il primo in corrispondenza di 2 cluster, e il secondo in corrispondenza di 4 cluster. Personalmente non ho mai trovato particolarmente utili gli automatismi di questo genere, preferisco ragionare sul quadro generale, ma lascio al lettore le valutazioni del caso.

Trovate il seguito e le strategie alternative di clustering e di analisi dei dati multivariati nei post:

→ Analisi delle componenti principali

→ Analisi dei gruppi (clustering gerarchico)

→ Analisi dei gruppi (clustering non esclusivo)

----------

[1] Nonostante alla base dell'analisi dei gruppi vi sia un'idea semplice e logica, vi sono numerosi modi per realizzarla, infatti esistono:

→ metodi gerarchici, che danno luogo a una suddivisione ad albero (dendrogramma) in base alla distanza tra i singoli oggetti dell'insieme;

→ metodi non gerarchici, nei quali l'appartenenza di un oggetto (dell'insieme) ad uno specifico sottoinsieme/gruppo/cluster viene stabilita sulla base della sua distanza dal centro o dalla media dei dati o da un punto rappresentativo del cluster;

→ metodi bottom-up noti anche come metodi agglomerativi nei quali all'inizio del processo di classificazione ad ogni oggetto viene fatto corrispondere un cluster. In questo stadio gli oggetti sono considerati tutti dissimili tra di loro. Al passaggio successivo i due oggetti più simili sono raggruppati nello stesso cluster. Il numero dei cluster risulta quindi pari al numero di oggetti diminuito di uno. Il procedimento viene ripetuto ciclicamente, fino ad ottenere (all'ultimo passaggio) un unico cluster;

→ metodi top-down noti anche come metodi divisivi nei quali inizialmente tutti gli oggetti sono considerati come appartenenti ad un unico cluster, che viene via via suddiviso in cluster fino ad avere un numero di cluster uguale al numero degli oggetti;

→ metodi esclusivi, che prevedono che un oggetto possa appartenere esclusivamente a un cluster;

→ metodi non esclusivi (fuzzy) che prevedono che un oggetto possa appartenere, in modo quantitativamente diverso, a più di un cluster.

[2] Vedere il post Indice di massa corporea (BMI).

[3] Trovate la documentazione nel manuale di riferimento del pacchetto: Package ‘cluster’.

https://cran.r-project.org/web/packages/cluster/cluster.pdf

[4] Trovate la documentazione nel manuale di riferimento del pacchetto: Package ‘factoextra’.

https://cran.r-project.org/web/packages/factoextra/factoextra.pdf

[5] Trovate la documentazione nel manuale di riferimento del pacchetto: Package ‘ggplot2’.

https://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf

giovedì 3 ottobre 2019

Analisi dei gruppi (clustering)

L'analisi dei gruppi si applica a dati multivariati ed è un metodo statistico di tassonomia numerica che riveste un ruolo importante nella analisi esplorativa dei dati.

Nonostante alla base dell'analisi dei gruppi vi sia un'idea semplice e logica, vi sono numerosi modi per realizzarla, ed esistono:
→ metodi gerarchici, che danno luogo a una suddivisione ad albero (dendrogramma) in base alla distanza tra i singoli oggetti dell'insieme;
→ metodi non gerarchici, nei quali l'appartenenza di un oggetto (dell'insieme) ad uno specifico sottoinsieme/gruppo/cluster viene stabilita sulla base della sua distanza dal centro o dalla media dei dati o da un punto rappresentativo del cluster [1];
→ metodi agglomerativi (o metodi bottom-up) nei quali all'inizio del processo di classificazione ad ogni oggetto viene fatto corrispondere un cluster. In questo stadio gli oggetti sono considerati tutti dissimili tra di loro. Al passaggio successivo i due oggetti più simili sono raggruppati nello stesso cluster. Il numero dei cluster risulta quindi pari al numero di oggetti diminuito di uno. Il procedimento viene ripetuto ciclicamente, fino ad ottenere (all'ultimo passaggio) un unico cluster;
→ metodi divisivi (o metodi top-down) nei quali inizialmente tutti gli oggetti sono considerati come appartenenti ad un unico cluster, che viene via via suddiviso in cluster fino ad avere un numero di cluster uguale al numero degli oggetti;

→ metodi esclusivi, che prevedono che un oggetto possa appartenere esclusivamente a un cluster;
→ metodi non esclusivi (fuzzy) che prevedono che un oggetto possa appartenere, in modo quantitativamente diverso, a più di un cluster.

Da notare infine che non esiste una regola per stabilire il numero di cluster in cui sono aggregati gli oggetti, che va deciso caso per caso, cosa che complica ulteriormente lo scenario.

Per una trattazione completa dei diversi metodi di clustering, tutti metodi esclusivi tranne i metodi fuzzy, rimando ai post:

→ Analisi dei gruppi (clustering gerarchico) [include il confronto tra dendrogrammi]

→ Analisi dei gruppi (clustering non gerarchico) [include metodi agglomerativi e metodi divisivi]

→ Analisi dei gruppi (clustering non esclusivo) [fuzzy clustering]

Qui riporto una breve sintesi con i due metodi più frequentemente impiegati, e capostipiti delle due alternative più tradizionali nel campo del clustering, entrambi metodi esclusivi:

→ il metodo di Ward, un metodo gerarchico che misura la somiglianza di due oggetti/punti sulla base della loro distanza euclidea;

→ il metodo di MacQueen, un metodo non gerarchico che misura l'appartenenza di un oggetto/punto ad uno specifico cluster con l'algoritmo delle k-means.

Come dati impieghiamo i valori di BMI (indice di massa corporea) rilevati a livello europeo alcuni anni fa e pubblicati dall'Istat [2].

Per proseguire è necessario:

→ effettuare il download del file di dati bmi.csv

→ salvare il file nella cartella C:\Rdati\

Nazione;sottopeso;normale;sovrappeso;obeso

Austria;2.4;49.6;33.3;14.7

Belgio;2.7;48.0;35.3;14.0

Bulgaria;2.2;43.8;39.2;14.8

Cipro;3.9;47.8;33.8;14.5

Croazia;1.9;40.7;38.7;18.7

Danimarca;2.2;50.0;32.9;14.9

Estonia;2.2;43.9;33.5;20.4

Finlandia;1.2;44.1;36.4;18.3

Francia;3.2;49.6;31.9;15.3

Germania;1.8;46.1;35.2;16.9

Grecia;1.9;41.3;39.4;17.3

Irlanda;1.9;42.3;37.0;18.7

Lettonia;1.7;41.8;35.2;21.3

Lituania;1.9;42.5;38.3;17.3

Lussemburgo;2.8;49.3;32.4;15.6

Malta;2.0;37.0;35.0;26.0

Olanda;1.6;49.0;36.0;13.3

Polonia;2.4;42.9;37.5;17.2

Portogallo;1.8;44.6;36.9;16.6

Regno Unito;2.1;42.2;35.6;20.1

Repubblica Ceca;1.1;42.1;37.6;19.3

Romania;1.3;42.9;46.4;9.4

Slovacchia;2.1;43.6;38.0;16.3

Slovenia;1.6;41.8;37.4;19.2

Spagna;2.2;45.4;35.7;16.7

Svezia;1.8;48.3;35.9;14.0

Ungheria;2.9;41.9;34.0;21.2

Inoltre è necessario scaricare dal CRAN il pacchetto aggiuntivo cluster [3]. Copiate questo script, incollatelo nella Console di R e premete ↵ Invio:

# ANALISI DEI GRUPPI (CLUSTERING GERARCHICO E NON GERARCHICO)

mydata <- read.table("c:/Rdati/bmi.csv", header=TRUE, sep=";", row.names="Nazione") # importa i dati

z <- scale(mydata) # standardizza le variabili

cbind(mydata, z) # mostra i dati originali e i rispettivi valori z

# clustering gerarchico con il metodo di Ward (distanza euclidea)

mat <- hclust(dist(z, method="euclidean"), method="ward.D") # genera la matrice delle distanze euclidee e costruisce i cluster

plot(mat, main="Dendrogramma", xlab="BMI nei Paesi europei", sub="", ylab="Distanza nei valori di BMI dei cluster", cex=0.7) # traccia il dendrogramma

rect.hclust(mat, k=4, border=c("red","blue","green","goldenrod")) # evidenzia i 4 gruppi/cluster

# clustering non gerarchico con il metodo di MacQueen (k-means )

library(cluster) # carica il pacchetto

windows() # apre e inizializza una nuova finestra grafica

myclust <- kmeans(z, 4, algorithm = c("MacQueen"), nstart=50) # genera i 4 gruppi/cluster

clusplot(z, myclust$cluster, color=TRUE, col.clus=c("blue", "goldenrod", "red", "green"), shade=FALSE, labels=3, lines=0, sub="", main="Grafico dei cluster", xlab="Componente principale 1", ylab="Componente principale 2", cex=0.6, col.txt="black", col.p="black") # traccia il grafico dei cluster per le prime due componenti principali

Con la prima riga di codice sono importati i dati nell'oggetto mydata.

Con la funzione scale() della seconda riga per ciascun dato viene calcolata la deviata normale standardizzata z. In pratica questa funzione prima calcola per i dati di ciascuna colonna/variabile la media e la deviazione standard, poi calcola per ciascuno dato x la corrispondente deviata normale standardizzata z come

z = (x – media) / deviazione standard

I valori di z sono poi salvati nel nuovo oggetto qui denominato, per comodità mnemonica, z.

Nella terza riga infine i dati originali e i corrispondenti valori di deviata normale standardizzata z sono mostrati insieme, combinati con la funzione cbind().

Dopo questi preliminari si passa al clustering gerarchico con il metodo di Ward con la funzione hclust() [5] e due soli argomenti:

→ il primo è costituito dalla matrice delle distanze calcolata con la funzione dist() sui dati standardizzati z impiegando per il calcolo delle distanze il metodo di euclideo (method="euclidean"), che prevede di misurare la distanza tra due punti con il teorema di Pitagora. I metodi che si possono impiegare in alternativa includono: "euclidean", "maximum", "manhattan", "canberra", "binary", "minkowski" [6];

→ il secondo è l'argomento method=ward.D che specifica come costruire i cluster, e può assumere in alternativa uno dei seguenti valori: "ward.D", "ward.D2", "single", "complete", "average" (= UPGMA), "mcquitty" (= WPGMA), "median" (= WPGMC), "centroid" (= UPGMC).

A partire dalla matrice delle distanze euclidee salvata nell'oggetto mat, con la funzione plot() viene tracciato il dendrogramma e con la funzione rect.hclust() e l'argomento k= viene stabilito in 4 il numero dei gruppi da evidenziare nel dendrogramma.

Per il clustering non gerarchico con il metodo di MacQueen dopo avere caricato il pacchetto cluster e aperto una nuova finestra grafica con windows(), impiegando la funzione kmeans() [7] viene generata la matrice delle distanze che viene salvata nell'oggetto myclust.

Viene poi impiegata per tracciare il grafico la funzione clusplot() nella quale si fanno notare i seguenti argomenti:

→ color=TRUE consente l'impiego dei colori nei dati riportati sul grafico;

→ col.clus nel quale la sequenza dei colori è stata adattata manualmente per avere gli stessi colori del dendrogramma;

→ shade che se posto =TRUE riporta all'interni dei cluster un tratteggio con una densità uguale al numero di punti inclusi nel cluster diviso per l'area dell'ellisse;

→ labels=3 che è uno dei possibili valori per le etichette da riportare (vederli con help(clusplot));

→ lines=0 che dice di non riportare le lineee che collegano i cluster;

→ sub="" che elimina il sottotitolo previsto di default dalla funzione;

→ cex=0.6 che riduce la dimensione dei caratteri dei nomi delle nazioni riportati all'interno dei cluster;

→ col.txt che definisce il colore del testo che compare all'interno dei cluster;

→ col.p che definisce il colore impiegato per rappresentare i punti all'interno dei cluster.

Da notare che se nella Console di R digitate

myclust$cluster

viene mostrato il vettore con l'elenco delle nazioni, ciascuna con il cluster cui appartiene

> myclust$cluster

Austria Belgio Bulgaria Cipro Croazia
4 4 2 4 2
Danimarca Estonia Finlandia Francia Germania
4 3 2 4 2
Grecia Irlanda Lettonia Lituania Lussemburgo
2 2 3 2 4
Malta Olanda Polonia Portogallo Regno Unito
3 4 2 2 3
Repubblica Ceca Romania Slovacchia Slovenia Spagna
2 1 2 2 2
Svezia Ungheria
4 3

Questo infine è il grafico dei cluster generati.

Per un confronto contenente anche il dettaglio numerico i dati originali forniti dall'Istat sono stati importati in un foglio elettronico nel quale sono stati ordinati e suddivisi manualmente impiegando i seguenti criteri:

→ è stato identificato un paese che si discosta in modo significativo da tutti gli altri essendo l'unico con una quota di obesi inferiore al 10% e l'unico con una quota di soggetti sovrappeso superiore al 40%;

→ sono stati raccolti in un unico gruppo i paesi con una percentuale di soggetti di peso normale superiore del 5% circa alla media dei restanti paesi, e precisamente superiore al 47%.

→ sono stati raggruppati insieme tutti i paesi rimanenti, distinguendo tra quelli con una quota di obesi uguale o superiore al 10% e inferiore al 20% e quelli con una quota di obesi uguale o superiore al 20% e inferiore al 30%.

Dalla tabella così costruita, che riconduce i risultati del clustering ai dati originari, risulta evidente che nel cluster rosso predomina il peso normale, nel cluster blu è dominante la categoria obeso, nel cluster giallo è dominante la presenza di sovrappeso, mentre un caso a sé stante è quello della Romania, con valori estremi sia nel sovrappeso (percentuale di casi molto elevata) sia nell'obeso (percentuale di casi molto bassa).

Questa analisi, semplice ma di buon senso, coincide con quella fornita dai due metodi di clustering, a parte il fatto che il metodo di MacQueen include Svezia e Olanda nel cluster normale cerchiato in rosso mentre il metodo di Ward li include nel cluster sovrappeso cerchiato in giallo .

In conclusione vale la pena di notare alcune cose:

→ la standardizzazione, intesa come trasformazione dei dati nelle corrispondenti deviate normali standardizzate è d'obbligo per i metodi non gerarchici mentre per i metodi gerarchici potrebbe non essere necessaria - ma lo potrebbe essere in alcuni casi. Questo però apre un tema che va al di la dei limiti di questo post: qui è stata impiegata la standardizzazione, che personalmente ritengo opportuno eseguire sempre;
→ metodi di clustering che impiegano differenti criteri per il raggruppamento dei dati possono fornire risultati diversi;
→ la presenza di oggetti a cavallo tra due cluster (come qui accade per Svezia e Olanda) potrebbe deporre a favore dell'impiego del clustering con metodi non esclusivi (fuzzy) [8] assegnando gli oggetti contemporaneamente a tutti i cluster in modo quantitativamente diverso;

→ non esiste una "regola aurea" per stabilire il numero di cluster in cui aggregare gli oggetti;

→ anche se matematicamente definito, quindi esente da arbitrarietà, qualsiasi metodo di classificazione risente degli assunti che inevitabilmente devono essere posti alla sua base;

→ nel caso di dati non eccessivamente complessi una loro attenta disamina effettuata mediante strumenti tradizionali può essere di aiuto nella interpretazione dei risultati del clustering.

----------

[1] Massart DL, Vandeginste BGM, Deming SN, Michotte Y, Kaufman L. Chemometrics: a textbook. Elsevier, New York, 1988, ISBN 0-444-42660-4, pp. 371-384.

[2] Vedere il post Indice di massa corporea (BMI).

[3] Vedere il manuale di riferimento del pacchetto Package 'cluster'.

https://cran.r-project.org/web/packages/cluster/cluster.pdf

[4] Digitate help(scale) nella Console di R per la documentazione della funzione scale().

[5] Digitate help(hclust) nella Console di R per la documentazione della funzione hclust().

[6] Digitate help(dist) nella Console di R per vedere la documentazione della funzione dist().

[7] Digitate help(kmeans) nella Console di R per vedere il significato degli argomenti impiegati.

[8] Vedere il post Analisi dei gruppi (clustering non esclusivo).