Statistica e grafica con R

domenica 10 agosto 2025

Stacco estivo

"Sai ched’è la statistica? È ’na cosa / che serve pe’ fa’ un conto in generale / de la gente che nasce, che sta male, / che more, che va in carcere e che spósa. / Ma pe’ me la statistica curiosa / è dove c’entra la percentuale, / pe’ via che, lì, la media è sempre eguale / puro co’ la persona bisognosa. / Me spiego: da li conti che se fanno / secondo le statistiche d’adesso / risurta che te tocca un pollo all’anno: / e, se nun entra ne le spese tue, / t’entra ne la statistica lo stesso / perché c’è un antro che ne magna due."

(Trilussa) ¹

"Nei tempi antichi non c’erano le statistiche, perciò era necessario ripiegare sulle menzogne."

(Stephen Leacock) ²

----------

[¹] Trilussa. Le Poesie. A cura di Pietro Pancrazi. Note di Luigi Huetter. Arnoldo Mondadori Editore, Verona, 1951, p. 392.

[²] Darrel Huff. Mentire con le statistiche. Monti&Ambrosini editori, 2007, ISBN 978-88-89479-09-4, p. 183.

domenica 20 luglio 2025

Come impiegare l'operatore %>% e l'argomento FUN

Anche se l'obiettivo di questi post rimane sempre quello di fornire gli strumenti più semplici, quelli utili nella fase iniziale di apprendimento – notoriamente tutta in salita e nella quale quello che conta è "rompere il ghiaccio" con R – occasionalmente può essere interessante affrontare argomenti un poco più tecnici, come i due che vediamo ora.

Il primo riguarda l'operatore pipe indicato con il simbolo %>%: il termine sta per il sostantivo "tubo" ma anche per l'espressione verbale "trasportare con una tubatura", ed è proprio in questo senso che viene impiegato. L'operatore pipe è stato introdotto la prima volta con il pacchetto magrittr [1] che ne riporta la seguente descrizione:

"[il pacchetto] fornisce un meccanismo per concatenare i comandi con il nuovo operatore di inoltro pipe, %>%. Questo operatore inoltrerà un valore, o il risultato di un'espressione, alla successiva chiamata/espressione di funzione. [l'operatore] fornisce un supporto flessibile per il tipo di espressioni sul lato destro. Per ulteriori informazioni, consultare la descrizione del pacchetto. Per citare René Magritte, 'Ceci n'est pas une pipe'. " [2]

Più sinteticamente: l'operatore %>% fornisce la "tubatura" che consente di inoltrare i dati in uscita da una funzione all'ingresso della funzione che segue. Vediamo questo breve esempio. Abbiamo il set di dati ais [3]

> ais

rcc wcc hc hg ferr bmi ssf pcBfat lbm ht wt sex sport

1 3.96 7.5 37.5 12.3 60 20.56 109.1 19.75 63.32 195.9 78.9 f B_Ball

…...

202 5.38 6.3 46.0 15.7 32 21.07 34.9 6.26 72.00 190.8 76.7 m Tennis

e vogliamo calcolare la media, la deviazione standard e l'errore standard della concentrazione di emoglobina (hg) nel sangue dei 202 atleti australiani ivi inclusi suddividendoli per sport praticato (sport) e per sesso (sex).

Copiate e incollate nella Console di R questo script e premete ↵ Invio.

# COME IMPIEGARE l'operatore %>% (pipe)

library (DAAG) # carica il pacchetto che include il set di dati ais

library(dplyr) # carica il pacchetto con l'operatore pipe e altre funzioni

library(plotrix) # carica il pacchetto per il calcolo dell'errore standard

# calcola media, deviazione standard ed errore standard separatamente per sport e per sesso

pipe_hg <- ais %>% group_by(sport, sex) %>% summarise(media=mean(hg), ds=sd(hg), es=std.error(hg)) %>% ungroup()

pipe_hg # mostra i risultati

Dopo avere installato e caricato i pacchetti necessari, per realizzare la tabella che contiene i risultati desiderati impieghiamo l'operatore pipe (%>%) che trasferisce i dati da una funzione alla successiva in questo modo:

→ i dati (ais) sono trasferiti (%>%) alla funzione group_by();

→ la funzione group_by() raggruppa i dati in sottoinsiemi per sport praticato (sport) e per sesso dell'atleta (sex) e il risultato di questa operazione viene trasferito (%>%) alla funzione summarise();

→ la funzione summarise() calcola la media mean(), la deviazione standard sd() e l'errore standard std.error() della variabile hg – la concentrazione nel sangue dell'emoglobina (espressa in g/dL, grammi per decilitro di sangue) dei 202 atleti australiani suddivisi per sport e per sesso – e il risultato viene trasferito (%>%) alla funzione ungroup();

→ la funzione ungroup() rimuove una serie di valori impiegati provvisoriamente per generare il risultato finale che viene salvato (<-) nella tabella pipe_hg.

Ed ecco la tabella risultante, ottenuta quindi con una sola riga di codice:

> pipe_hg # mostra i risultati

# A tibble: 17 × 5

sport sex media ds es

1 B_Ball f 13.1 0.878 0.243

2 B_Ball m 15.1 0.922 0.266

3 Field f 14.6 0.682 0.258

4 Field m 16.0 0.805 0.232

5 Gym f 13.6 0.860 0.430

6 Netball f 12.8 0.567 0.118

7 Row f 14.0 0.740 0.158

8 Row m 15.4 0.711 0.184

9 Swim f 13.6 0.583 0.194

10 Swim m 15.5 0.655 0.182

11 T_400m f 13.8 1.04 0.312

12 T_400m m 15.3 0.824 0.194

13 T_Sprnt f 14.2 0.556 0.278

14 T_Sprnt m 16.2 1.49 0.450

15 Tennis f 13.5 1.10 0.414

16 Tennis m 15.6 1.48 0.741

17 W_Polo m 15.5 0.718 0.174

Il secondo riguarda l'argomento FUN che consente di specificare una o più funzioni e di applicarle in sequenza a una variabile. Impieghiamo gli stessi dati dell'esempio precedente allo stesso scopo: calcolare la media, la deviazione standard e l'errore standard della concentrazione di emoglobina nel sangue di 202 atleti australiani suddividendoli per sport praticato e per sesso.

Copiate e incollate nella Console di R questo script e premete ↵ Invio.

# COME IMPIEGARE l'argomento FUN

library (DAAG) # carica il pacchetto che include il set di dati ais

library(plotrix) # carica il pacchetto per il calcolo dell'errore standard

# calcola media, deviazione standard ed errore standard separatamente per sport e per sesso

FUN_hg <- aggregate(hg~sport+sex, data=ais, FUN=function(x) c(media=mean(x), ds=sd(x), es=std.error(x)))

FUN_hg # mostra i risultati

Dopo avere installato e caricato i pacchetti necessari, la tabella che contiene i risultati desiderati viene realizzata con la funzione aggregate() che nell'ordine:

→ nel nostro set di dati (data=ais) raggruppa (~) i valori di concentrazione dell'emoglobina (hg) in sottoinsiemi per sport praticato (sport) e per sesso dell'atleta (sex);

→ con l'argomento FUN e con il valore =function(x) specifica che sui dati devono essere effettuati i calcoli di seguito elencati;

→ con la funzione c() elenca le funzioni da impiegare per i calcoli;

→ con le funzioni mean(), sd() e std.error() effettua i calcoli di media, deviazione standard ed errore standard sui dati raggruppati per sport e per sesso, salvando i risultati nelle variabili media, ds ed es.

I risultati sono infine riportati (<-) nella tabella FUN_hg e, a parte l'ordinamento e gli arrotondamenti, sono identici a quelli ottenuti con lo script precedente, impiegando anche in questo caso una sola riga di codice.

> FUN_hg # mostra i risultati

sport sex hg.media hg.ds hg.es

1 B_Ball f 13.1307692 0.8778616 0.2434750

2 Field f 14.6285714 0.6824326 0.2579353

3 Gym f 13.6000000 0.8602325 0.4301163

4 Netball f 12.8173913 0.5670114 0.1182301

5 Row f 14.0318182 0.7396179 0.1576871

6 Swim f 13.5666667 0.5830952 0.1943651

7 T_400m f 13.7727273 1.0354621 0.3122036

8 T_Sprnt f 14.1750000 0.5560276 0.2780138

9 Tennis f 13.5285714 1.0965313 0.4144499

10 B_Ball m 15.1416667 0.9219134 0.2661335

11 Field m 16.0250000 0.8046738 0.2322893

12 Row m 15.3866667 0.7110020 0.1835799

13 Swim m 15.5076923 0.6550592 0.1816807

14 T_400m m 15.3055556 0.8235306 0.1941080

15 T_Sprnt m 16.1909091 1.4936228 0.4503442

16 Tennis m 15.6500000 1.4821156 0.7410578

17 W_Polo m 15.5176471 0.7178399 0.1741017

Conclusione: nel corso dell'elaborazione dei dati può essere utile tenere a portata di mano qualche esempio di codice, come questi due, che ricorda come impiegare l'operatore %>% e l'argomento FUN. Non trovate molto altro sul web, ma potete provare ricercando ad esempio "R %>% operator examples" o "R FUN function examples".

-----------

[1] Vedere il Reference manual del pacchetto: Package ‘magrittr’.

https://cran.r-project.org/web/packages/magrittr/magrittr.pdf

[2] "Provides a mechanism for chaining commands with a new forward-pipe operator, %>%. This operator will forward a value, or the result of an expression, into the next function call/expression. There is flexible support for the type of right-hand side expressions. For more information, see package vignette. To quote Rene Magritte, 'Ceci n'est pas un pipe.' ".

[3] Vedere il post Il set di dati ais nel quale trovate anche come caricare i dati senza impiegare il pacchetto DAAG.

mercoledì 9 luglio 2025

Valutare l'omogeneità tra varianze

L'analisi della varianza (ANOVA) è basata "... su due importanti ipotesi: (a) la normalità delle distribuzioni delle osservazioni … e (b) la costanza delle varianze nei diversi gruppi" [1].

Per valutare la normalità (gaussianità) delle distribuzioni vi è solo l'imbarazzo della scelta tra i molti test disponibili, molti dei quali li trovate illustrati anche in questo sito [2].

Poiché invece qualche difficoltà può sorgere in merito al metodo per valutare la omogeneità delle varianze, qui illustro come per questo si può impiegare il test di Levene.

I dati sono quelli già impiegati nella ANOVA a un fattore [3], copiate le sedici righe riportate qui sotto aggiungendo un ↵ Invio al termine dell'ultima riga e salvatele in C:\Rdati\ in un file di testo denominato anova1.csv (attenzione all'estensione .csv al momento del salvataggio del file).

macchina;produzione
i1;48.4
i1;49.7
i1;48.7
i1;48.5
i1;47.7
i2;56.1
i2;56.3
i2;56.9
i2;57.6
i2;55.1
i3;52.1
i3;51.1
i3;51.6
i3;52.1
i3;51.1

In alternativa andate alla pagina Dati nella quale trovate diverse opzioni per scaricare questo e altri file di dati, quindi copiate il file anova1.csv nella cartella C:\Rdati\

Copiate lo script, incollatelo nella Console di R e premete ↵ Invio:

# Test di Levene per l'omogeneità tra varianze

library(car) # carica il pacchetto necessario per eseguire il test

mydata <- read.table("c:/Rdati/anova1.csv", header=TRUE, sep=";", dec=".") # importa i dati

leveneTest(produzione~macchina, data=mydata) # verifica se le varianze risultano omogenee

Dopo avere caricato il pacchetto car che include la funzione leveneTest() sono importati i dati nell'oggetto mydata.

Il senso dello script risiede tutto nella terza riga di codice: prima di eseguire la ANOVA vogliamo verificare in via preliminare se le varianze dei cinque dati di produzione rilevati per ciascuna delle tre macchine i1, i2 e i3 sono tra loro omogenee applicando il test di Levene sui dati (mydata) con i valori di produzione aggregati per macchina (produzione~macchina). Questo è quanto ci compare:

> leveneTest(produzione~macchina, data=mydata) # verifica se le varianze risultano omogenee

Levene's Test for Homogeneity of Variance (center = median)

Df F value Pr(>F)

group 2 0.4238 0.664

Messaggio di avvertimento:

In leveneTest.default(y = y, group = group, ...) : group coerced to factor.

Perché le tre varianze calcolate per le produzioni delle tre macchine possano essere considerate diverse dovremmo avere p<0.05, ma qui abbiamo un p=0.664 e pertanto concludiamo che le varianze delle produzioni ottenute con le tre diverse macchine non differiscono tra loro in modo significativo. Quindi l'omogeneità delle varianze – uno dei due prerequisiti della ANOVA – risulta rispettato.

Da notare che il Messaggio di avvertimento appare in quanto la variabile di raggruppamento utilizzata per calcolare il test di Levene deve essere una variabile "fattore". Se la variabile utilizzata non lo è, ma è comunque la variabile qualitativa con la quale vogliamo raggruppare i dati, come "macchina" nel nostro esempio, la funzione leveneTest() ci viene in aiuto in quanto trasforma automaticamente la nostra variabile in una variabile "fattore", pertanto il messaggio può essere ignorato.

Conclusione: i risultati dell'ANOVA devono essere validati accertando che siano rispettati due requisiti:

(a) i dati devono essere distribuiti in modo gaussiano, cosa che può essere verificata impiegando qualcuno dei numerosi test di normalità (gaussianità) disponibili;

(b) i dati devono avere varianze omogenee (varianze non significativamente diverse), cosa che può essere verificata impiegando il test di Levene qui illustrato.

----------

[1] Armitage P. Statistica medica. Giangiacomo Feltrinelli Editore, Milano, 1979, pp. 195-196.

[2] I metodi per l'analisi della normalità (gaussianità) di una distribuzione sono riportati in:

- Test di normalità (gaussianità);

- Valutare asimmetria e curtosi;

- Tabulare una serie di test di normalità (gaussianità).

[3] Vedere il post Analisi della varianza a un fattore.

venerdì 13 giugno 2025

Grafici a barre (barplot) con ggplot

I grafici a barre (bar plot o barplot) si possono realizzare impiegando le funzioni base di R [1]. Tuttavia con il pacchetto ggplot2 si possono ottenere risultati molto interessanti, qui illustrati con tre script che si aggiungono ad altri già riportati [2] e che, quando si è agli inizi, possono aiutare a familiarizzare con le funzioni di questo pacchetto.

Come trovate riportato nel manuale di riferimento del pacchetto [3] "... Esistono due tipi di grafici a barre: geom_bar() e geom_col() ... geom_bar() rende l'altezza della barra proporzionale al numero di casi in ogni gruppo ... Se volete che le altezze delle barre rappresentino i valori nei dati, usate geom_col() al suo posto".

Oltre al pacchetto ggplot2 [4] dovete accertarvi di avere installato – o dovete scaricare anche – il pacchetto DAAG [5] che contiene il set di dati ais impiegati nell'esempio, il pacchetto RColorBrewer che contiene una serie di palette (raccolte di colori) aggiuntive e il pacchetto gridExtra che consente di combinare i grafici in una sola figura.

Le altezze delle barre rappresentano i valori numerici dei dati

Per questo tipo di rappresentazione si impiega la funzione geom_col(). Copiate e incollate nella Console di R questo script e premete ↵ Invio.

# BARPLOT con ggplot

# barplot semplici

library(ggplot2) # carica il pacchetto per la grafica

library(RColorBrewer) # carica il pacchetto con le palette aggiuntive

library(gridExtra) # carica il pacchetto per combinare i grafici in una sola figura

# genera la tabella con i dati da rappresentare

mydata <- data.frame(loc=c("Milano", "Catania", "Roma"), temp=c(18.3, 26.8, 21.2))

# barplot di base

plot1 <- ggplot(data=mydata, aes(x=loc, y=temp)) + geom_col()

# scambia tra loro gli assi

plot2 <- ggplot(data=mydata, aes(x=loc, y=temp, fill=as.factor(temp))) + geom_col(width=0.6) + ylim(0, 30) + labs(x="Località", y="Temperatura in gradi Celsius") + theme(legend.position="bottom") + scale_fill_discrete(name="°C") + coord_flip()

# riporta i valori numerici in testa alle barre

plot3 <- ggplot(data=mydata, aes(x=loc, y=temp)) + geom_col(width=0.6, fill="steelblue3") + ylim(0, 30) + labs(x="Località", y="Temperatura in gradi Celsius") + scale_x_discrete(limits=c("Milano", "Roma", "Catania")) + geom_text(aes(label=temp), vjust=-0.6, color="black", size=3.2)

# applica alle barre un gradiente di colori

plot4 <- ggplot(data=mydata, aes(x=loc, y=temp, fill=as.factor(temp))) + geom_col(width=0.6) + ylim(0, 30) + labs(x="Località", y="Temperatura in gradi Celsius") + scale_x_discrete(limits=c("Milano", "Roma", "Catania")) + theme_classic() + scale_fill_brewer(palette="Blues") + labs(fill="°C")

# combina i grafici in una sola figura

grid.arrange(plot1, plot2, plot3, plot4, nrow=2, ncol=2)

Dopo avere caricato i pacchetti necessari, sono generati i dati impiegati come esempio (mydata):

loc temp

1 Milano 18.3

2 Catania 26.8

3 Roma 21.2

Per realizzare il primo grafico (plot1) viene impiegata innanzitutto la funzione ggplot() – che inizializza l'oggetto al quale sono collegate con il segno più [+] le successive funzioni, che sviluppano la grafica – che prevede:

→ come primo argomento il nome della tabella che contiene i dati (mydata);

→ come secondo argomento la funzione aes() che specifica di riportare in ascisse (x=) la variabile (fattore) loc che indica la località e in ordinate (y=) la variabile (numerica) temp che riporta la temperatura rilevata espressa in gradi Celsius (°C). Alla funzione ggplot() viene quindi collegata con il segno più [+] la funzione geom_col() che realizza come detto il grafico a barre nel quale le altezze delle barre rappresentano i valori numerici dei dati.

Questa è la struttura base che rimane identica in tutti e quattro i grafici realizzati, che si differenziano tra loro per le personalizzazioni grafiche via via introdotte.

Il secondo grafico (plot2) aggiunge:

→ la colorazione automatica delle barre con un colore diverso per ogni località (fill=loc);

→ la riduzione dell'ampiezza della barre con width=0.6;

→ la personalizzazione della scala delle ordinate che ora va da 0 a 30;

→ la funzione labs() che specifica le etichette delle ascisse e delle ordinate;

→ la funzione theme() che specifica la posizione in basso ("bottom") per la legenda;

→ il titolo °C della legenda con la funzione scale_fill_discrete();

→ la funzione coord_flip() che scambia tra di loro la posizione degli assi.

Nel terzo grafico (plot3):

→ con fill="steelblue3" viene specificato manualmente il colore delle barre;

→ con scale_x_discrete() viene specificato manualmente l'ordine delle barre;

→ con geom_text() in testa a ciascuna barra viene riportata la temperatura corripondente (temp) specificando posizione (vjust), colore (color) e dimensione (size) dei caratteri.

Il quarto grafico (plot4) ricalca il terzo grafico e in aggiunta:

→ con theme_classic() ripristina la struttura classica impiegata nei grafici;

→ con scale_fill_brewer() applica il gradiente di colori della palette Blues;

→ con labs() riporta nella legenda il titolo °C.

Infine con la funzione grid.arrange() i quattro grafici sono combinati in un'unica figura.

Per vedere come lavorare su dati che contengono un fattore di classificazione copiate e incollate nella Console di R questo secondo script e premete ↵ Invio.

# BARPLOT con ggplot

# barplot per una variabile con un fattore

library(DAAG) # carica il pacchetto DAAG che include il set di dati ais

library(ggplot2) # carica il pacchetto per la grafica

library(RColorBrewer) # carica il pacchetto con le palette aggiuntive

library(gridExtra) # carica il pacchetto per combinare i grafici in una sola figura

# calcola sui dati della tabella ais la mediana di hg per sport

hgb <- aggregate(hg~sport, data=ais, median)

hgb # mostra la tabella con i dati da rappresentare

# barplot di base

plot1 <- ggplot(data=hgb, aes(x=sport, y=hg)) + geom_col(fill="steelblue3") + ylim(0, 20) + theme(axis.text.x=element_text(angle=90, hjust=1))

# scambia tra loro gli assi

plot2 <- ggplot(data=hgb, aes(x=sport, y=hg)) + geom_col(width=0.8, fill="steelblue3") + ylim(0, 20) + coord_flip()

# riporta i valori numerici all'interno delle barre

plot3 <- ggplot(data=hgb, aes(x=reorder(sport, -hg), y=hg)) + geom_col(width=0.8, fill="steelblue3") + ylim(0, 20) + geom_text(aes(label=hg), vjust=1.6, color="white", size=2.8) + theme(axis.text.x=element_text(angle=90, hjust=1)) + theme(legend.position="none") + labs(title="Mediana dell'emoglobina \n per sport", x="Sport praticato", y="Emoglobina in g/dL")

# applica alle barre un gradiente di colori

mycolors <- colorRampPalette(brewer.pal(9, "Blues"))(40)[11:20] # porta da 9 a 40 i colori della palette e seleziona i 10 colori da 11 a 20

plot4 <- ggplot(data=hgb, aes(x=reorder(sport, hg), y=hg, fill=as.factor(hg))) + geom_col(width=0.8) + theme_classic() + ylim(0, 20) + geom_text(aes(label=hg), vjust=-0.6, color="black", size=3.2) + theme(axis.text.x=element_text(angle=90, hjust=1)) + theme(legend.position="none") + labs(title="Mediana dell'emoglobina \n per sport", x="Sport praticato", y="Emoglobina in g/dL") + theme(plot.title=element_text(hjust=0.5)) + scale_fill_manual(values=mycolors)

# combina i grafici in una sola figura

grid.arrange(plot1, plot2, plot3, plot4, nrow=2, ncol=2)

Innanzitutto sui dati della tabella ais contenuta nel pacchetto DAAG è calcolata la mediana (median) dell'emoglobina per ciascuno sport (hg~sport), salvandola nella nuova tabella hgb che viene mostrata e che contiene ora i dati da rappresentare:

> hgb # mostra la tabella con i dati da rappresentare

sport hg

1 B_Ball 14.0

2 Field 15.5

3 Gym 13.7

4 Netball 12.7

5 Row 14.7

6 Swim 15.1

7 T_400m 14.8

8 T_Sprnt 15.2

9 Tennis 14.3

10 W_Polo 15.6

Nel primo grafico (plot1):

→ sono impiegati i dati della tabella hg riportando in ascisse sport e in ordinate la mediana hg dell'emoglobina;

→ le barre sono colorate tutte con lo stesso colore, specificato in fill;

→ con la funzione ylim() viene dimensionata la scala delle ordinate da 0 a 20;

→ con theme() le etichette dell'asse delle x sono riportate in verticale (angle=90).

Il secondo grafico (plot2) è identico al precedente a parte il fatto che le barre sono ridotte di ampiezza (width=0.8) e gli assi sono scambiati tra loro con coord_flip() per porre le barre in orizzontale.

Il terzo grafico (plot3) riprende nuovamente il primo con alcune aggiunte e modifiche:

→ le barre sono ordinate ponendo la mediana dell'emoglobina in ordine decrescente (-hg);

→ con geom_text() sono riportate all'interno delle barre (vjust=1.6) in colore chiaro (white), rimpiccolendo lievemente i caratteri (size=2.8), le etichette con i valori (label=hg) della mediana dell'emoglobina;

→ con theme() le etichette dell'asse delle x sono riportate in verticale (angle=90);

→ viene esclusa la rappresentazione della legenda ("none");

→ con labs() sono aggiunti il titolo e le etichette degli assi.

Il quarto grafico (plot4) ripresenta il terzo grafico con poche aggiunte e modifiche:

→ innanzitutto sono portati da 9 a 40 i colori della palette, sono selezionati i 10 colori da 11 a 20, e questi sono memorizzati nell'oggetto mycolors;

→ sono riportati colori diversi per ciascun valore dell'emoglobina con as.factor(hg);

→ viene tolto lo sfondo con theme_classic();

→ le etichette con i valori della mediana dell'emoglobina sono portate all'esterno delle barre (vjust=-0.6) aumentando lievemente la dimensione dei caratteri (size=3.2);

→ con hjust=0.5 il titolo viene centrato;

→ le barre sono riportate nel gradiente di colori memorizzati in mycolors.

Questi sono i quattro grafici risultanti.

Vediamo ora cosa accade quando si desidera realizzare i grafici a barre a partire da una tabella che contiene due fattori, nei quali come nei due casi precedenti le altezze delle barre rappresentano i valori dei dati e quindi è necessario impiegare la funzione geom_col().

Copiate e incollate nella Console di R questo script e premete ↵ Invio.

# BARPLOT con ggplot

# barplot per una variabile con due fattori

library(DAAG) # carica il pacchetto DAAG che include il set di dati ais

library(ggplot2) # carica il pacchetto per la grafica

library(plotrix) # carica il pacchetto per il calcolo dell'errore standard

library(gridExtra) # carica il pacchetto per combinare i grafici in una sola figura

# aggrega i dati calcolando media ed errore standard per sport e per sesso

hg <- aggregate(hg~sport+sex, data=ais, FUN=function(x) c(mean=mean(x), se=std.error(x)))

hg # mostra i dati da rappresentare

media <- hg$hg[,1] # vettore contenente la media

es <- hg$hg[,2] # vettore contenente l'errore standard

# grafico a barre impilate per sport e sesso

plot1 <- ggplot(data=hg, aes(x=sport, y=media, fill=sex)) + geom_col() + theme(axis.text.x=element_text(angle=90, hjust=1)) + ylim(0, 31)

# grafico a barre affiancate per sport e sesso

plot2 <- ggplot(data=hg, aes(x=sport, y=media, fill=sex)) + geom_col(position=position_dodge()) + theme(axis.text.x=element_text(angle=90, hjust=1)) + ylim(0, 31)

# aggiunge i limiti di confidenza al 95% della media

plot3 <- ggplot(data=hg, aes(x=sport, y=media, fill=sex)) + geom_col(position=position_dodge()) + theme(axis.text.x=element_text(angle=90, hjust=1)) + ylim(0, 20) + geom_errorbar(aes(ymin=media-1.96*es, ymax=media+1.96*es), width=0.2, position=position_dodge(0.9)) + labs(title="Media dell'emoglobina ± 1.96 es")

# sostituisce le barre con un tondo centrato sulla media

plot4 <- ggplot(data=hg, aes(x=sport, y=media, fill=sex)) + geom_point(aes(fill=sex), shape=21, size=3, position=position_dodge(0.9)) + theme_classic() + theme(axis.text.x=element_text(angle=90, hjust=1)) + ylim(0, 20) + geom_errorbar(aes(ymin=media-1.96*es, ymax=media+1.96*es), width=0.2, position=position_dodge(0.9)) + labs(title="Media dell'emoglobina ± 1.96 es", x="Sport praticato", y="Emoglobina in g/dL") + scale_fill_discrete(name = "Sesso", labels = c("Donne", "Uomini"))

# combina i grafici in una sola figura

grid.arrange(plot1, plot2, plot3, plot4, nrow=2, ncol=2)

In questo caso dai dati della tabella ais contenuta nel pacchetto DAAG riportiamo la variabile emoglobina suddivisa per sport e per sesso (hg~sport+sex) e ne calcoliamo la media (mean) e l'errore standard (std.error) – quest'ultima funzione richiede il pacchetto plotrix – e questa è la tabella risultante della quale vogliamo rappresentare i grafici a barre:

> hg # mostra i dati da rappresentare

sport sex hg.mean hg.se

1 B_Ball f 13.1307692 0.2434750

2 Field f 14.6285714 0.2579353

3 Gym f 13.6000000 0.4301163

4 Netball f 12.8173913 0.1182301

5 Row f 14.0318182 0.1576871

6 Swim f 13.5666667 0.1943651

7 T_400m f 13.7727273 0.3122036

8 T_Sprnt f 14.1750000 0.2780138

9 Tennis f 13.5285714 0.4144499

10 B_Ball m 15.1416667 0.2661335

11 Field m 16.0250000 0.2322893

12 Row m 15.3866667 0.1835799

13 Swim m 15.5076923 0.1816807

14 T_400m m 15.3055556 0.1941080

15 T_Sprnt m 16.1909091 0.4503442

16 Tennis m 15.6500000 0.7410578

17 W_Polo m 15.5176471 0.1741017

Nel primo grafico (plot1) è riportata la struttura base che impieghiamo:

→ sono riportate le barre che rappresentano la media (media) dell'emoglobina con un colore separato per ciascun sesso (fill=sex);

→ con theme() le etichette dell'asse delle x sono riportate in verticale (angle=90);

→ con la funzione ylim() viene dimensionata la scala delle ordinate da 0 a 31;

→ per tutti gli altri parametri grafici sono lasciati i valori di default per cui abbiamo un grafico a barre impilate che include automaticamente anche una legenda.

Il secondo grafico (plot2) differisce dal precedente solamente per il fatto che, con position=position_dodge(), realizziamo un grafico a barre affiancate.

Nel terzo grafico (plot3):

→ per una miglior visualizzazione viene dimensionata la scala delle ordinate da 0 a 20;

→ con geom_errorbar() si riportano in testa a ciascuna barra, la cui altezza è la media dell'emoglobina, i limiti ±1.96 volte l'errore standard (es) cioè i limiti di confidenza al 95% della media;

→ si aggiunge un titolo.

Il quarto grafico (plot4) ripresenta il precedente ma:

→ sostituisce le barre con un circolo (shape=21) di diametro size=3 posizionato in corrispondenza della media;

→ con theme_classic() toglie lo sfondo;

→ aggiunge agli assi le etichette con una descrizione delle grandezze rappresentate;

→ con scale_fill_discrete() personalizza la legenda.

Questi sono i quattro grafici così realizzati.

Due brevi considerazioni, basate sull'assunto che i grafici possono essere impiegati per fornire una rappresentazione sintetica dei dati, ma che questa non deve mai essere fuorviante:

→ per consentire un confronto dei valori in relazione a un fattore (qui il sesso) è necessario impiegare barre affiancate (in alto a destra), le barre impilate (in alto a sinistra) sono da evitare;

→ è da evitare anche la rappresentazione delle medie sotto forma di barre (in basso a sinistra), in quanto queste danno l'idea di un "continuum" di valori che parte da 0, modi adeguati possono essere (i) la rappresentazione puntiforme qui impiegata (in basso a destra) o in alternativa anche (ii) un grafico a scatola con i baffi [6].

Le altezze delle barre rappresentano i conteggi dei dati

Per questo tipo di rappresentazione si impiega la funzione geom_bar() che realizza grafici a barre nei quali le altezze delle barre rappresentano i conteggi dei dati raggruppati mediante uno o più fattori, di volta in volta specificati. Lo facciamo con tre esempi molto semplici.

Nel primo esempio:

→ viene riportato in ascisse (x=sport) lo sport praticato;

→ per ciascuno sport viene riportata con geom_bar() una barra la cui altezza rappresenta il numero di dati (atleti) conteggiati per lo specifico sport;

→ le barre sono riportate in colore grigio con fill="grey";

→ con theme() le etichette dell'asse delle x sono riportate in verticale (angle=90);

# BARPLOT con ggplot (barplot semplice)

library(DAAG) # carica il pacchetto DAAG che include il set di dati ais

library(ggplot2) # carica il pacchetto per la grafica

# barplot di base

ggplot(data=ais, aes(x=sport)) + geom_bar(fill="grey") + theme(axis.text.x=element_text(angle=90, hjust=1))

Il secondo esempio riprende esattamente il primo ma aggiunge con aes(fil=sex) a ciascuna barra colori differenziati in base alla variabile/fattore sesso (sex): in questo modo viene conteggiato il numero di casi (numero di atleti) separatamente per ciascun sesso, lasciando le barre sovrapposte.

# BARPLOT con ggplot

# barplot sovrapposti, con un fattore

library(DAAG) # carica il pacchetto DAAG che include il set di dati ais

library(ggplot2) # carica il pacchetto per la grafica

# barplot sovrapposti differenziati per sesso

ggplot(data=ais, aes(x=sport)) + geom_bar(aes(fill=sex)) + theme(axis.text.x=element_text(angle=90, hjust=1))

Infine nel terzo esempio, per il resto identico al secondo, aggiungendo position=position_dodge() alla funzione geom_bar() le barre vengono affiancate.

# BARPLOT con ggplot

# barplot affiancati, con un fattore

library(DAAG) # carica il pacchetto DAAG che include il set di dati ais

library(ggplot2) # carica il pacchetto per la grafica

# barplot affiancati differenziati per sesso

ggplot(data=ais, aes(x=sport)) + geom_bar(aes(fill=sex), position=position_dodge()) + theme(axis.text.x=element_text(angle=90, hjust=1))

I tre grafici ottenuti sono qui riportati affiancati, quello del primo script in alto a sinistra, quello del secondo al centro e quello del terzo a destra.

Potete aggiungere ulteriori approfondimenti consultando gli altri post nei quali il pacchetto ggplot2 è stato impiegato [2] o la sua documentazione ufficiale [4].

----------

[1] Vedere i post Grafici a barre (barplot) [1] e Grafici a barre (barplot) [2].

[2] Fate click su ggplot2 nelle Parole chiave o digitate ggplot2 nella casella Cerca nel blog quindi fate click su Cerca.

[3] "There are two types of bar charts: geom_bar() and geom_col() [and] geom_bar() makes the height of the bar proportional to the number of cases in each group ... If you want the heights of the bars to represent values in the data, use geom_col() instead".

[4] Vedere la documentazione e il manuale di riferimento su:

https://cran.r-project.org/web/packages/ggplot2/index.html

[5] Vedere il post Il set di dati ais nel quale trovate anche come caricare i dati della tabella senza impiegare il pacchetto DAAG.

[6] Fate click su grafici a scatola con i baffi nelle Parole chiave.