Visualizzazione post con etichetta note. Mostra tutti i post
Visualizzazione post con etichetta note. Mostra tutti i post

giovedì 18 aprile 2024

Multipli e sottomultipli delle unità di misura SI

Statistica significa analisi dei dati, cioè dei risultati di processi di misura espressi in termini di grandezze, di unità di misura e dei loro multipli e sottomultipli

Ho riportato altrove [1] la storia che dalle antiche misure antropomorfe, attraverso la svolta che è seguita alla nascita della scienza moderna, ha condotto anche l'Italia a riconoscere la necessità di adottare un linguaggio delle misure rigoroso e ampiamente concordato e condiviso a livello scientifico, oltre che in grado di risolvere le esigenze pratiche quotidiane, prima con l'adesione nel 1875 al Sistema metrico decimale e successivamente adottando per legge nel 1982  il Sistema internazionale di unità (SI) che ne rappresenta la moderna evoluzione [2].

Così come si trova citato anche nella Appendice 1 della Brochure del SI [3], nel 2022 la 27a CGPM [4] con una delle sue risoluzioni [5] ha aggiunto, ai precedenti, due altri multipli (ronna e quetta) e due altri sottomultipli (ronto e quecto), quindi per indicare multipli e sottomultipli delle unità di misura nel SI sono ad oggi previsti i prefissi, i simboli e i corrispondenti fattori di moltiplicazione riportati in questa tabella:


Lo scopo è evidente: se il numero di cifre diventa eccessivo e si trova ostica per l'uso corrente e non si vuole impiegare la notazione scientifica [6], ma si preferisce esprimere in forma verbale i numeri superiori al milione, i prefissi SI consentono di evitare la trappola delle denominazioni che in tutta Europa con la scala lunga [7], e negli USA e in molti altri Paesi con la scala corta, prevedono di impiegare gli stessi termini per indicare numeri completamente diversi, come qui evidenziato,


un fatto che determina confusione e possibili errori nella interpretazione dei numeri espressi in forma verbale quando questi sono riportati da una lingua all'altra [8].

Pertanto – giusto per fare un esempio – per la constatazione che "... as of April 2024 Apple has a market cap of $2.547 Trillion..." [9] è opportuno precisare che i 2.547 trilioni di dollari di capitalizzazione dell'Apple sono espressi nella scala corta dei Paesi anglosassoni, e quindi sono 2.547 ∙ 10¹² dollari, e non sono i 2.547 ∙ 10¹⁸ dollari corrispondenti ai trilioni della scala lunga.

Invece nessun dubbio vi può essere nel caso della larghezza di banda espressa in bit (b) di una rete a 100 Mb/s (100 megabit al secondo ovvero 100 ∙ 10⁶ bit al secondo) e della capacità espressa in byte (B) di una RAM di 16 GB (16 gigabyte ovvero 16 ∙ 10⁹ byte) o di un hard-disk di 4 TB (4 terabyte ovvero 4 ∙ 10¹² byte), dato il significato univoco dei prefissi SI.  


----------

[1] Grandezze e unità di misura. Breve storia dall'antichità al Sistema Internazionale di Unità (SI). Vedere il post:
https://impararfacendo.blogspot.com/2020/10/grandezze-e-unita-di-misura.html
Il testo può essere liberamente scaricato (e senza pubblicità diretta nè occulta) da questi siti
https://www.academia.edu/41041923/
https://books.google.it/books?id=GciVDwAAQBAJ
come pure dal mio sito personale
https://www.bayes.it/SI.pdf

[2] I riferimenti normativi completi altre che nel testo citato sono riportati  nel  post Scale nominali, scale ordinali e scale numeriche.

[3] SI Brochure: The International System of Units (SI) – 9a edizione, 2019.
https://www.bipm.org/en/publications/si-brochure

[4] Sigla della "Conferenza Generale dei Pesi e delle Misure", in sostanza il parlamento attraverso il quale si esprimono in tema di misure gli Stati che hanno adottato il SI.

[5] Vedere: Resolution 3 of the 27th CGPM (2022). On the extension of the range of SI prefixes. The General Conference on Weights and Measures (CGPM), at its 27th meeting.
https://www.bipm.org/en/cgpm-2022/resolution-3


[7] La scala lunga la si trova riportata anche in Italia nella legislazione, come ad esempio nella tabella a pagina 12 dell'Allegato al DECRETO MINISTERIALE 4 settembre 1996 Attuazione della direttiva 94/55/CE del Consiglio concernente il ravvicinamento delle legislazioni degli Stati membri relative al trasporto di merci pericolose su strada. (GU Serie Generale n.282 del 02-12-1996 - Suppl. Ordinario n. 211).


[8] Vedere: Long and short scales
https://en.wikipedia.org/wiki/Long_and_short_scales
 
[9] Dati tratti da: Largest Companies by Market Cap
https://companiesmarketcap.com/

domenica 7 gennaio 2024

Scale nominali, scale ordinali e scale numeriche

Le relazioni che intercorrono tra il tipo di variabile, il processo mediante il quale viene ottenuto il dato, la modalità di espressione del dato e il tipo di scala nella quale il dato viene espresso forniscono la definizione operativa delle scale di misura.

Questa definizione deriva dalla loro definizione metrologica prevista nel Sistema internazionale di unità (SI), che l'Italia nel 1982 ha adottato per legge, aggiornandolo successivamente con le modifiche via via apportate [1].


Le generalità del SI sono riportate nella brochure pubblicata dal Bureau international des poids et mesures (BIPM) [2] mentre il glossario del processo di misura è riportato nel VIM, il Vocabolario Internazionale di Metrologia [3], nel quale le scale di misura sono così definite:
scala di riferimento convenzionale – scala di valori definita mediante un accordo ufficiale [VIM 1.29]
scala ordinale – scala di valori per una grandezza ordinale [VIM 1.28]
scala di valori o scala di misura – insieme ordinato dei valori di grandezze di una data natura, utilizzato per classificare le grandezze di quella natura in ordine crescente o decrescente in base alle loro espressioni quantitative [VIM 1.27]

Quindi la definizione operativa delle scale di misura, a parte semplificare, ma senza cambiarne il senso, la definizione della "scala di riferimento convenzionale" riportandola da un "accordo ufficiale" al caso delle meno burocratiche, universalmente impiegate e più immediatamente intuitive scale nominali, riprende tal quale la definizione delle scale ordinali e semplicemente suddivide le scale numeriche, lasciandone immodificata la definizione metrologica riportata dal VIM, in discrete e in continue in base al processo mediante il quale è ottenuto il dato: conteggio o misura [4]. Questa suddivisione trova ulteriore supporto nel fatto che il processo di conteggio fornisce risultati espressi sotto forma di numeri interi e di una sola unità di misura (“uno”) basata sulla grandezza “numero di entità” che non ha dimensioni [VIM 1.4 e 1.8], mentre il processo di misura fornisce risultati espressi sotto forma di numeri razionali e di differenti unità di misura (metro, secondo, kilogrammo, eccetera) basate su grandezze (lunghezza, tempo, massa e quant’altro) che hanno una dimensione fisica [VIM 1.7]. 

Ma a questo punto la domanda è inevitabile: se esistono definizioni ufficiali, ampiamente condivise e addirittura normate, dalle quali è possibile trarre una definizione operativa piuttosto chiara che le collega ai processi di misura impiegati nella pratica, perché si trova riportato quasi dappertutto che le scale di misura sono classificate in: scale nominali, scale ordinali, scale a intervalli, scale a rapporti ?

La risposta è: per qualche ragione imperscrutabile, probabilmente potenziata dalla disponibilità del copia-e-incolla, un meme è riuscito a moltiplicarsi in modo virale fino ad occupare quasi completamente l'infosfera concernente questo argomento. E senza ragione, senza un razionale.

La proposta di suddivisione in scale nominali, scale ordinali, scale a intervalli, scale a rapporti è riportata in un lavoro del 1946 di S. S. Stevens [5], che proprio all'inizio del lavoro scrive: "PER SETTE ANNI UN COMITATO dell'Associazione britannica per l'avanzamento della scienza ha dibattuto il problema della misurazione. Nominato nel 1932 a rappresentare la Sezione A (Matematica e scienze fisiche) e Sezione J (Psicologia), il comitato è stato incaricato di considerare e riferire sulla possibilità di "stime quantitative di eventi sensoriali", che significano semplicemente: è possibile misurare le sensazioni umane? La riflessione ha portato solo al disaccordo, soprattutto su cosa si intende con il termine misurazione" [6].

La domanda che Stevens si pone "è possibile misurare le sensazioni umane?" sarà pure lecita, ma non si possono avere dubbi "su cosa si intende con il termine misurazione". 

Una misurazione o procedimento di misura consiste nell'esprimere una grandezza in modo quantitativo, mediante un "valore numerico" che è un numero puro uguale al rapporto tra il "(valore della) grandezza (in esame)" e il valore di una grandezza di riferimento ad essa omogenea definita come "unità di misura", ed è quindi 

(valore della) grandezza (in esame) / unità di misura = valore numerico

Corollario: il risultato di una misura ovvero il "(valore della) grandezza (in esame)" è dato dal prodotto di un "valore numerico" per la "unità di misura"

(valore della) grandezza (in esame) = valore numerico · unità di misura

Per indicare il prodotto, rendendo "valore numerico" e "unità di misura" un tutt'uno inscindibile, il simbolo del prodotto [ · ] per convenzione viene sostituito con lo spazio unificatore [7], come avviene ad esempio in 2.5 m, 12 s, 75 kg (unica eccezione sono le unità angolari, per le quali lo spazio tra il valore numerico e il simbolo dell'unità non è previsto, pertanto un angolo verrà riportato, ad esempio, come 41°54'39).

Il lavoro di Stevens è viziato da un errore concettuale di fondo: nel tentativo di "misurare le sensazioni umane" e dare dignità di "misura" ai risultati dei metodi di ricerca in psicologia, ha cercato di adattare alla psicologia "... il termine misurazione..." – che ha e deve avere una definizione univoca – pensando di risolvere il problema con nuove definizioni delle scale di misura, mentre avrebbe dovuto ricercare la "... possibilità di "stime quantitative di eventi sensoriali"..." in una qualche grandezza [VIM 1.1] e nella sua unità di misura [VIM 1.9], perché senza il fondamento di grandezze [misurabili] e delle loro unità di misura, le scale di misura [VIM 1.27] sono una espressione vuota.

Quindi mentre per misura [VIM 2.1] e per tutti gli altri termini che devono essere impiegati per esprimersi correttamente in campo scientifico (ma anche nella vita di tutti i giorni) rimando al SI e alle definizioni del VIM, qui mi limito a rilevare che la forzatura impiegata da Stevens per accreditare le misure in campo psicologico ha determinato solamente confusione terminologica, anticamera della confusione concettuale [8].

Se proprio si vuole ricollegare la definizione di Stevens delle scale di misura – inutile dire che è fortemente sconsigliata anche in campo psicologico, al quale nulla aggiunge rispetto alle scale ufficiali qui trattate: in ogni caso il VIM semplicemente la ignora – alla definizione operativa delle scale di misura in campo scientifico, e con questa alla loro definizione metrologica, basta notare che:
- se i dati sono espressi in una scala numerica discreta possiamo avere: 
[A] quella che Stevens denomina scala a intervalli quando, come accade ad esempio per le date, non sono possibili rapporti (non posso dividere il 28 febbraio per il 2 febbraio) ma posso solamente calcolare l'intervallo che le separa (nel caso specifico 26 giorni); 
[B] quella che Stevens denomina scala a rapporti quando, come accade ad esempio per il numero di auto ferme al semaforo, se prima ne ho contate 5 e dopo ne ho contate 4, oltre a calcolare la differenza posso calcolare anche il rapporto prima-dopo che è 1.25;
- se i dati sono espressi in una scala numerica continua possiamo avere:
[A] quella che Stevens denomina scala a intervalli quando, come accade ad esempio per la temperatura in gradi Celsius (°C), posso dire che tra la temperatura di +20 °C e la temperatura di -10 °C c'è un intervallo di 30 °C, ma non posso dividere la prima per la seconda;
[B] quella che Stevens denomina scala a rapporti quando, come accade ad esempio per la concentrazione del colesterolo nel siero, posso calcolare non solo l'intervallo tra due valori (la mia concentrazione di colesterolo è 220 mg/dL, la tua 110 mg dL, la differenza è di 110 mg/dL) ma anche il rapporto (la mia concentrazione del colesterolo è 2.0 volte la tua).

Questo significa che (tolte le scale nominali e le scale ordinali sulle quali tutti concordano) quelle di Stevens non sono scale di misura ma, nella migliore e proprio nella migliore delle ipotesi, potrebbero (e uso il condizionale) essere considerate un attributo aggiuntivo (ma privo di interesse metrologico) delle scale numeriche. Riprendiamo quindi la nostra definizione operativa delle scale di misura, che trova un fondamento nel SI e nel VIM e che fornisce il razionale su cui si fondano le modalità di rappresentazione grafica e di analisi statistica dei dati.

Il tipo più semplice di scala è rappresentato dalla scala nominale. Corrisponde ai dati della natura più elementare, quella di dati qualitativi per i quali è disponibile solamente una descrizione verbale. Ne sono un esempio la classificazione maschio / femmina, la classificazione dei gruppi sanguigni ABO (O, A, B, AB), dei motori (endotermici, esotermici, elettrici, eccetera), delle specie animali (ad esempio: cane domestico, sciacallo, coyote, lupo, dingo) e così via. La misura più intuitiva e più utilizzata, nel caso della scala nominale, è costituita dalla percentuale (o dalla proporzione o frazione). In questo caso le rappresentazioni che si possono impiegare sono il grafico a torta (pie-chart) e, quando le grandezze da rappresentare sono indipendenti e non costituiscono la parte di un tutto, il grafico a barre (barplot) con le barre staccate e disposte orizzontalmente.

Nel caso di dati qualitativi per i quali è disponibile una descrizione sotto forma di attributo ordinabile si ha a che fare con una scala ordinale. Questo avviene per esempio per la classificazione in neonati, bambini e adulti, nella quale è appropriato applicare un ordinamento crescente per classi di età (neonato < bambino < adulto), per il livello di scolarità (scuola elementare < scuola media < diploma < laurea), eccetera. Un altro esempio è la classificazione per ranghi, nella quale il valore osservato viene trasformato nel corrispondente rango, cioè nel numero della posizione che il dato occupa nella lista ordinata dei dati. Così la classificazione inadeguato / parzialmente adeguato / adeguato / più che adeguato / eccellente può essere trasformata nella classificazione 1 / 2 / 3 / 4 / 5. Per le scale ordinali è possibile utilizzare un grafico a torta (pie-chart) oppure, per valorizzare la possibilità di ordinamento delle classi, un grafico a barre (barplot) con le barre staccate per indicare la discontinuità.

Una scala numerica discreta è tipicamente quella relativa a dati numerici ottenuti mediante operazioni di conteggio e riportati sotto forma di interi o numeri naturali (1, 2, 3, ….). Si prenda ad esempio il conteggio degli eritrociti (globuli rossi) nel sangue. La differenza minima tra due conteggi teoricamente misurabile è rappresentata da un globulo rosso: i dati sono numerici, ma tra l'uno l'altro non esistono valori intermedi. Altri esempi di scala numerica discreta sono il numero di controlli medici effettuati da una donna durante la gravidanza, il numero di insegnanti di ruolo nel liceo vicino a casa, il numero di auto ferme al semaforo e così via. Per le scale numeriche discrete si possono utilizzare un grafico a barre (barplot) con le barre staccate per indicare la discontinuità ma non l'istogramma che è basato sull'ipotesi di continuità dei dati, o anche, nel caso in cui si debbano rappresentare contemporaneamente due variabili, un grafico di dispersione (grafico xy o grafico cartesiano o scatterplot) precisando che i valori compresi tra due interi non hanno un corrispettivo reale.

La scala numerica continua è tipicamente quella impiegata per rappresentare dati numerici ottenuti mediante procedimenti di misura come quelli chimici e quelli fisici e i cui dati sono riportati sotto forma di numeri razionali (1.435, 123.9, 84.327, ...). Esempi ne sono la misura della concentrazione del colesterolo nel sangue, la misura della distanza tra due luoghi, la misura della velocità di un'auto, la misura del peso di una persona e quant'altro. L'intervallo tra due valori può essere suddiviso a piacere, anche se non oltre i limiti del potere di risoluzione degli strumenti di misura, che impongono nella pratica un numero molto limitato di cifre significative. Per le scale numeriche continue è possibile impiegare di volta in volta il classico istogramma, un grafico a linee spezzate come un poligono di frequenza, o ancora un grafico di dispersione (grafico xy o grafico cartesiano o scatterplot) nel caso in cui si debbano rappresentare contemporaneamente due variabili.

Dal punto di vista della statistica, ai dati espressi in forma di scale nominali sono applicabili i test basati sulla enumerazione dei casi (come test chi-quadrato, test di Fisher, test di McNemar), ai dati espressi in forma di scale ordinali sono applicabili in aggiunta i test basati sui ranghi, mentre ai dati espressi in forma di scale numeriche sono applicabili, con la necessaria appropriatezza e le dovute attenzioni, i test basati sulle ipotesi di continuità e gaussianità delle distribuzioni (test parametrici), i test non parametrici e i test basati su modelli bayesiani.

La conclusione? Molto semplice. Siglata per la prima volta a Parigi il 20 maggio 1875 da 17 Stati [9] la Convenzione del metro, che originariamente prevedeva l'impiego del Sistema metrico decimale che si è poi evoluto nel Sistema internazionale di unità, secondo i dati ufficiali forniti dal BIPM all'inizio del 2024 contava 64 Stati Membri [10] e 36 Stati ed economie associati [11].


Considerato che tutte le nazioni più popolose, incluse Cina e India, vi aderiscono, il SI con le sue grandezze e unità di misura è diventato un comune denominatore e un riferimento per miliardi di persone, nella scienza ma anche nella vita quotidiana [12]. 

Tra i documenti che il SI mette a disposizione perché ci si possa avvicinare in modo adeguato al mondo delle misure, il Vocabolario Internazionale di Metrologia riveste un ruolo cruciale: e questo post vuole essere un invito a consultarlo per formare, per informare, per adeguare i nostri modi di riportare i dati ed esprimerci con la necessaria appropriatezza quando parliamo di misure.


Nota bene: in R il separatore delle cifre decimali è il punto (.) e come già riportato altrove questa convenzione per ragioni di omogeneità viene adottata negli script, nei file di dati e nel testo dei post.


----------

[1] Il Sistema Internazionale di unità (SI) diviene legale in Italia nel 1982, le successive modifiche sono recepite nel 2001, nel 2009 e nel 2020, questa è la normativa aggiornata a inizio 2024, che include la correzione riportata a livello comunitario nel 1984:
- DECRETO DEL PRESIDENTE DELLA REPUBBLICA 12 agosto 1982, n. 802. Attuazione della direttiva (CEE) n. 80/181 relativa alle unita' di misura. GU Serie Generale n.302 del 03-11-1982 - Suppl. Ordinario.
https://www.gazzettaufficiale.it/eli/id/1982/11/03/082U0802/sg
- DIRETTIVA DEL CONSIGLIO del 18 dicembre 1984 che modifica la direttiva 80/181/CEE per il ravvicinamento delle legislazioni degli Stati membri relative alle unità di misura.
https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:31985L0001
- DECRETO 29 gennaio 2001. Attuazione della direttiva 1999/103/CE che modifica la direttiva 80/181/CEE sul riavvicinamento delle legislazioni degli Stati membri relative alle unita' di misura. GU Serie Generale n.27 del 02-02-2001 
https://www.gazzettaufficiale.it/eli/id/2001/02/02/001A1152/sg
- DECRETO 29 ottobre 2009. Attuazione della direttiva 2009/3/CE del Parlamento europeo e del Consiglio dell'11 marzo 2009 che modifica la direttiva 80/181/CEE del Consiglio sul riavvicinamento delle legislazioni degli Stati membri riguardo alle unita' di misura. (09A13580). GU Serie Generale n.273 del 23-11-2009 
https://www.gazzettaufficiale.it/eli/id/2009/11/23/09A13580/sg
- DECRETO 7 aprile 2020. Attuazione della direttiva (UE) 2019/1258 della Commissione del 23 luglio 2019 che modifica, ai fini dell'adattamento al progresso tecnico, l'allegato della direttiva 80/181/CEE del Consiglio per quanto riguarda le definizioni delle unita' SI di base.
https://www.gazzettaufficiale.it/eli/id/2020/05/09/20A02529/sg

[2] Tutti i documenti del SI sono in versione bilingue, in francese e in inglese.
Brochure sur le SI: Le Système international d'unités.
https://www.bipm.org/fr/publications/si-brochure
SI Brochure: The International System of Units (SI).
https://www.bipm.org/en/publications/si-brochure

[3] VIM: International Vocabulary of Metrology. Alla pagina: CGM Publications: Guides in Metrology.
https://www.bipm.org/en/committees/jc/jcgm/publications

[4] Nel caso delle scale numeriche la definizione metrologica parla solo di scala di misura e non distingue tra scala numerica continua e scala numerica discreta in quanto quest'ultima viene considerata come caso limite nel quale l'unità di misura è "uno".

[5] S. S. Stevens. On the Theory of Scales of Measurement. Science, New Series, Vol. 103, No. 2684 (Jun. 7, 1946), pp. 677-680. American Association for the Advancement of Science. 
http://www.jstor.org/stable/1671815

[6] "FOR SEVEN YEARS A COMMITTEE of the British Association for the Advancement of Science debated the problem of measurement. Appointed in 1932 to represent Section A (Mathematical and Physical Sciences) and Section J (Psychology), the committee was instructed to consider and report upon the possibility of "quantitative estimates of sensory events"-meaning simply: Is it possible to measure human sensation? Deliberation led only to disagreement, mainly about what is meant by the term measurement".

[7] Lo spazio unificatore non cambia ampiezza e non consente di andare a capo, lasciando quindi l'espressione sempre correttamente impaginata. In ambiente Windows può essere inserito tenendo premuti contemporaneamente i tasti <ctrl> e <shift> e premendo la barra spaziatrice, oppure tenendo premuto il tasto <alt> e digitando 255 sul tastierino numerico, su Mac tenendo premuto il tasto <alt> e premendo la barra spaziatrice.

[8] Non è questa la sede per trattare un tema così complesso e delicato, ma un esempio di come la confusione terminologica possa sfociare in confusione concettuale lo si trova in: Paul C. Price, Rajiv S. Jhangiani, I-Chant A. Chiang, Dana C. Leighton, and Carrie Cuttler. Research Methods in Psychology3rd American Edition
https://opentext.wsu.edu/carriecuttler/
laddove gli autori si chiedono al punto 4.1 "Cosa è la misura?" rispondendo che in psicologia "La misura è l'assegnazioni di punteggi agli individui..." – secondo loro analogamente a come in fisica il risultato di una procedura per il calcolo dell'energia potenziale di un oggetto "... è un punteggio che rappresenta l'energia potenziale dell'oggetto...". Ma si tratta di una affermazione errata e fuorviante in quanto ignora il fatto che per "rappresentare" l'energia potenziale è necessario che il "punteggio" (ma forse sarebbe meglio chiamarlo "valore numerico" [VIM 1.20]) sia associato indissolubilmente alle sue dimensioni fisiche [VIM 1.7] attraverso una grandezza [VIM 1.4 e 1.5] e le relative unità di misura [VIM 1.9]. Mentre quella che un loro punteggio (score) in psicologia "misura se sono loro stessi ad affermare che "... il punto importante qui è che la misurazione non richiede strumenti o procedure particolari. Non è necessario posizionare individui o oggetti sulla bilancia, porre davanti a loro dei regoli graduati o inserire termometri al loro interno. Ciò che richiede è una procedura sistematica per assegnare punteggi a individui o oggetti in modo che tali punteggi rappresentino la caratteristica di interesse o è semplicemente una valutazione da esprimere in una scala nominale o al massimo può essere una quantità esprimibile in una scala ordinale (che il VIM al punto 1.26 definisce come una "quantità definita mediante un procedimento di misurazione convenzionale, per la quale può essere stabilita una relazione di ordinamento totale, secondo la grandezza, con altre quantità dello stesso tipo, ma per la quale non esistono operazioni algebriche tra tali quantità").

[9] Argentina, Austria-Ungheria, Belgio, Brasile, Danimarca, Francia, Germania, Italia, Perù, Portogallo, Russia, Spagna, Svezia e Norvegia, Svizzera, Turchia, Stati Uniti, Venezuela. 
https://www.bipm.org/en/metre-convention

[10] Arabia Saudita, Argentina, Australia, Austria, Belgio, Bielorussia, Brasile, Bulgaria, Canada, Cile, Cina, Colombia, Costa Rica, Corea (Repubblica), Croazia, Danimarca, Ecuador, Egitto, Emirati Arabi Uniti, Estonia, Finlandia, Francia, Germania, Giappone, Grecia, India, Indonesia, Iran (Repubblica Islamica), Iraq, Irlanda, Israele, Italia, Kazakistan, Kenya, Lituania, Malaysia, Marocco, Messico, Montenegro, Norvegia, Nuova Zelanda, Olanda, Pakistan, Polonia, Portogallo, Regno Unito, Repubblica Ceca, Romania, Russia (Federazione), Serbia, Singapore, Slovacchia, Slovenia, Sudafrica, Spagna, Stati Uniti, Svezia, Svizzera, Thailandia, Tunisia, Turchia, Ucraina, Ungheria, Uruguay.
https://www.bipm.org/en/member-states

[11] Albania, Azerbaijan, Bangladesh, Bolivia, Bosnia-Erzegovina, Botswana, Cambogia, CARICOM (la Comunità caraibica), Etiopia, Georgia, Ghana, Hong Kong (Cina), Giamaica, Kuwait, Latvia, Lussemburgo, Malta, Mauritius, Moldavia (Repubblica), Mongolia, Namibia, Macedonia del Nord, Oman, Panama, Paraguay, Perù, Filippine, Qatar, Siria, Sri Lanka, Taiwan, Tanzania, Uzbekistan, Vietnam, Zambia, Zimbabwe. 
https://www.bipm.org/en/associates

[12] Residui di storiche unità non-SI (miglia, acri, galloni, libbre, gradi Fahrenheitpermangono ancora nelle United States Customary Units e nel Sistema Imperiale Britannico, il cui uso è ammesso rispettivamente da USA e Regno Unito accanto al SI ufficialmente adottato.

giovedì 1 dicembre 2022

Inferenza causale in statistica

In passato avevo riportato una breve nota nella quale ricordavo che inferire acriticamente da una correlazione un rapporto causa-effetto è sbagliato [1].

Ora ho aggiunto alla bibliografia [2] il link a un articolo di Judea Pearl nel quale, come indica l'Autore stesso, sono illustrati "... i cambiamenti paradigmatici che devono essere intrapresi nel passaggio dall'analisi statistica tradizionale all'analisi causale di dati multivariati":

Judea Pearl. "Causal inference in statistics: An overview." Statist. Surv. 3 96 - 146, 2009. https://doi.org/10.1214/09-SS057.
https://projecteuclid.org/journals/statistics-surveys/volume-3/issue-none/Causal-inference-in-statistics-An-overview/10.1214/09-SS057.full

Anche se questo è un sito per definizione limitato a fornire un ausilio pratico per il primo utilizzo di R penso che ogni tanto tornare ai fondamenti dell'analisi statistica possa essere interessante e stimolante.

----------

[1] Vedere il post Correlazione e causazione.

[2] Vedere la pagina Bibliografia.

domenica 4 ottobre 2020

Grandezze e unità di misura SI

Se è vero che la statistica è la tecnica che consente di fornire un supporto scientifico alle evidenze fornite dalle misure, ci sono dal punto di vista metodologico, nelle misure, quattro aspetti sull'importanza dei quali non mi stancherò mai di richiamare l'attenzione:
→ i presupposti per l'impiego alternativo di scale nominali, scale ordinali e scale numeriche [1];
→ l'utilizzo di un sistema di unità di misura razionale, documentato e condiviso - oltre che adottato per legge anche in Italia - quale è il Sistema internazionale di unità (SI), applicandone integralmente e senza eccezioni le indicazioni [2, 3];
→ la necessità di arrotondare i risultati al giusto numero di cifre significative [4];
→ il rispetto delle regole per rappresentare i numeri che indicano come separare i decimali e come raggruppare le cifre [5].

Qualcuno potrà obiettare che nell'ambito della statistica si tratta di aspetti marginali. Sarà anche vero: tuttavia sono convinto della necessità di richiamare l'attenzione su questi passaggi in quanto, essendo dati per ovvi, scontati e "intuitivi", senza il minimo di approfondimento che richiederebbero sono ancor oggi fonte di inesattezze tanto banali quanto fastidiose, che possono essere facilmente evitate seguendo le indicazioni delle fonti che ho riportato.

Aggiungo qualche parola in più in merito a grandezze e unità di misura. Discendente diretto del sistema metrico decimale originato dalla rivoluzione francese (fondato su metro e kilogrammo) e del successivo sistema MKSA (fondato su metro, kilogrammo, secondo, ampere e conosciuto anche come Sistema Giorgi in onore del proponente italiano Giovanni Giorgi), il Sistema internazionale di unità (SI), accettato dalla Comunità Economica Europea (CEE) nel 1980 e divenuto legale in Italia nel 1982, il giorno 20 maggio 2019 ha visto cambiare le definizioni di chilogrammo, ampere, kelvin e mole [2]. Lo scopo di questo cambiamento è basare le sette unità di misura fondamentali del SI sulle leggi della fisica, dando loro un fondamento solido, immutabile nel tempo e nello spazio.

Ho riassunto brevemente la storia delle unità di misura, dall'antichità al cambiamento epocale del SI avvenuto il 20 maggio 2019, in un ebook, ovviamente gratuito, disponibile facendo click su questa immagine del logo del nuovo SI


Per scaricare il libro in formato .pdfdopo avere aperto il libro con l'opzione Leggi:
→ fate click sull'iconcina in alto a sinistra per accedere a I tuoi libri dove trovate il libro;
fate click sui tre puntini disposti verticalmente in basso a destra sulla copertina del libro;
fate click su Esporta e infine selezionate Esporta come PDF.




----------


[2] Bureau International des Poids et Mesures. The International System of Units (SI).
https://www.bipm.org/en/measurement-units/

[3] Bureau International des Poids et Mesures. SI Brochure.
https://www.bipm.org/en/publications/si-brochure/


mercoledì 9 gennaio 2019

Normale o gaussiana?

In un sito di statistica il riferimento è evidente: distribuzione normale o distribuzione gaussiana? E di conseguenza: test di normalità o test di gaussianità?

Per basare la risposta su qualche dato oggettivo, anche se di per sé non dirimente, ho effettuato, sul motore di ricerca che rende disponibile anche lo spazio web di questo blog, queste query [1], mettendo il testo all'interno dei doppi apici al fine di effettuare una ricerca "esatta" delle espressioni:

Espressione Numero di risultati
"distribuzione normale"112 000
"distribuzione gaussiana"26 000
"test di normalità" 44 700
"test di gaussianità" 319

Il rapporto tra il numero di risultati dell'espressione "distribuzione normale" e dell'espressione "distribuzione gaussiana" è all'incirca di 4 a 1. Il divario è importante, ma non ancora tale da far sì che il numero dei risultati possa rappresentare il razionale per fare optare decisamente per l'una o per l'altra delle due espressioni.

Ho quindi cercato "normale" su un vocabolario. Per rendere riproducibile e consultabile da chiunque il risultato ho effettuato la ricerca online sul "Vocabolario" della italianissima "Treccani".

Ebbene, nel vocabolario l'espressione "normale" è come prima cosa riferita al punto 1 come "perpendicolare", al punto 2 come "che segue la norma".

Solamente dopo questi due significati principali sono ripresi al punto 3 ed elencati in quanto "... sign. specifici in varie scienze e discipline" gli altri che il termine può avere: da quelli più generali a quelli che in campo scientifico vanno dalla botanica alla chimica, dalla fisica alla matematica e (finalmente) - alla lettera h (cioè ben all'ottavo posto del punto 3) - alla statistica.

L'inflazione di significati attribuiti al termine "normale" e la sua conseguente svalutazione per l'impiego in campo statistico forniscono il razionale per passare all'impiego sistematico dell'espressione "distribuzione gaussiana", che io qui ho ritenuto pertanto di adottare.

Molto diversa invece è la situazione che riguarda i test per verificare il tipo di distribuzione dei dati in esame. Perché se, per analogia con l'aggettivo riferito alla distribuzione, non dovremmo più parlare di "test di normalità" ma dovremmo parlare di "test di gaussianità", questa soluzione pare essere stata adottata in meno dell'1% dei casi. A causa di questo e nonostante vada in senso opposto alla scelta precedente, ho finito per adottare in questo sito l'espressione "test di normalità (gaussianità)" affiancando salomonicamente le due espressioni. Anche se spero che prima o poi la "gaussianità" possa uscire dalla parentesi in cui l'ho dovuta relegare per la necessità di adeguarmi (spero temporaneamente) alla "normalità" [2].


----------

[1] Dati aggiornati al gennaio 2023.

[2] Quanto sia considerato normale, ancora attualmente, nella letteratura scientifica, l'impiego dell'espressione "test di normalità", lo si può desumere anche dai titoli di due recenti lavori sull'argomento:
 Székely, G. J. and Rizzo, M. L. A new test for multivariate normality. Journal of Multivariate Analysis 2005;93;58-80. 
https://www.sciencedirect.com/science/article/pii/S0047259X03002124?via%3Dihub

 Ghasemi A, Zahediasl S. Normality Tests for Statistical Analysis: A Guide for Non-Statisticians. Int J Endocrinol Metab. 2012;10(2);486–489.
https://pmc.ncbi.nlm.nih.gov/articles/PMC3693611/

domenica 16 dicembre 2018

I dati di BMI (indice di massa corporea)

L'indice di massa corporea o BMI [1] viene calcolato come rapporto tra il peso espresso in kg e il quadrato dell'altezza espressa in metri, ed è pertanto espresso in kg/m2. I valori di BMI sono classificati dal punto di vista medico come segue:

Situazione peso
Minimo (kg)
Massimo (kg)
Obesità di III classe (gravissima)
> 40,00

Obesità di II classe (grave)
35,01
40
Obesità di I classe (moderata)
30,01
35
Sovrappeso
25,01
30
Regolare
18,51
25
Leggermente sottopeso
17,51
18,5
Sottopeso
16,01
17,5
Grave magrezza (inedia)
< 16,01



Questi sono i risultati dell'indagine EHIS 2015 come riportati dall'Istat [2].

Tavola 6.1 - Persone di 18 anni e più per Indice di Massa Corporea (in classi), per paese europeo. Anno 2015 (a)
(per 100 persone con le stesse caratteristiche)










PAESI INDICE MASSA CORPOREA Totale
Sottopeso Normale Sovrappeso Obeso






Italia 3,3 51,9 34,1 10,8 100
Unione europea (28 paesi) 2,3 46,1 35,7 15,9 100






Austria 2,4 49,6 33,3 14,7 100
Belgio 2,7 48,0 35,3 14,0 100
Bulgaria 2,2 43,8 39,2 14,8 100
Cipro 3,9 47,8 33,8 14,5 100
Croazia 1,9 40,7 38,7 18,7 100
Danimarca 2,2 50,0 32,9 14,9 100
Estonia 2,2 43,9 33,5 20,4 100
Finlandia 1,2 44,1 36,4 18,3 100
Francia 3,2 49,6 31,9 15,3 100
Germania 1,8 46,1 35,2 16,9 100
Grecia 1,9 41,3 39,4 17,3 100
Irlanda 1,9 42,3 37,0 18,7 100
Lettonia 1,7 41,8 35,2 21,3 100
Lituania 1,9 42,5 38,3 17,3 100
Lussemburgo 2,8 49,3 32,4 15,6 100
Malta 2,0 37,0 35,0 26,0 100
Olanda 1,6 49,0 36,0 13,3 100
Polonia 2,4 42,9 37,5 17,2 100
Potogallo 1,8 44,6 36,9 16,6 100
Regno Unito 2,1 42,2 35,6 20,1 100
Repubblica Ceca 1,1 42,1 37,6 19,3 100
Romania 1,3 42,9 46,4 9,4 100
Slovacchia 2,1 43,6 38,0 16,3 100
Slovenia 1,6 41,8 37,4 19,2 100
Spagna 2,2 45,4 35,7 16,7 100
Svezia 1,8 48,3 35,9 14,0 100
Ungheria 2,9 41,9 34,0 21,2 100






Fonte: Indagine "European Health Interview Survey" - Anno 2015; Eurostat database http://ec.europa.eu/eurostat/data/database.
(a) Gli indicatori sono calcolati escludendo i missing e le risposte proxy.

I dati sono impiegati come esempio in vari post. Trovate link e modalità di download alla pagina Dati, ma potete anche semplicemente copiare i dati riportati qui sotto aggiungendo un ↵ Invio al termine dell'ultima riga e salvarli in C:\Rdati\ in un file di testo denominato bmi.csv (assicuratevi che il file sia effettivamente salvato con l'estensione .csv).

Nazione;sottopeso;normale;sovrappeso;obeso
Austria;2.4;49.6;33.3;14.7
Belgio;2.7;48.0;35.3;14.0
Bulgaria;2.2;43.8;39.2;14.8
Cipro;3.9;47.8;33.8;14.5
Croazia;1.9;40.7;38.7;18.7
Danimarca;2.2;50.0;32.9;14.9
Estonia;2.2;43.9;33.5;20.4
Finlandia;1.2;44.1;36.4;18.3
Francia;3.2;49.6;31.9;15.3
Germania;1.8;46.1;35.2;16.9
Grecia;1.9;41.3;39.4;17.3
Irlanda;1.9;42.3;37.0;18.7
Lettonia;1.7;41.8;35.2;21.3
Lituania;1.9;42.5;38.3;17.3
Lussemburgo;2.8;49.3;32.4;15.6
Malta;2.0;37.0;35.0;26.0
Olanda;1.6;49.0;36.0;13.3
Polonia;2.4;42.9;37.5;17.2
Portogallo;1.8;44.6;36.9;16.6
Regno Unito;2.1;42.2;35.6;20.1
Repubblica Ceca;1.1;42.1;37.6;19.3
Romania;1.3;42.9;46.4;9.4
Slovacchia;2.1;43.6;38.0;16.3
Slovenia;1.6;41.8;37.4;19.2
Spagna;2.2;45.4;35.7;16.7
Svezia;1.8;48.3;35.9;14.0
Ungheria;2.9;41.9;34.0;21.2


----------

[1] Anche in Italia viene usualmente impiegato l'acronimo BMI derivato dall'inglese Body Mass Index.

[2] Prevenzione e stili di vita in Italia e nell'Unione Europea. Indagine EHIS 2015. Tavole. Tavola 6.1 bmi in europa.
https://www.istat.it/tavole-di-dati/prevenzione-e-stili-di-vita-in-italia-e-nellunione-europea-indagine-ehis-2015/