|
I valori caratteristici tipici delle distribuzioni in categorie
ordinate, determinati tenendo conto sia delle frequenze sia dell'ordine
delle categorie, sono gli indici posizionali.
Il più semplice e noto di questi valori è
la mediana.
La mediana si definisce come la modalità cui appartiene
il caso che divide in due metà uguali la distribuzione delle frequenze
assolute, quando in essa le modalità siano state ordinate dalla
più bassa alla più alta o viceversa.
È un valore molto meno sensibile della media ai
valori estremi della distribuzione e infatti dà informazioni più
attendibili in presenza di distribuzioni asimmetriche.
Data una distribuzione contenente n casi, il numero
d'ordine della posizione centrale è dato da (n+1)/2. Se n
è dispari, ad esempio è uguale a 135, tale numero d'ordine
è pari a (135+1)/2, cioè la posizione 68. Se n è
pari il valore mediano corrisponde a qualunque numero reale tra i valori
nelle posizioni n/2 ed (n/2)+1.
Se n = 136 la mediana sarà tra la posizione
136/2=68 e (136/2)+1=69.
Un altro metodo per calcolarla divide le serie a seconda
se n è pari o dispari. In una serie con numero di casi dispari,
la mediana è semplicemente il numero di mezzo. Così per la
serie 2, 4 e 7 è 4. Quando la serie ha un numero di casi pari, mancando il
numero centrale, la mediana sarà la media dei due valori centrali:
nella serie di 2, 4, 7 e 12, la mediana sarà (4+7)/2=5,5.
Si definisce rango il numero di ordine assegnato ad ogni caso dopo avere ordinato l'intera distribuzione. Ad esempio nella serie 2, 4, 7, 12, l'osservazione "2" ha rango 1, l'osservazione "4" ha rango 2, l'osservazione "7" ha rango 3, l'osservazione "12" ha rango 4.
Proprietà della mediana
La somma dei valori assoluti degli scarti
dalla mediana è più bassa della somma dei valori assoluti
degli scarti da un qualsiasi altro valore.
Facciamo un esempio. I numeri 1, 2, 3, 7, 8, 9, 12 hanno una
mediana uguale a 7 e una media uguale a 6.
La mediana rende minima la somma dei valori assoluti
degli scarti da essa.
La somma dei valori assoluti degli scarti dalla media
è:
5 + 4 + 3 + 1 + 2 + 3 + 6 = 24.
Dalla mediana:
6 + 5 + 4 + 0 + 1 + 2 + 5 = 23.
Tuttavia l'informazione che la mediana fornisce
sulle distribuzioni di dati è a volte ingannevole. Si osservino
ad esempio queste due serie:
A: 3 4 15 16 17 (media:11)
B: 13 14 15 31 32
(media:21)
La mediana di entrambi è 15, ma le serie sono
profondamente differenti.
Può anche accadere che due serie di cifre nel
complesso simili abbiano due mediane molto differenti, come nelle due serie
C e D:
C: 3 4 5 7 30
31 32 (media: 16)
D: 3 4 5 28 30 31
32 (media:19)
In entrambi gli esempi, confrontando le medie anziché
le mediane, avremmo avuto un'idea più corretta della differenza
tra le due serie.
Mentre la mediana rileva quella che in statistica si dice
la tendenza centrale di una distribuzione, altri valori caratteristici
posizionali rilevano la sua dispersione attorno a questa tendenza
centrale; di questi indici i più usati sono i due quartili.
I quartili sono quei valori che dividono la distribuzione
in quattro parti, in modo che il primo quartile sia quel valore che supera
il 25% della distribuzione ed è superato dal 75%, il secondo sia
il valore che divide la distribuzione in due parti uguali (e quindi il
secondo quartile coincide con la mediana), il terzo sia quel valore superato
dal 75% della distribuzione. I percentili seguono la stessa logica e cambiano
solo le parti in cui viene divisa la distribuzione, non più quattro,
ma cento, in cui la mediana, coincidente con il cinquantesimo percentile,
è quel valore che supera il 50% della distribuzione ed è
superata dall'altro 50%. Deve risultare chiaro che la mediana e i quartili
sono misure di tendenza centrale applicabili alle variabili categoriali
ordinate, dal momento che per queste ultime non si può utilizzare
la media. La media infatti serve solo nel caso di variabili quantitative,
ossia misurabili almeno su livello di scala di intervalli. Non avrebbe
infatti alcun senso calcolare la media aritmetica su una distribuzione
di frequenze di una variabile quale il titolo di studio.
Supponiamo infatti di avere una distribuzione di questo
tipo:
| Titolo di studio |
% |
| nessuno |
17 |
| lic. elementare |
24 |
| lic. media |
29 |
| diploma |
23 |
| laurea |
7 |
La variabile titolo di studio è,
come abbiamo già detto precedentemente, una variabile categoriale
ordinata. Risulterà chiaro, quindi, che calcolare la media aritmetica
tra le modalità nessuno, licenza elementare, licenza media, diploma
e laurea non avrebbe molto senso, come non lo avrebbe il calcolare la media
tra le percentuali delle modalità prese in esame.
Ha invece un suo logico significato individuare la modalità
cui corrisponde la frequenza maggiore (moda) e la modalità
che divide la distribuzione di frequenze in due parti tra loro uguali (mediana).
In una distribuzione perfettamente simmetrica media, moda
e mediana coincidono.
|