|
Sia nel campionamento per quote (stima della media) che per proporzioni (stima della proporzione di un carattere qualitativo nella popolazione), aumentando la numerosità del campione la distribuzione campionaria diventa più stretta; è possibile definire la quantità come scarto tipo campionario, ovvero lo scarto tipo della distribuzione campionaria.
Tale scarto tipo:
- cresce al crescere dello scarto tipo della popolazione di partenza
- diminuisce al crescere della numerosità campionaria.
Numerosità campionaria ottimale per la stima di una media
Se stiamo stimando una media e la distribuzione campionaria è normale (quindi stiamo lavorando con più di trenta casi) vale, come abbiamo visto nel paragrafo precedente, la diseguaglianza:
dove:
= media stimata a partire dal campione estratto
µ = media della popolazione
z = costante (corrispondente al valore della variabile casuale normale standardizzata)
che dipende dal livello di fiducia desiderato per la stima
= scarto tipo campionario
Da questa diseguaglianza, con opportuni passaggi algebrici che qui tralasciamo, otteniamo la relazione fondamentale del campionamento:
dove:
N: è la numerosità della popolazione
2: varianza della popolazione
: errore assoluto ammesso per la stima del parametro
z: costante (corrispondente al valore della variabile casuale normale standardizzata) che dipende dal livello di fiducia desiderato per la stima
Questa è la formula di base per ricavare la numerosità ottimale di un campione a partire dalla numerosità della popolazione, dall'errore ammesso, dal livello di fiducia desiderato per la stima, dalla varianza della popolazione, nel caso di estrazione esaustiva (estrazione in blocco o estrazione senza reimmissione). Se l'estrazione non è esaustiva (cioè con reimmissione) o la popolazione si può considerare infinita (N molto grande), la numerosità della popolazione non influenza la numerosità campionaria ottimale e la formula diventa:
N scompare dalle formule perchè, quando compio un'estrazione con reimmissione, posso estrarre infiniti campioni (anche se i campioni distinti saranno solo Nn).
Partendo dalla formula basilare del campionamento (la 1) possiamo vedere come la variazione dei parametri (numerosità della popolazione, varianza della popolazione, errore ammesso) incida sulla numerosità campionaria ottimale. In figura 5 si vede come al crescere della numerosità della popolazione la numerosità ottimale del campione tenda asintoticamente al valore definito dalla relazione 2.

Fig. 5 - Relazione tra numerosità della popolazione e numerosità del campione (varianza della popolazione uguale a 100, errore ammesso uguale a 1)
Sono pertanto sufficienti campioni di poche centinaia di casi per definire stime molto precise anche su popolazioni di milioni di casi. Un andamento simile ha la relazione tra numerosità del campione e varianza della popolazione (figura 6).
In presenza di popolazioni molto eterogenee, dove tutti i casi sono diversi dagli altri e quindi la varianza è molto alta, l'unica buona strategia è non campionare ma studiare tutti i casi della popolazione. L'operazione di campionamento, laddove fatta correttamente dovrebbe quindi consistere in una sorta di riduzione della ridondanza di informazione, ovvero dove sono presenti più soggetti omogenei nella popolazione (cioè con bassa varianza tra di loro) è possibile includere un numero più basso di essi nel campione (assegnando a ciascuno un peso proporzionale all'effettiva presenza di quella tipologia di soggetti nella popolazione) senza introdurre grosse distorsioni.

Fig. 6 - Relazione tra varianza della popolazione e numerosità del campione (numerosità della popolazione uguale a 1000, errore ammesso uguale a 1)
L'errore della stima vale zero se lavoriamo sull'intera popolazione (figura 7). Al
diminuire della numerosità campionaria cresce lentamente fino a frazioni di
campionamento (n/N) di 1/10 e da qui in poi più rapidamente.

Fig. 7 - Relazione tra errore ammesso e numerosità del campione (numerosità della popolazione uguale a 1000, varianza della popolazione uguale a 1)
Come si può vedere anche dai grafici, le formule (1) e (2) danno la numerosità campionaria minima per ottenere quel valore di errore della stima dato il livello di fiducia desiderato, la varianza e la numerosità della popolazione.
Aumentando tale numerosità l'effetto sarà di restringere il margine di errore (intervallo di fiducia) della stima.
Numerosità campionaria ottimale per la stima di una proporzione
Se stiamo stimando una proporzione la formula di calcolo della numerosità campionaria sarà:
dove:
N = numerosità della popolazione
z = valore della variabile casuale normale standardizzata per il livello di fiducia desiderato
= errore ammesso per la stima del parametro
p = proporzione da stimare nella popolazione da studiare, conviene mettersi nella situazione più svantaggiosa, ovvero p=0,5 per il quale il valore di n diventa elevato)
q=1-p
Per N grande (popolazione infinita) diventa:
|