La statistica descrittiva è la parte della matematica che raccoglie, organizza e sintetizza dati. Permette di descrivere un insieme di osservazioni con tabelle, indici e grafici.
| Concetto | Definizione | Formula / note |
|---|---|---|
| Frequenza assoluta | Numero di volte in cui un dato compare. | Se un valore compare 4 volte, la frequenza assoluta è 4. |
| Frequenza relativa | Rapporto tra frequenza assoluta e numero totale di dati. | ; se e , allora . |
| Frequenza percentuale | Frequenza relativa espressa in percentuale. | ; se , allora . |
| Media aritmetica | Somma di tutti i dati divisa per il numero dei dati. | ; con si ottiene . |
| Moda | Valore che compare più spesso in un insieme di dati. | In , la moda è . |
| Mediana | Valore centrale dopo aver ordinato i dati. | Con , la mediana è ; con 4 dati si fa la media dei due centrali. |
| Quartili | Valori che dividono i dati ordinati in quattro parti. | , , ; coincide con la mediana. |
| Istogramma | Grafico a barre contigue per dati raggruppati in intervalli. | Le barre non hanno spazi; si usa per distribuzioni continue. |
| Diagramma a barre | Grafico a barre separate per confrontare categorie. | Le barre sono distanziate; si usa per dati discreti o qualitativi. |
La statistica descrittiva, cioè il ramo della matematica che organizza e sintetizza dati osservati, serve a leggere grandi insiemi di numeri senza perdere l’informazione essenziale.
Si osserva un gruppo di valori e si cercano regolarità, valori tipici e differenze interne. Pensala come un riassunto ordinato di una classe, di uno sport o di una rilevazione.
Il problema che si risolve è semplice: molti dati, presi uno per uno, raccontano poco. Una sintesi ben fatta permette di capire subito dove si concentrano i valori e quanto sono dispersi.
Un esempio minimo aiuta a capire il senso. Se si registrano i voti , , , , si nota subito che il valore compare spesso e rappresenta bene il gruppo.
La lettura dei dati passa sempre da tre idee: contare quante volte compare ciascun valore, cercare un valore centrale e confrontare i risultati tra loro.
La frequenza di un dato, cioè il numero di volte in cui quel valore compare, permette di trasformare una lista lunga in una tabella compatta.
Si parte dai dati grezzi e si conta ogni valore distinto. In questo modo si capisce subito quali osservazioni sono rare e quali sono comuni.
Per esempio, nei dati si ha , perché il valore compare tre volte.
La frequenza assoluta, cioè il conteggio puro delle occorrenze, è il primo passo della sintesi dei dati.
La frequenza relativa, cioè il rapporto tra frequenza assoluta e numero totale dei dati, misura quanto pesa un valore sul totale.
Se i dati sono e il totale è , allora per si ottiene . Il valore rappresenta quindi metà dei dati.
La frequenza percentuale è la frequenza relativa espressa in percento. Si ottiene moltiplicando per cento il valore relativo.
Nell’esempio precedente, si ha . Questo significa che il valore considerato occupa metà del campione.
La media aritmetica, cioè il valore ottenuto sommando tutti i dati e dividendo per il loro numero, descrive il centro “equilibrato” di un insieme.
Si pensa alla media come a un punto di bilanciamento. Se ogni dato fosse un peso su una bilancia, la media sarebbe il punto in cui la bilancia resta in equilibrio.
Per esempio, con i dati si calcola . Il valore medio coincide con il centro della terna.
Se i dati sono raggruppati in una tabella di frequenze, la somma si ottiene moltiplicando ogni valore per la sua frequenza assoluta.
Per esempio, se i valori sono con frequenza e con frequenza , allora . Si evita così di riscrivere ogni dato singolarmente.
La moda, cioè il valore che compare con maggiore frequenza, individua il dato più comune del gruppo.
Si usa quando interessa il valore più rappresentativo in senso pratico. Per esempio, nei numeri di scarpe o nelle taglie, il dato più frequente è spesso il più utile.
Per i dati la moda è , perché compare due volte e gli altri valori una sola volta.
In alcuni insiemi possono esserci più mode. Se due valori hanno la stessa frequenza massima, la distribuzione è bimodale.
La mediana, cioè il valore centrale dei dati ordinati, divide il gruppo in due parti con lo stesso numero di elementi.
Si ordinano prima i dati dal più piccolo al più grande. Poi si cerca il centro, perché la posizione conta più del valore assoluto dei singoli numeri.
Per esempio, con i dati si ordina la lista: . La mediana è .
Se i dati sono pari di numero, la mediana si ottiene facendo la media dei due valori centrali.
Per esempio, con i dati ordinati i due centrali sono e . Si ottiene .
La differenza tra media, moda e mediana è importante: la media usa tutti i valori, la moda cerca il più frequente, la mediana cerca il centro ordinato.
I quartili, cioè i valori che dividono i dati ordinati in quattro parti uguali, servono a descrivere meglio la distribuzione.
Si usano soprattutto quando interessa sapere come i dati si sparpagliano. La mediana coincide con il secondo quartile.
Per esempio, nei dati ordinati la mediana è tra e , quindi . I quartili inferiori e superiori si leggono allo stesso modo, dividendo la lista in metà.
In questa lezione si citano solo per orientarsi. Un loro studio completo richiede esempi aggiuntivi e una convenzione precisa di calcolo.
Le rappresentazioni grafiche, cioè i disegni che mostrano i dati in forma visiva, aiutano a leggere subito confronto, frequenze e andamenti.
L’idea è simile a una mappa. Una tabella dice i numeri, mentre un grafico mostra le differenze in modo immediato.
L’istogramma, cioè un grafico a rettangoli contigui, rappresenta dati raggruppati in classi e mostra l’altezza o l’area delle barre.
Per esempio, se una classe ha frequenza doppia di un’altra, la sua barra risulta più alta. In un istogramma con classi uguali, l’altezza è direttamente confrontabile.
Il diagramma a barre, cioè un grafico con barre separate, si usa per categorie distinte e non per intervalli continui.
Per esempio, si possono confrontare sport preferiti, mezzi di trasporto o colori preferiti. Le barre non si toccano, perché le categorie non formano un continuo numerico.
[IMMAGINE: Grafico con due parti: a sinistra istogramma di altezze in classi 150-160, 160-170, 170-180 cm con barre contigue e assi etichettati; a destra diagramma a barre con categorie 'calcio', 'basket', 'nuoto' e barre separate, titolo 'Confronto tra grafici'.]
Gli indici di posizione, cioè media, moda, mediana e quartili, servono a dire dove si collocano i dati nel loro insieme.
Una tabella riassuntiva è utile perché mette a confronto significato, uso e vantaggio di ciascun indice senza confonderli.
Per esempio, nei dati si ha media , moda e mediana . I tre indici descrivono aspetti diversi dello stesso insieme.
Si usa la media quando conta l’equilibrio complessivo. Si usa la mediana quando contano gli estremi e si vuole un centro robusto. Si usa la moda quando interessa il valore più comune.
La media aritmetica, cioè la somma di tutti i dati divisa per il loro numero, si indica con .
I simboli sono per i dati e per il numero totale di valori osservati.
Si considerino i dati 6, 7, 8 e 9.
La somma vale , mentre il numero dei dati è .
La media aritmetica è quindi .
La frequenza relativa, cioè il rapporto tra la frequenza assoluta e il numero totale dei dati, si indica con .
Se si vuole la frequenza percentuale, si moltiplica per . In forma percentuale si scrive .
In una classe, 5 studenti scelgono un certo sport su 20 totali.
La frequenza assoluta è e il totale è .
La frequenza percentuale è .
La moda, cioè il valore che compare più spesso, può essere una sola oppure più di una.
Se due valori hanno la stessa frequenza massima, la distribuzione è bimodale. Se i valori sono più di due, si parla di multimodale.
Si considerino i dati 2, 3, 3, 4, 5, 5, 5.
Il valore compare tre volte, più di ogni altro.
La moda della serie è quindi .
La mediana, cioè il valore centrale dei dati ordinati, divide la serie in due parti con lo stesso numero di elementi.
Prima si ordina la serie in senso crescente. Poi si sceglie il valore centrale. Se i dati sono pari, si fa la media dei due centrali.
Si considerino i dati 9, 4, 7, 2 e 8.
Dopo l'ordinamento si ottiene 2, 4, 7, 8, 9.
Il valore centrale è , quindi la mediana è .
Questa relazione non è sempre vera in assoluto, ma aiuta a interpretare distribuzioni asimmetriche.
In una distribuzione simmetrica, media, mediana e moda tendono a coincidere o a essere molto vicine.
I quartili, cioè tre valori che dividono i dati ordinati in quattro parti uguali, sono utili per descrivere la dispersione.
Il secondo quartile coincide con la mediana. Il primo quartile lascia sotto di sé il 25% dei dati. Il terzo quartile lascia sotto di sé il 75% dei dati.
In una serie ordinata di 8 valori, il secondo quartile coincide con il punto centrale tra il quarto e il quinto dato.
Se i due valori centrali sono 6 e 8, la mediana è .
Il secondo quartile è quindi .
L'istogramma, cioè un grafico a rettangoli adiacenti, rappresenta dati raggruppati in intervalli.
L'altezza delle barre dipende dalla frequenza o dalla densità, secondo il tipo di dati e la larghezza delle classi.
Si considerino classi di altezza 10 e frequenze 3, 5 e 2.
Le barre hanno base uguale e altezze proporzionali alle frequenze osservate.
L'istogramma mostra quindi un totale di osservazioni.
Nel diagramma a barre, cioè un grafico con barre separate, ogni barra rappresenta una categoria distinta.
Si usa per confrontare frequenze di categorie non continue, come colori, mezzi di trasporto o preferenze.
Si confrontino le preferenze: calcio 12, basket 7, nuoto 5.
Ogni barra ha altezza pari alla propria frequenza.
La categoria più frequente è il calcio con preferenze.
Si calcoli la media aritmetica, cioè la somma dei valori divisa per il numero dei dati, di questi voti: 6, 7, 8, 6, 9.
I dati sono cinque. L’incognita è la media. Il metodo consiste nel sommare i voti e dividere per 5.
Si sommano i valori: .
Il valore ottenuto, , rappresenta il voto medio del gruppo.
La media è 7{,}2 .
Errore comune: dividere per un numero di dati sbagliato.
Si determinino moda e mediana, cioè il valore più frequente e il valore centrale ordinato, del campione: 2, 3, 3, 5, 8.
I dati sono già ordinati. Si cerca il valore che compare più volte e quello centrale. Il campione ha cinque valori.
Si osserva che compare due volte, mentre gli altri valori compaiono una sola volta.
Il valore centrale è il terzo della lista ordinata: .
La moda è 3, e anche la mediana vale .
Errore comune: scambiare la moda con la mediana quando i valori ripetuti sono vicini al centro.
Si considerino le risposte a un questionario: A, B, A, C, A, B, A, C, B, A. Si calcolino frequenza assoluta, cioè il numero di volte che un dato compare, frequenza relativa e frequenza percentuale del simbolo A.
I dati totali sono 10. L’incognita è la frequenza di A. Il metodo consiste nel contare le occorrenze e poi dividere per il totale.
Il simbolo compare 5 volte.
La frequenza relativa indica la parte del totale. La frequenza percentuale la esprime su 100.
La frequenza relativa di è , cioè il .
Errore comune: confondere la frequenza relativa con la frequenza percentuale.
Si rappresentino i dati di una classe: 3 studenti prendono 6, 5 studenti prendono 7, 2 studenti prendono 8. Si distingua tra istogramma, cioè grafico con barre adiacenti per dati numerici raggruppati, e diagramma a barre, cioè grafico con barre separate per categorie.
[IMMAGINE: Asse orizzontale con i voti 6, 7, 8. Barre verticali separate per il diagramma a barre. A fianco, istogramma con barre adiacenti della stessa altezza corrispondente alle frequenze 3, 5, 2.]
I dati sono discreti. Si leggono le frequenze assolute per ogni voto. Il metodo consiste nel costruire una rappresentazione ordinata.
Per il voto la frequenza è . Per il voto la frequenza è .
Nel diagramma a barre le colonne sono separate. Nell’istogramma le barre risultano attaccate quando i dati sono raggruppati in intervalli.
La rappresentazione corretta mostra con chiarezza la distribuzione dei voti. L’aspetto più alto corrisponde a .
Errore comune: usare un istogramma anche quando i dati sono categorie separate.
Si trovino mediana e quartili, cioè valori che dividono i dati ordinati in parti uguali, del campione: 2, 4, 5, 7, 8, 10, 12.
I dati sono già ordinati e sono sette. Si cerca il valore centrale e poi i valori centrali delle due metà.
La mediana è il quarto valore della lista: .
La metà inferiore è 2, 4, 5. La metà superiore è 8, 10, 12. I quartili centrali sono e .
La mediana è 7, mentre i quartili sono e .
Errore comune: includere la mediana nelle due metà quando si calcolano i quartili.
Calcolare media, moda e mediana come se fossero la stessa cosa.
La media aritmetica si ottiene sommando i dati e dividendo per il loro numero. La moda è il dato più frequente. La mediana è il valore centrale dopo l’ordinamento.
Questi tre indici di posizione, cioè valori che descrivono il centro dei dati, non coincidono in generale. L’errore nasce quando si cerca un solo numero rappresentativo senza distinguere il significato di ciascun indice.
Trovare la mediana senza ordinare prima i dati.
Si ordinano prima i dati in senso crescente. Poi si prende il valore centrale, oppure la media dei due centrali se i dati sono pari.
La mediana dipende dalla posizione, cioè dal posto occupato dai valori nella lista ordinata. Se l’ordine manca, il risultato può essere sbagliato anche con gli stessi dati.
Pensare che la frequenza relativa sia il numero di volte in cui un dato compare.
La frequenza assoluta è il numero di occorrenze. La frequenza relativa è il rapporto tra frequenza assoluta e numero totale dei dati.
La frequenza relativa indica una parte del totale, quindi è un numero compreso tra 0 e 1. Per esempio, 3 occorrenze su 12 dati danno frequenza relativa .
Confondere la frequenza relativa con la frequenza percentuale.
La frequenza percentuale si ottiene moltiplicando la frequenza relativa per .
Le due quantità descrivono lo stesso rapporto, ma con unità diverse. Per esempio, una frequenza relativa di corrisponde al .
Disegnare un istogramma con barre separate e spazi tra una barra e l’altra.
Nell’istogramma le barre sono adiacenti, perché rappresentano classi di valori continui. Nel diagramma a barre, invece, le colonne possono essere separate.
L’istogramma, cioè il grafico delle frequenze per intervalli, serve per dati numerici raggruppati in classi. Lo spazio tra le barre farebbe pensare a categorie distinte e non a intervalli continui.
Usare l’istogramma anche quando i dati sono categorie, come colori o mezzi di trasporto.
Per categorie si usa il diagramma a barre. L’istogramma si usa soprattutto con dati quantitativi raggruppati in intervalli.
La scelta del grafico dipende dal tipo di dato. Se il dato è qualitativo, cioè descrittivo, il diagramma a barre è la rappresentazione più corretta.
La media è la somma di tutti i dati divisa per il numero dei dati. La moda è il valore più frequente. La mediana è il valore centrale dopo l’ordinamento.
La media risente di tutti i valori. La moda descrive il dato più comune. La mediana è utile quando i dati estremi alterano il confronto.
La mediana si calcola ordinando i dati dal più piccolo al più grande e scegliendo il valore centrale.
Per esempio, con i dati 2, 5, 7, 9, la mediana è .
La frequenza relativa è il rapporto tra la frequenza assoluta di un dato e il numero totale di dati.
Per esempio, se un valore compare 3 volte su 20 dati, la frequenza relativa è , cioè 15%.
L’istogramma è un grafico a rettangoli adiacenti che rappresenta dati quantitativi raggruppati in intervalli.
L’altezza di ogni rettangolo è proporzionale alla frequenza della classe. Si usa molto per confrontare distribuzioni di dati.
La frequenza assoluta si calcola contando quante volte compare un valore in un insieme di dati.
Per esempio, nella serie 2, 4, 2, 5, 2, il valore 2 ha frequenza assoluta .
La moda è il valore che compare più spesso in un insieme di dati.
Per esempio, nella serie 1, 3, 3, 4, 6, la moda è . Se più valori hanno la stessa frequenza massima, la distribuzione è bimodale o multimodale.
Una tabella delle frequenze si legge confrontando ogni valore con la sua frequenza assoluta, relativa e percentuale.
La frequenza percentuale si ottiene moltiplicando la frequenza relativa per . Per esempio, corrisponde a .