Questa pagina non ha la pretesa di essere esaustiva, ma ha lo scopo di fornire all’appassionato i concetti di base relativi agli strumenti statistici elementari utilizzati nella verifica delle previsioni meteorologiche numeriche.
Possiamo distinguere innanzitutto il caso di variabili continue (come ad esempio i valori della temperatura a 2 mt, o dell’intensità del vento a 10 mt) dal caso in cui le variabili previste sono di tipo categorico, come negli eventi "dicotomici" (vero/falso, ad esempio per l'evento "precipitazione superiore ad una soglia prefissata").
1. Verifica di variabili continue
La verifica di previsioni di variabili continue si effettua, in generale, identificando quale errore della corsa del modello la valutazione della differenza (o scarto) tra i valori previsti e quelli osservati della grandezza fisica, esaminata in un campione statistico rappresentativo ed omogeneo. Questo può avvenire sui punti del grigliato geografico utilizzato dal modello, oppure su un insieme di località per le quali si conosce il valore esatto delle osservazioni, come tipicamente accade per le stazioni della rete osservativa.
Il diagramma di dispersione (scatter-plot, in inglese) è una delle forme grafiche più immediate ed utili per visualizzare i risultati delle verifiche sulle variabili continue. In ascisse è rappresentata la variabile prevista, in ordinata la medesima come realmente osservata. Come è facile immaginare più la previsione è precisa più queste devono essere vicine: la diagonale a 45° del grafico corrisponde al caso ideale di osservazione esattamente uguale alla previsione, ovvero di previsione in linea di ipotesi perfetta. Nelle situazioni reali, quanto più l’insieme dei punti si trova raccolto intorno alla diagonale, tanto migliore è il risultato. L’utilizzo di questo tipo di rappresentazione, consente con immediatezza di valutare l’esistenza di eventuali sottostime o la sovrastime delle variabili, oppure di scostamenti sistematici (bias) o di sensitività dei modelli.
Tra gli indici (score) più comunemente utilizzati troviamo, quale stima dello scarto tra i valori previsti dal modello numerico e quelli osservati dalla stazione meteorologica, la radice dello scarto quadratico medio (in inglese Root Mean Square Error, RMSE). La formula matematica che definisce l’indice RMSE è riportata in bibliografia. In sostanza, si calcola il quadrato della differenza tra i valori previsti ed i corrispondenti osservati, si effettua quindi la media sul campione e si estrae infine la radice quadrata. Poiché tali differenze sono pesate al quadrato prima dell'operazione di media, il RMSE fornisce un contributo significativo agli scostamenti grandi in valore assoluto. Per questo l’RMSE è una grandezza positiva, ma è orientata negativamente (nel senso che i valori più bassi sono migliori) ed è l’indice più comunemente utilizzato per diagnosticare variazioni degli errori in un insieme di previsioni.
2. Verifica di previsioni categoriche
Per variabili previste di tipo categorico, come gli eventi "dicotomici" (vero/falso, ad es. per l'evento "precipitazione superiore ad una soglia prefissata"), si definisce invece la cosiddetta tabella di contingenza (contingency table, in inglese) che per un campione di dati, riporta la frequenza di previsioni ed osservazioni per ciascuno dei casi possibili (vero/falso).
Le quattro combinazioni di casi previsti (vero o falso) e osservati (vero o falso), che costituiscono le cosiddette distribuzioni congiunte (joint distributions), sono chiamate rispettivamente (usando la terminologia in inglese):
La tabella di contingenza rappresenta uno strumento utile all'analisi degli errori commessi nel processo prognostico. Un ideale sistema perfetto di previsioni produrrebbe soltanto "hits" e "correct negatives", senza "misses" né "false alarms".
A partire dagli elementi in tabella, possono essere calcolati opportuni indici statistici per descrivere particolari aspetti della performance del sistema di previsioni. Tra essi, l'accordo a posteriori (in inglese post agreement, PAG), definito come il rapporto hits / (hits + false alarms) ed espresso tipicamente in valori percentuali, fornisce una mmisura della frazione dei casiprevisti con successo sul totale di casi previsti dal sistema prognostico.
Per approfondimenti ulteriori sull'argomento si può visitare il sito