και επαλήθευση προσομοιώσεων Σχολή Ναυτικών Δοκίμων Σχολή Ναυτικών Δοκίμων – Τομέας Μαθηματικών Naval Academy of Greece – Section of Mathematics Στατιστική ανάλυση και επαλήθευση προσομοιώσεων Γεώργιος Γαλάνης Τομέας Μαθηματικών Σχολή Ναυτικών Δοκίμων ggalanis@hna.gr
Σφάλματα – Αβεβαιότητα Προσομοιώσεων Τόσο τα αριθμητικά-υπολογιστικά όσο και τα στατιστικά μοντέλα προσομοιώσεων είναι πιθανόν, ιδιαίτερα σε απαιτητικές συνθήκες, να εμφανίσουν συστηματικά ή μη σφάλματα Δημιουργείται έτσι μία αντίστοιχη αβεβαιότητα-ρίσκο στις παρεχόμενες προγνώσεις Βασικοί λόγοι : Προβλήματα στην πλήρη παραμετροποίηση φυσικών ή άλλων διεργασιών Δυσκολία των μαθηματικών/φυσικών μοντέλων να προσομοιώσουν φαινόμενα που εξελίσσονται σε μικρότερη κλίμακα από την διακριτική ακρίβεια του συστήματος (sub-grid phenomena) Έλλειψη ενός πυκνού δικτύου παρατήρησης δεδομένων που θα μπορούσε να χρησιμεύσει για τις αρχικές και οριακές συνθήκες των εξισώσεων
Σφάλματα – Αβεβαιότητα Προσομοιώσεων Αντιμετώπιση των σφαλμάτων μοντελοποίησης Ποσοτικοποίηση των αποκλίσεων Με χρήση στατιστικών δεικτών Σε διαφορετικούς χρονικούς και χωρικούς ορίζοντες Αποκωδικοποίηση των σφαλμάτων Συστηματικά ή μη Εξαρτώμενα από τον συγκεκριμένο χώρο ή χρόνο … Χρήση τεχνικών βελτιστοποίησης για τη διόρθωσή τους Στατικές – μεγάλου ιστορικού προσεγγίσεις Δυναμικές μέθοδοι
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Ποσοτικοποίηση των αποκλίσεων – Δείκτες Μέσο σφάλμα (Bias) 1 𝑁 𝑖=1 𝑁 𝑜𝑏𝑠 𝑖 −𝑚𝑜𝑑 𝑖 𝑚𝑜𝑑 𝑖 : η τιμή του μοντέλου στο βήμα i 𝑜𝑏𝑠 𝑖 : η αντίστοιχη παρατήρηση Ν: Μέγεθος του δείγματος Πρόκειται για ένα βασικό μέτρο απόκλισης που δίνει τη συστηματικότητα ή όχι των παρατηρούμενων αποκλίσεων: Μεγάλο θετικό Bias Συστηματική υποεκτίμηση του μοντέλου Μεγάλο αρνητικό Bias Συστηματική υπερεκτίμηση του μοντέλου Bias κοντά στο μηδέν πολύ μικρά ή μη συστηματικά σφάλματα
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Ποσοτικοποίηση των αποκλίσεων – Δείκτες Μέσο απόλυτο σφάλμα (Absolute Bias) 1 𝑁 𝑖=1 𝑁 𝑜𝑏𝑠 𝑖 −𝑚𝑜𝑑 𝑖 𝑚𝑜𝑑 𝑖 : η τιμή του μοντέλου στο βήμα i 𝑜𝑏𝑠 𝑖 : η αντίστοιχη παρατήρηση Ν: Μέγεθος του δείγματος Δίνει την μέση τιμή των απόλυτων παρατηρούμενων αποκλίσεων. Πλεονέκτημα: Δεν αλληλοαναιρεί θετικές – αρνητικές αποκλίσεις Μειονέκτημα: Δεν δίνει τον τύπο του σφάλματος (υπο/υπερ εκτίμηση) Πρέπει να χρησιμοποιείται σε συνδυασμό με το Μέσο Σφάλμα
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Ποσοτικοποίηση των αποκλίσεων – Δείκτες Μέσο τετραγωνικό σφάλμα (Root Mean Square Error - RMSE) 1 𝑁 𝑖=1 𝑁 (𝑜𝑏𝑠 𝑖 −𝑚𝑜𝑑 𝑖 ) 2 𝑚𝑜𝑑 𝑖 : η τιμή του μοντέλου στο βήμα i 𝑜𝑏𝑠 𝑖 : η αντίστοιχη παρατήρηση Ν: Μέγεθος του δείγματος Μέτρο της απόλυτης απόκλισης. Δίνει εκτίμηση και για τη διασπορά του σφάλματος
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Ποσοτικοποίηση των αποκλίσεων – Δείκτες Ο συντελεστής απόδοσης Nash-Sutcliffe (NS) 1− 𝑖=1 𝑁 (𝑜𝑏𝑠 𝑖 −𝑚𝑜𝑑 𝑖 ) 2 𝑖=1 𝑁 (𝑜𝑏𝑠 𝑖 − 𝑜𝑏𝑠 ) 2 𝑚𝑜𝑑 𝑖 : η τιμή του μοντέλου στο βήμα i 𝑜𝑏𝑠 𝑖 : η αντίστοιχη παρατήρηση 𝑜𝑏𝑠 : η μέση τιμή των παρατηρήσεων Μέτρο σύγκρισης της απόδοσης του μοντέλου με κάποιο μοντέλο αναφοράς: εδώ την μέση παρατηρούμενη τιμή NS = 1 μοντέλο με μηδενικό σφάλμα NS = 0 μοντέλο ισοδύναμο με το μοντέλο αναφοράς NS < 0 μοντέλο χειρότερο από το μοντέλο αναφοράς
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης XY – scatter plots, έλεγχος γραμμικής συσχέτισης Γραφική αναπαράσταση των τιμών του μοντέλου και των αντίστοιχων παρατηρήσεων Σύγκριση με την διαγώνιο y=x στην οποία επιτυγχάνεται η απόλυτη ταύτιση Συντελεστής γραμμικής συσχέτισης (Pearson): R= S 𝑥𝑦 S 𝑥 S 𝑦 = 𝑖=1 𝑁 (𝑥 𝑖 − 𝑥 )(𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑁 (𝑥 𝑖 − 𝑥 ) 2 ∙ 𝑖=1 𝑁 (𝑦 𝑖 − 𝑦 ) 2 όπου 𝑥 = 1 𝑁 𝑖=1 𝑁 𝑥 𝑖 , 𝑦 = 1 𝑁 𝑖=1 𝑁 𝑦 𝑖 , οι μέσες τιμές των συγκρινόμενων παραμέτρων
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης XY – scatter plots, έλεγχος γραμμικής συσχέτισης Συντελεστής γραμμικής συσχέτισης (Pearson): R= S 𝑥𝑦 S 𝑥 S 𝑦 = 𝑖=1 𝑁 (𝑥 𝑖 − 𝑥 )(𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑁 (𝑥 𝑖 − 𝑥 ) 2 ∙ 𝑖=1 𝑁 (𝑦 𝑖 − 𝑦 ) 2 όπου 𝑥 = 1 𝑁 𝑖=1 𝑁 𝑥 𝑖 , 𝑦 = 1 𝑁 𝑖=1 𝑁 𝑦 𝑖 , οι μέσες τιμές των συγκρινόμενων παραμέτρων R = ±1 υπάρχει τέλεια γραμμική συσχέτιση. − 0,3 ≤ R < 0,3 δεν υπάρχει γραμμική συσχέτιση. Αυτό, όμως, δεν αποκλείει άλλου είδους συσχέτιση μεταξύ των δύο μεταβλητών. − 0,5 < R ≤ −0,3 ή 0,3 ≤ R < 0,5 υπάρχει ασθενής γραμμική συσχέτιση. − 0,7 < R ≤ −0,5 ή 0,5 ≤ R < 0,7 υπάρχει μέση γραμμική συσχέτιση. − 0,8 < R ≤ −0,7 ή 0,7 ≤ R < 0,8 υπάρχει ισχυρή γραμμική συσχέτιση. −1 < R ≤ −0,8 ή 0,8 ≤ R < 1 υπάρχει πολύ ισχυρή γραμμική συσχέτιση.
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης XY – scatter plots, έλεγχος γραμμικής συσχέτισης Θετικές τιμές του R δεν υποδηλώνουν, κατ’ ανάγκην μεγαλύτερο βαθμό γραμμικής συσχέτισης. Ο βαθμός γραμμικής συσχέτισης καθορίζεται από την απόλυτη τιμή του R και όχι από το πρόσημό του. Το πρόσημο του R καθορίζει το είδος, μόνο, της συσχέτισης (θετική ή αρνητική). Μας πληροφορεί δηλαδή για το αν αύξηση της μιας μεταβλητής αντιστοιχεί σε αύξηση ή σε μείωση της άλλης
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Ποσοστημόρια Κατανομής δεδομένων Το ποσοστημόριο pα είναι το σημείο της κατανομής για το οποίο το α% των παρατηρήσεων είναι μικρότερες ή ίσες από αυτό και το υπόλοιπο (1-α)% των παρατηρήσεων είναι μεγαλύτερες ή ίσες από αυτό. Ειδικότερα έχουμε: Εκατοστημόρια (percentiles) P1, P2, …, P100 Δεκατημόρια (deciles) P10, P20, … Τεταρτημόρια (quartiles) P25 = Q1, P50 = Q2 = διάμεσος, P75 = Q3
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Σύγκριση κατανομών μέσω των ποσοστημορίων Η σύγκριση της κατανομής των δεδομένων μέσω των αντίστοιχων ποσοστημορίων μπορεί να αποκαλύψει - Την καλή ή όχι συσχέτιση των δεδομένων - Το είδος τυχόν αποκλίσεων (υπο/υπερ εκτιμήσεις) - Τις περιοχές τιμών που υπάρχει καλή ή όχι απόκλιση
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Παράδειγμα 1 Σύγκριση 3 μοντέλων με τις αντίστοιχες παρατηρήσεις Ισχυρή και συστηματική υπερεκτίμηση του 1ου μοντέλου Μη συστηματικά σφάλματα γενικά στο 2ο, στις μεγάλες τιμές όμως εμφανίζεται υπερεκτίμηση Καλύτερη προσαρμογή και μικρότερη αβεβαιότητα στο 3ο
Ποσοτικοποίηση των σφαλμάτων μοντελοποίησης Παράδειγμα 2 Σύγκριση 3 μοντέλων με τις αντίστοιχες παρατηρήσεις Ισχυρή και συστηματική υπερεκτίμηση του 1ου μοντέλου Μη συστηματικά σφάλματα γενικά στο 2ο, αυξημένη μεταβλητότητα του σφάλματος, κακή συμπεριφορά ως προς το μοντέλο αναφοράς Καλύτερη προσαρμογή, μικρότερη αβεβαιότητα και υπεροχή έναντι του μοντέλου αναφοράς στο 3ο