Συστήματα και Επιστήμη Γεωγραφικών Πληροφοριών ΔΕΥΤΕΡΗ ΑΜΕΡΙΚΑΝΙΚΗ ΕΚΔΟΣΗ Paul A. Longley, Michael F. Goodchild, David J. Maguire, David W. Rhind © 2005 John Wiley and Sons, Ltd Επιστημονική επιμέλεια Ελληνικής έκδοσης: Γιάννης Θεοδωρίδης © 2010 Εκδόσεις ΚΛΕΙΔΑΡΙΘΜΟΣ 6. Αβεβαιότητα
Περίγραμμα Ορισμός της αβεβαιότητας, και η σχέση της με τη γεωγραφική αναπαράσταση Σύλληψη, μέτρηση, ανάλυση της αβεβαιότητας Οι έννοιες της αοριστίας και της ασάφειας Στατιστικά μοντέλα της αβεβαιότητας Διάδοση σφάλματος Πώς να ζούμε με την αβεβαιότητα
Εισαγωγή Ο συμβιβασμός του ατελούς ή αβέβαιου [επιστήμη, πρακτική] [αφηρημένες έννοιες, εφαρμογή] [ικανότητα ανάλυσης, κοινωνικά συμφραζόμενα] Είναι αδύνατο να έχουμε μια τέλεια αναπαράσταση του κόσμου, οπότε η αβεβαιότητα είναι αναπόφευκτη
Πηγές αβεβαιότητας Σφάλμα μέτρησης: διαφορετικές παρατηρήσεις, όργανα μέτρησης Σφάλμα προδιαγραφών: μεταβλητές που έχουμε παραλείψει Αμφισημία, αοριστία και η ποιότητα της αναπαράστασης σε ένα GIS Μια συνολική προσέγγιση για τις ‘ατελείς’ αναπαραστάσεις ή ένα μέτρο ‘ποιότητας’
Μια αντιληπτική άποψη της αβεβαιότητας (τρία φίλτρα)
1 ο φίλτρο: Αβεβαιότητα στην αντίληψη Χωρική αβεβαιότητα Φυσικές γεωγραφικές μονάδες; Διμεταβλητές / πολυμεταβλητές επεκτάσεις; Διακριτά αντικείμενα Αοριστία Στατιστική, Χαρτογραφική, Γνωστική Αμφισημία Τιμές, γλώσσα
Κλίμακα και γεωγραφικές μονάδες Περιοχές Ομοιόμορφες ζώνες Λειτουργικές ζώνες Οι συσχετίσεις συνήθως ισχυροποιούνται όταν βασίζονται σε μεγαλύτερες γεωγραφικές μονάδες
Γεωγραφική κατανομή 3 επιθέτων επαγγελματικής προέλευσης – Fuller, Tucker και Walker
Ασαφείς προσεγγίσεις της αβεβαιότητας Στη θεωρία ασαφών συνόλων επιτρέπεται η μερική συμμετοχή σε ένα σύνολο Η συμμετοχή ποικίλει, π.χ. από 0 έως 1 αυτό προσθέτει μια τρίτη εκδοχή στην κατηγοριοποίηση: ‘ναι’, ‘όχι’, και ‘ίσως’ Ασαφείς προσεγγίσεις έχουν εφαρμοστεί σε χαρτογράφηση εδάφους, κάλυψη βλάστησης, χρήση γης
Κλίμακα και χωρική αυτοσυσχέτιση Αρ. γεωγραφικών περιοχώνΣυσχέτιση 480, , , , ,9902
2 ο φίλτρο: Μέτρηση / αναπαράσταση Διαφορετικά μοντέλα αναπαράστασης μοντελοποιούν διαφορετικά την πραγματικότητα Vector μοντέλο Raster μοντέλο
0.9 – – – – 0.1 Η αντίθεση μεταξύ των εννοιών διακριτών αντικειμένων (πάνω) και πεδίων (κάτω) μιας αβέβαιης ακτογραμμής
Στατιστικά μοντέλα αβεβαιότητας: η περίπτωση των ονομαστικών δεδομένων Πώς μπορούμε να μετρήσουμε την ακρίβεια των ονομαστικών δεδομένων; Π.χ. ένας χάρτης με την κάλυψη από καλιέργειες Μήτρα σύγχυσης (confusion matrix) Συγκρίνει τις κατηγορίες-κλάσεις που έχουν καταγραφεί (οι παρατηρήσεις) με τις κατηγορίες που προκύπτουν από μια διαδικασία ή πηγή που θεωρείται ότι έχει μεγαλύτερη ακρίβεια (η αναφορά)
Παράδειγμα μήτρας εσφαλμένης ταξινόμησης ή σύγχυσης. Έγινε έλεγχος σε 304 αγροτεμάτια. Οι γραμμές του πίνακα αντιστοιχούν στη χρήση γης όπως καταγράφηκε στη βάση δεδομένων και οι στήλες του πίνακα αντιστοιχούν στη χρήση γης όπως καταγράφηκε επιτόπου. Οι αριθμοί που εμφανίζοντα στην κύρια διαγώνιο της μήτρας αντιπροσωπεύουν τη σωστή ταξινόμηση. ΑΒΓΔΕΣύνολο Α Β Γ Δ Ε Σύνολο
Στατιστική μήτρας σύγχυσης Σωστά ταξινομημένο ποσοστό (percent correctly classified – PCC) Το σύνολο των στοιχείων στην κύρια διαγώνια δια του ολικού συνόλου 209/304 = 68.8% αλλά η τυχαιότητα θα έδινε σκορ μεγαλύτερο από το 0 Δείκτης κάπα (kappa index) Κανονικοποιημένος ώστε να κυμαίνεται από 0 (τυχαιότητα) σε 100% (απόλυτα επιτυχημένη ταξινόμηση) Στο παράδειγμά μας, δίνει 58.3% Να μπει ο μαθηματικός τύπος εδώ (σελ. 231 βιβλίου)
Δειγματοληψία για τη μήτρα σύγχυσης Η εξέταση καθενός αγροτεμαχίου μπορεί να μην είναι πρακτική λύση Οι κατηγορίες που εμφανίζονται πιο σπάνια πρέπει να δειγματοληπτούνται πιο συχνά ώστε η ακρίβεια που μετράμε να είναι αξιόπιστη Δειγματοληψία στρωματωμένη κατά κατηγορία
Εκτίμηση ακρίβειας ανά-πολύγωνο και ανά-πίξελ Μπορεί να έχουμε σφάλμα τόσο στα χαρακτηριστικά των πολυγώνων όσο και στις θέσεις των συνόρων Καλύτερα να εκλαμβάνουμε το χάρτη ως πεδίο, και να κάνουμε δειγματοληψία σημείων αυτό αντανακλά το πώς αναμένεται να χρησιμοποιηθούν τα δεδομένα, να ρωτάμε δηλαδή τι κατηγορία ισχύει σε συγκεκριμένο σημείο
Ένα παράδειγμα χάρτη βλάστησης. Έχουμε στη διάθεσή μας δύο στρατηγικές εκτίμησης της ακρίβειας: τον έλεγχο ανά επιφάνεια (πολύγωνο) ή τον έλεγχο ανά σημείο. Στην πρώτη περίπτωση πρέπει να βρούμε μια στρατηγική για τον επιτόπιο έλεγχο κάθε έκτασης, ώστε να προσδιορίσουμε τη σωστή κατηγορία της. Στη δεύτερη περίπτωση, πρέπει να πάρουμε δείγματα σημείων από ολόκληρη την πολιτεία και να προσδιορίσουμε τη σωστή κατηγορία σε κάθε σημείο.
Η περίπτωση των ισοδιαστημικών και των αναλογικών δεδομένων Τα σφάλματα επηρεάζουν τις μετρήσεις κατά ένα ποσό Η ακρίβεια μέτρησης (accuracy) αναφέρεται στο ποσό της απόκλισης από την αληθινή τιμή Ακρίβεια τιμής (precision) Αναφέρεται στη διακύμανση μεταξύ επαναλαμβανόμενων μετρήσεων και στο ποσό της λεπτομέρειας που περιέχεται στην αναφορά μιας μέτρησης
Ο όρος ακρίβεια τιμής χρησιμοποιείται συχνά σε σχέση με την επαναληψιμότητα των μετρήσεων. Και στα δύο διαγράμματα έχουν ληφθεί έξι μετρήσεις για την ίδια θέση, η οποία αντιστοιχεί στο κέντρο του κύκλου. Στο αριστερό διάγραμμα, οι διαδοχικές μετρήσεις έχουν παρόμοιες τιμές (παρουσιάζουν υψηλή ακρίβεια τιμής - precision), αλλά δείχνουν μια απόκλιση από τη σωστή τιμή (παρουσιάζουν χαμηλή ακρίβεια μέτρησης - accuracy). Στο δεξί διάγραμμα, η ακρίβεια τιμής είναι μικρότερη αλλά η ακρίβεια μέτρησης μεγαλύτερη.
Αναφορά μετρήσεων Το ποσό της λεπτομέρειας σε μια αναφορά μέτρησης (π.χ. η έξοδος από ένα GIS) πρέπει να αντανακλά την ακρίβεια (τιμής) της Αναφορά “14,4 μ.” υπονοεί ακρίβεια 0,1 μ. Αναφορά “14 μ.” υπονοεί ακρίβεια 1 μ. Η επιπλέον ακρίβεια πρέπει να αφαιρείται με στρογγυλοποίηση
Μέτρηση της ακρίβειας τιμής Root Mean Square Error (RMSE): η τετραγωνική ρίζα του μέσου τετραγωνικού σφάλματος Αποτελεί τη βασική τεχνική μέτρησης ακρίβειας στα πρότυπα χαρτογράφησης και στις γεωγραφικές βάσεις δεδομένων Π.χ., τα υψόμετρα σε ένα ψηφιακό μοντέλο υψομέτρων μπορεί να έχουν RMSE της τάξης των 2 μ. Η αφθονία των διαφορετικών μεγεθών σφαλμάτων συχνά ακολουθεί την κατανομή Γκάους (ή κανονική κατανομή) Να μπει ο μαθηματικός τύπος εδώ (σελ. 234 βιβλίου)
Η κατανομή Γκάους ή Κανονική. Το ύψος της καμπύλης για οποιαδήποτε τιμή του x δίνει τη σχετική αφθονία παρατηρήσεων με τη συγκεκριμένη τιμή του x. Η περιοχή κάτω από την καμπύλη μεταξύ δύο οποιωνδήποτε σημείων του x δίνει την πιθανότητα οι παρατηρήσεις να βρίσκονται σε αυτήν την περιοχή. Η περιοχή της τυπικής απόκλισης μεταξύ –1 και +1 απεικονίζεται με μπλε χρώμα. Περικλείει το 68% του εμβαδού κάτω από την καμπύλη και σημαίνει ότι το 68% των παρατηρήσεων θα βρίσκονται μέσα σε αυτά τα όρια.
Η αβεβαιότητα στη θέση της υσοϋψούς των 350 μ. με ένα τποθετικό RMSE 7 μ. Η κατανομή Γκάους με μέση τιμή τα 350 μ. και τυπική απόκλιση 7 μ. δίνει 95% πιθανότητα η πραγματική θέση της υσοϋψούς των 350 μ. να βρίσκεται στη χρωματίσμένη περιοχή και 5% πιθανότητα να βρίσκεται εκτός. Σχεδίαση της υσοϋψούς των 350 μ. στην περιοχή του State College στην Pennsylvania των ΗΠΑ. Η ισοϋψής έχει υπολογιστεί από το DEM της Υπηρεσίας Γεωλογικής Επισκόπησης των ΗΠΑ.
Ένας χρήσιμος πρακτικός κανόνας για την ακρίβεια θέσης Η ακρίβεια της θέσης των στοιχείων που εμφανίζονται σ’ ένα χάρτη είναι είναι περίπου 0,5mm πάνω στο χάρτη π.χ., 0,5mm σε ένα χάρτη κλίμακας 1: δίνει ακρίβεια θέσης 12μ. περίπου ίσο με το επιτρεπόμενο σφάλμα σύμφωνα Εθνικό Πρότυπο Ακρίβειας Μέτρησης Χαρτών των ΗΠΑ Αυτή η ανοχή μπορεί να καλύψει το σφάλμα ψηφιοποίησης, τη στρέβλωση του χαρτιού, καθώς και άλλες συνήθεις πήγες σφάλματος θέσης.
Κλίμακα χάρτη Απόσταση στο έδαφος που αντιστοιχεί σε απόσταση 0,5 mm πάνω στο χάρτη 1:125062,5 cm 1:25001,25 m 1:50002,5 m 1: m 1: m 1: m 1: m 1: m 1: m 1: km Ένας χρήσιμος πρακτικός κανόνας είναι ότι οι θέσεις που μετρώνται στους χάρτες έχουν ακρίβεια περίπου 0,5 mm πάνω στο χάρτη. Αν αυτό πολλαπλασιαστεί με την κλίμακα του χάρτη παίρνουμε την αντίστοιχη πραγματική απόσταση πάνω στο έδαφος.
Συσχέτιση των σφαλμάτων Τα απόλυτα σφάλματα θέσης μπορεί να είναι μεγάλα αντανακλούν την τεχνική δυσκολία μέτρησης των αποστάσεων σημείων από τον Ισημερινό και τον Μεσημβρινό του Γκρίνουιτς Τα σχετικά σφάλματα θέσης για μικρές αποστάσεις είναι πολύ μικρότερα Τα σφάλματα θέσης τείνουν να έχουν ισχυρή συσχέτιση για μικρές αποστάσεις Ως αποτέλεσμα, τα σφάλματα θέσης μπορούν να μη λυφθούν υπόψη κατά τον υπολογισμό κάποιων χαρακτηριστικών, όπως η απόσταση ή το εμβαδό
3 ο φίλτρο: Ανάλυση, διάδοση σφάλματος Αφορά στις επιπτώσεις του σφάλματος και της αβεβαιότητας στα αποτελέσματα της GIS ανάλυσης Σχεδόν κάθε είσοδος σε ένα GIS υπόκειται σε σφάλμα και αβεβαιότητα Κατά συνέπεια, κάθε έξοδος έχει περιορισμούς στην ορθότητά της ή ένα βαθμό αβεβαιότητας
Σφάλμα στη μέτρηση του εμβαδού ενός τετραγώνου πλευράς 100 μ. Έχει γίνει τοπογραφικός προσδιορισμός κάθε μίας από τις τέσσερις γωνίες, με το σφάλμα να ακολουθεί διμεταβλητή κατανομή Γκάους με τυπική απόκλιση 1 μ. στα x και y (διακεκομμένοι κύκλοι). Το κόκκινο πολύγωνο δείχνει ένα πιθανό τοπογραφημένο τετράγωνο (μία υλοποίηση του μοντέλου σφάλματος). Σε αυτή την περίπτωση η μέτρηση του εμβαδού υπόκειται σε μια τυπική απόκλιση 200 τ.μ., με ένα αποτέλεσμα κάτι σαν ,603 να είναι αρκετά πιθανό παρόλο που το πραγματικό εμβαδό είναι τ.μ. Βασικά, το αποτέλεσμα ,603 πρέπει να στρογγυλοποιηθεί βάσει της ακρίβειας που ισχύει και να αναφερθεί ως
Τρείς υλοποιήσεις ενός μοντέλου οι οποίες προσομοιώνουν τις επιπτώσεις των σφαλμάτων σε ένα ψηφιακό μοντέλο υψομέτρων. Τα τρία μοντέλα διαφέρουν μόνο σε βαθμό που είναι σύμφωνος με το γνωστό σφάλμα. Το σφάλμα έχει προσομοιωθεί με τη χρήση μοντέλου που σχεδιάστηκε έτσι ώστε να αναπαράγει τις γνωστές ιδιότητες σφάλματος του συγκεκριμένου συνόλου δεδομένων -- την κατανομή μοντέλου σφάλματος και τη χωρική αυτοσυσχέτιση μεταξύ σφαλμάτων.
Το πρόβλημα της οικολογικής πλάνης. Πριν κλείσει, το εργοστάσιο υποδημάτων αντλούσε το εργατικό του δυναμικό από τις εργατικές περιοχές στους νότιους και δυτικούς τομείς. Το κλείσιμό του οδήγησε σε υψηλά ποσοστά τοπικής ανεργίας αλλά όχι στους κατοίκους της Chinatown, οι οποίοι διατήρησαν την απασχόληση στις βιομηχανίες υπηρεσιών. Ωστόσο, η σύγκριση των χωροπληθών χαρτών Β και Γ δείχνει μια παραπλανητική σχέση μεταξύ Κινέζικης εθνικής καταγωγής και ανεργίας.
Υπέρθεση δύο βάσεων δεδομένων δρόμων. Οι κόκκινες και πράσινες γραμμές παρουσιάζουν διαφορές σύμπτωσης μέχρι 100 μ. Σε κάποιες περιπτώσεις οι δρόμοι από το ένα σύνολο δεδομένων δεν εμφανίζονται στο άλλο ή έχουν διαφορετικές διασταυρώσεις. Το φόντο είναι σκοτεινό στα σημεία που υπάρχει καλύτερη ταύτιση και λευκό εκεί που η ταύτιση είναι χειρότερη.
Πρόβλημα Τροποποιήσιμης Επιφανειακής Μονάδας MAUP (Modifiable Areal Unit Problem) Κλίμακα + συνάθροιση = MAUP Μπορεί να μελετηθεί μέσω προσομοίωσης μεγάλων αριθμών εναλλακτικών σχημάτων ζωνών
Δεξιά: η έκθεση για το κέντρο της πόλης: τα όρια του κέντρου είναι μπλε, οι πορτοκαλί γραμμές δείχνουν εμπορικούς πυρήνες, οι πιο σκούρες αποχρώσεις σημαίνουν μεγαλύτερη δραστηριότητα Αριστερά: μια επιφάνεια δεδομένων που αναπαριστά το δείκτη δραστηριότητας στο κέντρο μιας πόλης (οι πιο σκούρες αποχρώσεις σημαίνουν μεγαλύτερη δραστηριότητα).
Συμβιώνοντας με την αβεβαιότητα Είναι εύκολο να αντιληφθούμε τη σημασία της αβεβαιότητας στα GIS Αλλά είναι πολύ πιο δύσκολο να τη διαχειριστούμε αποτελεσματικά Δεν υπάρχει όμως δυνατότητα επιλογής, ειδικά σε δικαστικές διενέξεις
Κάποιες βασικές αρχές Η αβεβαιότητα είναι αναπόφευκτη στα GIS Τα δεδομένα που μας παρέχονται από τρίτους δεν πρέπει άκριτα να θεωρούνται ως αληθή Πρέπει να γίνεται προσπάθεια να προσδιοριστεί η ποιότητά τους Οι επιπτώσεις στις εξόδους ενός GIS είναι συχνά πιο μεγάλες από τις αναμενόμενες Υπάρχει αυτόματα μια τάση να θεωρείται η έξοδος ενός υπολογιστικού προγράμματος ως αλήθεια
Κάποιες ακόμη βασικές αρχές Πρέπει να χρησιμοποιούμε όσο το δυνατό περισσότερες πηγές δεδομένων και να γίνεται διασταύρωση σχετικά με την ακρίβειά τους Πρέπει να είμαστε ειλικρινείς και κατατοπιστικοί όταν αναφέρουμε αποτελέσματα Να προσθέτουμε αρκετές προειδοποιήσεις και συστάσεις
Σύνοψη Η αβεβαιότητα είναι κάτι περισσότερο από σφάλμα Οι πλούσιες αναπαραστάσεις δημιουργούν αβεβαιότητα ! Προκύπτει η ανάγκη για εκ των προτέρων κατανόηση των δεδομένων και ανάλυση ευαισθησίας