Αγγελική Σκούρα (skoura@ceid.upatras.gr) Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα (skoura@ceid.upatras.gr)
Χωρικά vs. μη-χωρικά δεδομένα Παραδείγματα μη-χωρικών δεδομένων – Ονόματα, τηλέφωνα, διευθύνσεις email, ... • Παραδείγματα χωρικών δεδομένων – Δημογραφικά δεδομένα – Μετεωρολογικά δεδομένα – Κτηματολόγιο, δασολόγιο, κλπ. – Ιατρικές εικόνες
Εξόρυξη Χωρικών Δεδομένων Χωρικό Αντικείμενο Τομείς Εφαρμογής Χωρικό Αντικείμενο Είναι αντικείμενο με μια χωρική συνιστώσα Περιγράφεται από χωρικά και μη χωρικά γνωρίσματα Σε αυτά μπορεί να περιλαμβάνεται κάποιος τύπος σχετικός με θέση: Γεωγραφικό Μήκος και Πλάτος Ταχυδρομικός Κωδικός Διεύθυνση Η ανάκτηση του αντικειμένου θα πρέπει να είναι δυνατή με χρήση χωρικών ή/και μη χωρικών γνωρισμάτων Προσπέλαση Τα χωρικά δεδομένα μπορούν να προσπελασθούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές «κοντά», «βόρεια», «νότια», «γειτονικά» και «περιέχεται σε» Συστήματα Γεωγραφικών Πληροφοριών (GIS) Περιβαλλοντολογία Γεωλογία Γεωργία Ιατρική Ρομποτική Οπουδήποτε παίζει ρόλο η χωρική διάσταση
Εξόρυξη Χωρικών Δεδομένων Η εξόρυξη γνώσης από σύνολο χωρικών δεδομένων (spatial data mining) αποσκοπεί στην ανακάλυψη κρυμμένων συσχετίσεων και χαρακτηριστικών που ενυπάρχουν στα στοιχεία Δηλ. πραγματοποιείται αναζήτηση για χρήσιμα, μη-τετριμμένα πρότυπα σε χωρικές βάσεις δεδομένων Στόχοι Ανάλυσης Χωρικών Δεδομένων: Επαγωγικές Ερωτήματα (Deductive Querying), π.χ. searching, sorting, overlays Απαγωγική Εξόρυξη (Inductive Mining), π.χ. statistics, correlation, clustering, classification Παραδείγματα Εφαρμογών: Infer land-use classification from satellite imagery Identify cancer clusters and geographic factors with high correlation Identify crime hotspots to assign police patrols and social workers
Χωρικά Ερωτήματα Τυπικές χωρικές ερωτήσεις είναι οι ακόλουθες: ερώτηση σημείου (point query): δοθέντος ενός σημείου p, βρες όλα τα αντικείμενα που περιέχουν το p. ερώτηση περιοχής (range query): δοθέντος ενός ορθογωνίου r, βρες όλα τα αντικείμενα με όλα τα αντικείμενα με ένα τουλάχιστον σημείο κοινό με το r. ερώτηση κατεύθυνσης (direction query): δοθέντος ενός αντικειμένου o και μιας κατευθυντήριας σχέσης R (π.χ. βόρεια, αριστερά), βρες όλα τα αντικείμενα που βρίσκονται στην κατεύθυνση R σχετικά με το o. ερώτηση κοντινότερου γείτονα (nearest-neighbor query): δοθέντος ενός αντικειμένου o, βρες όλα τα αντικείμενα που απέχουν ελάχιστη απόσταση από το o. Πηγή: Διδακτορική Διατριβή κ. Ιωάννη Θεοδωρίδη με τίτλο «Χωρικές Δομές Δεδομένων: Αναλυτικά Μοντέλα και Αποδοτικοί Αλγόριθμοι»
Απόσταση μεταξύ Χωρικών Αντικειμένων Σημειακά αντικείμενα Ευκλείδεια, Manhattan Μη σημειακά αντικείμενα Κάθε χωρικό αντικείμενο θεωρείται ως μια συστάδα των σημείων εντός του
Χωρική Εξόρυξη Γνώσης Εξόρυξη Γνώσης από Χωρικά Δεδομένα Χωρική Συσταδοποίηση Partitioning algorithms (k-means αnd CLARANS ) Traditional hierarchical algorithms (such as single- and complete-link, CURE , CHAMELEON and BIRCH) Density-based algorithms (DBSCAN) Graph-based algorithms Model-based algorithms (such as EM- Expectation Maximazation, SOM-Self Organization Maps) Grid-based algorithms, (such as STING and WaveCluster) Χωρική Κατηγοριοποίηση Επέκταση του ID3 Χωρικό Δένδρο Απόφασης
Κατηγορίες Αλγορίθμων Χωρικής Συσταδοποίησης Partitioning algorithms, such as k-means and CLARANS, cannot be utilized to discover clusters of arbitrary shapes and different densities, and their clustering results are usually influenced by noise In practical applications, it is difficult to determine the number of clusters for the partitioning algorithm In addition, most partitioning algorithms cannot consider both geometrical properties and attributes together Traditional hierarchical algorithms, such as single- and complete-link, CURE, CHAMELEON, and BIRCH, can detect clusters of more complicated shapes, most of them cannot discover clusters of arbitrary shape Density-based algorithms aim to identify dense regions that are separated by low-density regions. The two most important advantages of density-based algorithms are that they can discover clusters of arbitrary shape and they do not require a user to input the number of clusters Graph-based algorithms usually employ a special graph structure to describe the spatial proximity among objects, and then delete the ‘inconsistent edge’ to form a set of sub-graphs. Graph-based algorithms are able to discover clusters of arbitrary shape and require few input parameters. However, they may not be reliable when the density varies between clusters or when a large amount of noise exists in a spatial database Model-based algorithms are usually based on statistical theory or intelligence computing tools Grid-based algorithms, such as WaveCluster and STING, usually employ a gridded data structure to enhance the efficiency of clustering
Spatial Database Indexing Trees are frequently used to index spatial data. Quad Tree: based upon assigning data to spatial quadrants R-Tree: based on range of values (Lat,Long) assigned to the set of MBR’s. k-D Tree: a binary search tree in K dimensions … and many more Searching a tree-based index is fast
STING Οι βασικές Grid-Based μέθοδοι συσταδοποίησης: Ο STING Αλγόριθμος STING (a STatistical INformation Grid approach, 1997) WaveCluster (VLDB’98) A multi-resolution clustering approach using wavelet method CLIQUE (SIGMOD’98) Ο STING Αλγόριθμος Ο στόχος είναι η συσταδοποίηση (ως προς την θέση) των εγγραφών που υπάρχουν σε ένα πίνακα Μπορεί να θεωρηθεί και ως τεχνική ιεραρχικής συσταδοποίησης, αφού χρησιμοποιεί μια ιεραρχική τεχνική για τη διαίρεση των χωρικών περιοχών σε ορθογώνια κελιά Κάθε κόμβος στη δομή πλέγματος συνοψίζει την πληροφορία για τα στοιχεία εντός της Η τοποθέτηση μιας εγγραφής σε ένα grid cell καθορίζεται πλήρως από τη φυσική του θέση Το 1o επίπεδο είναι το γενικό, το n-oστό επίπεδο είναι το πιο ειδικό
Ο Αλγόριθμος STING Build STING Retrieve
Η Ιεραρχική Δομή της Συσταδοποίησης Sting Η χωρική περιοχή χωρίζεται σε τετραγωνικά cells π.χ. χρησιμοποιώντας latitude και longitude Κάθε κελί σχηματίζει μια ιεραρχική δομή Αυτό σημαίνει ότι κάθε κελί υψηλότερου επίπεδου διαχωρίζεται σε 4 μικρότερα κελιά χαμηλότερου επίπεδου Με άλλα λόγια, κάθε κελί στο i-οστό επίπεδο (εκτός από τα φύλλα) έχει 4 παιδία στο i+1 επίπεδο Η ένωση των 4 παιδιών-cells θα επιστρέψει το γονικό κελί του προηγούμενου επιπέδου Το μέγεθος των cells στο επιπέδο των φύλλων και το πλήθος των επιπέδων εξαρτάται από το βαθμό «κοκοποίησης» (granularity) που επιθυμεί ο χρήστης
Αποθήκευση Στατιστικών Παραμέτρων Η στατιστική πληροφορία σχετικά με τα γνωρίσματα σε κάθε grid cell, για κάθε επίπεδο προ-υπολογίζονται και αποθηκεύονται Οι στατιστικές παράμετροι για τα κελιά του χαμηλότατου επιπέδου υπολογίζονται κατευθείαν από τις τιμές που υπάρχουν στον πίνακα Οι στατιστικές παράμετροι για τα κελιά όλων των άλλων επιπέδων υπολογίζονται από τα αντίστοιχα κελιά των παιδιών του χαμηλότερου επιπέδου Για κάθε κελί όλων των επιπέδων, έχουμε στατιστικές παραμέτρους εξαρτώμενες και ανεξάρτητες των γνωρισμάτων Attribute Independent Parameter Count : number of records in this cell Attribute Dependent Parameter Για κάθε γνώρισμα κάθε κελιού, αποθηκεύονται οι ακόλουθες παράμετροι: M mean of all values of each attribute in this cell S Standard Deviation of all values of each attribute in this cell Min The minimum value for each attribute in this cell Max The maximum value for each attribute in this cell Distribution The type of distribution that the attribute value in this cell follows. (e.g. normal, exponential, etc.) None is assigned to “Distribution” if the distribution is unknown
Απάντηση Ερωτημάτων Ο STING μπορεί να απαντήσει αρκετά χωρικά ερωτήματα αποδοτικά, διότι δεν χρειάζεται να αποκτήσουμε πρόσβαση στην πλήρη βάση δεδομένων Πως επεξεργάζονται τα ερωτήματα? Χρησιμοποιούμε μια top-down προσέγγιση Ξεκινάμε από ένα προ-επιλεγμένο επίπεδο Το προ-επιλεγμένο επίπεδο δεν είναι απαραίτητα το πιο ψηλό επίπεδο Για κάθε κελί του τρέχοντος επιπέδου, υπολογίζεται το confidence interval (εύρος πιθανότητας) που αντανακλά τα σχετικά κελία για το δεδομένο ερώτημα Το confidence interval υπολογίζεται χρησιμοποιώντας τις στατιστικές παραμέτρους κάθε κελιού Απομάκρυνση μη σχετικών κελιών από επιπλέον επεξεργασία Όταν ολοκληρωθεί η επεξεργασία του τρέχοντος επιπέδου, συνεχίζεται στο επόμενο, πιο χαμηλό, επίπεδο Η επεξεργασία του επόμενου, πιο χαμηλού, επιπέδου εξετάζει τα υπόλοιπα σχετικά κελιά Η διαδικασία αυτή επαναλαμβάνεται μέχρι να φτάσουμε σε χαμηλότατο επίπεδο
Πλεονεκτήματα και Μειονεκτήματα του STING Πολύ αποδοτικός Εύκολο να παραλληλοποιηθεί Η υπολογιστική πολυπλοκότητα είναι O(k) όπου k είναι το πλήθος των grid cells του χαμηλότατου επιπέδου. Συνήθως k << N, όπου N είναι το πλήθος των εγγραφών Μειονεκτήματα Όλα τα όρια των συστάδων είναι είτε οριζόντια είτε κάθετα (π.χ. δεν επιτρέπονται διαγώνια όρια)
Χωρική Κατηγοριοποίηση Στοχεύει στη διαμέριση συνόλων χωρικών αντικειμένων Μπορεί να γίνει κατηγοριοποίηση με χρήση μη χωρικών ή/και χωρικών γνωρισμάτων Τεχνικές γενίκευσης και προοδευτικής βελτίωσης μπορούν να χρησιμοποιηθούν
Παράδειγμα Χωρικής Κατηγοριοποίησης Ανάλυση paper: “An efficient two-step method for classification of spatial data”, Koperski et al. 1998. Κατασκευή ενός δένδρου απόφασης για την κατηγοριοποίηση χωρικών αντικειμένων Ο σκοπός είναι να κατασκευαστεί ένα δένδρο απόφασης για την κατηγοριοποίηση των πέντε αντικειμένων Oi, όπως εμπορικά κέντρα, τα οποία ανήκουν σε 2 κλάσεις Υ και Ν οι οποίες καθορίζονται από το γνώρισμα high_profit που παίρνει τις τιμές “yes” και “no”. Τα αντικείμενα Oi χαρακτηρίζονται από μη-χωρικά γνωρίσματα (Table 1) και χωρικά γνωρίσματα ή κατηγορήματα (Table 2)
Παράδειγμα Χωρικής Κατηγοριοποίησης Χωρικά κατηγορήματα όπως close_to μπορούν να χρησιμοποιηθούν για την κατασκευή του δένδρου απόφασης Η περιγραφή των κατηγορημάτων πρέπει να γενικευθεί πριν εφαρμοστούν για την κατασκευή του δένδρου απόφασης Στη συνέχεια, ένας αλγόριθμος δένδρου απόφασης επιλέγεται και τροποποιείται κατάλληλα για την ανάλυση των χωρικών δεδομένων Επιλέχθηκε το δένδρο απόφασης που προτείνεται στην εργασία W.W.Cohen, “Learning Trees and Rules with Set-valued Features”, Proc. Of 13th National Conference on Artificial Intelligence (AAAI), Portland, OR, 1996
Παράδειγμα Χωρικής Κατηγοριοποίησης Τα γενικευμένα κατηγορήματα φαίνονται στον ακόλουθο πίνακα: Οι συναθροιστικές τιμές για τις περιοχές κοντά στα χωρικά αντικείμενα παίζουν σημαντικό ρόλο στην ανάλυση των χωρικών αντικειμένων. Για τον χειρισμό των συναθροιστικών τιμών των μη-χωρικών αντικειμένων σε θεματικούς χάρτες, μπορούμε να υπολογίσουμε το άθροισμα (ή το σταθμισμένο άθροισμα) των τιμών των μπλοκ που τέμνονται από τα αντικείμενα. Οι συναθροιστικές τιμές για τα 5 χωρικά αντικείμενα φαίνονται στον ακόλουθο πίνακα:
Παράδειγμα Χωρικής Κατηγοριοποίησης Για κάθε κατηγοριοποιημένο αντικείμενο, ένα σύνολο από γενικευμένα κατηγορήματα (βλ. Table 3) αποθηκεύεται. Για κάθε κατηγόρημα P από τον πίνακα, βρίσκουμε το p1, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση Υ και ικανοποιούν το κατηγόρημα P και το n1, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση N και ικανοποιούν το κατηγόρημα P Επίσης, οι αντίστοιχοι υπολογισμοί πρέπει να γίνουν για την άρνηση του κατηγορήματος P, δηλαδή να βρούμε το p2, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση Υ και δεν ικανοποιούν το κατηγόρημα P και το n2, π.χ. το πλήθος των αντικειμένων που ανήκουν στην κλάση N και δεν ικανοποιούν το κατηγόρημα P Ο ψευδοκώδικας του αλγορίθμου για την κατασκευή του δένδρου απόφασης ακολουθεί:
Παράδειγμα Χωρικής Κατηγοριοποίησης Με βάση τα αντικείμενα του συνόλου δεδομένων που πλέον έχουν γενικευμένα κατηγορήματα, κατασκευάζεται το δένδρο απόφασης. Αλγόριθμος δένδρου απόφασης
Αρχιτεκτονικές GIS 1η εναλλακτική: 2η εναλλακτική: Δύο βάσεις δεδομένων : μία χωρική και μια θεματική (σχεσιακή) Αρκετά διαδεδομένη (ArcGIS, MapInfo,…) 2η εναλλακτική: Ένα εκτεταμένο αντικειμενοστραφές ΣΔΒΔ (object-relational DBMS) φιλοξενεί και διαχειρίζεται χωρικά και θεματικά δεδομένα π.χ. Oracle Spatial Cartridge, Informix Spatial Datablade, Microsoft SpatialWare
Υποστήριξη Spatial Data Types σε DBMS – Υποστηρίζουν απλούς τύπους δεδομένων, π.χ. number, varchar[], date – Υποστήριξη χωρικών δεδομένων μπορεί να γίνει απλοϊκά π.χ. ένα σημείο ως δύο αριθμοί, μια περιοχή ως ένα πολύγωνο Πέρα από τα σχεσιακά DBMS Object oriented (OO) DBMS Υποστηρίζουν abstract data types (ADT’s) που ορίζονται από το χρήστη Οπότε είναι εφικτή η προσθήκη χωρικών τύπων δεδομένων (π.χ. polygon)
Εφαρμογή Χωρικής Κατηγοριοποίησης σε Ιατρικές Εικόνες Ένα δίκτυο αγωγών στο μαστό: (a) γαλακτόγραμμα με a contrast-enhanced δίκτυο αγωγών, (b) μέρος του γαλακτογράμματος που δείχνει μεγαλύτερο το δίκτυο αγωγών, (c) το δίκτυο 1 2 7 6 3 4 5 10 11 12 9 8 (a) (b) (c) Prufer {1 2 2 6 6 6 1 1 4 4 4 } Προεπεξεργασία (προσδιορισμός ορίων χωρικών περιοχών, σκελετοποίηση, κανονικοποίηση (ισόμορφα δένδρα) Labeling και αναπαράσταση δέντρων με σειρές χαρακτήρων – κωδικοποίηση Prüfer [ V. Megalooikonomou, D. Kontos, J. Danglemaier, A. Javadi, P. A. Bakic, A.D.A. Maidment, Proceedings of the SPIE Conference on Medical Imaging, 2006.]
Ποσοτικός Χαρακτηρισμός Δενδροειδών δομών και Ταξινόμηση … αναπαράσταση δέντρων με σειρές χαρακτήρων Χρήση τεχνικών tf-idf εξόρυξης γνώσης από κείμενα για ανάθεση βάρους σπουδαιότητας σε κάθε όρο- label To βάρoς wij του όρου i στη σειρά j προσδιορίζεται ως εξής: wij = tfij idfi = tfij log2 (N/ dfi) όπου fij είναι η συχνότητα εμφάνισης του όρου i στη σειρά j, tfij = fij / max{fij} dfi = αριθμός των σειρών που περιλαμβάνουν τον όρο i, idfi = αντίστροφο της dfi, = log2 (N/ dfi) και N: ο συνολικός αριθμός σειρών H κάθε σειρά αναπαρίστανται ως ένα t-dimensional διάνυσμα: dj = (w1j, w2j, …,wtj), όπου t = |vocabulary|=διάσταση Δύο σειρές είναι παρεμφερείς με βάση το cosine similarity measure των διανυσμάτων που υπολογίζεται ως εξής: CosSim(dj, q) =
Ποσοτικός Χαρακτηρισμός Δενδροειδών δομών και Ταξινόμηση Similarity searches: Υπολογίζουμε το pairwise cosine distance matrix για όλα τα tf-idf διανύσματα. Χρησιμοποιούμε κάθε δένδρο (δηλ. tf-idf διάνυσμα) σαν query και βρίσκουμε τα k πιο όμοια δέντρα με βάση το cosine distance matrix. Precision: το ποσοστό των σχετικών δένδρων (relevant trees) μεταξύ αυτών που βρέθηκαν – μέσος όρος για όλα τα similarity queries που κάναμε (σχετικά: τα δένδρα που ανήκουν στην ίδια ομάδα με το query tree (NF vs. RF)). Prufer Encoding k Precision NF RF Total 1 100% 100 % 2 90.00 % 70.83 % 79.55 % 3 80.00 % 66.67 % 72.73 % 4 72.50 % 64.58 % 68.18 % 5 68.00 % 65.00 % 66.36 %
Τέλος παρουσίασης…