Εξόρυξη Χωρικών Δεδομένων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βασικές έννοιες αλγορίθμων
Advertisements

Indexing.
A Scalable Content- Addressable Network Sylvia Ratnasamy, Paul Francis, Mark Handley, Richard Karp, Scott Shenker Proceedings of ACM SIGCOMM ’01 Sections.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
1 ΥΠΟΛΟΓΙΣΤΙΚΉ ΓΕΩΜΕΤΡΊΑ. 2 Πρόβλημα:  Δυναμική διατήρηση N διαστημάτων με διαφορετικά ανά δύο σημεία αρχής και τέλους (σύνορα) έτσι ώστε να απαντάμε.
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Παιχνίδια με τις γεωγραφικές συντεταγμένες
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 9 ο Κατάτμηση Εικόνας. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Χαράλαμπος Ευτ. Τσουρακάκης
Αγγελική Σκούρα Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Το λογισμικό Το Tabletop Jr. είναι βοηθητικό μέσο για δραστηριότητες στα Μαθηματικά, στη Φυσική, την Ιστορία ή οποιοδήποτε άλλο μάθημα.
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Προσεγγιστικοί Αλγόριθμοι
ΚΕΦΑΛΑΙΟ 4 ΑΠΟ ΤΗΝ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ ΣΤΑ Γ.Σ.Π.
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ΚΕΦΑΛΑΙΟ 1 ΠΕΡΙ ΓΕΩΓΡΑΦΙΑΣ
Δομές Δεδομένων.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
1ο ΜΑΘΗΜΑ Οι έννοιες «γεωγραφική» και «σχετική» θέση
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Τμ. Πληροφορικής,
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
1 One Torus to Rule them All: Multi-dimensional Queries in P2P Systems Authors: Prasanna Ganesan, Beverly Yang, Hector Garcia-Molina Ευθυμία Ρόβα.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
A Scalable Content-Addressable Network Μυρτώ Ντέτσικα Παναγιώτα Νικολαΐδου Ελένη Γεώργα Λαμπρινή Κώνστα Βαγγέλης Λάππας Γρηγόρης Τζώρτζης Γιώργος Καρπάθιος.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
1 REPUTATION & TRUST MANAGEMENT IN P2P Γεωργούλας Κώστας Σταθοπούλου Ευγενία.
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές TSP, Μέτρα κεντρικότητας, Dijkstra Data Engineering Lab.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
1 ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ. 2 Θέματα μελέτης Πρόβλημα αναζήτησης σε γραφήματα –Αναζήτηση κατά βάθος (Depth-first search – DFS) –Αναζήτηση κατά πλάτος (Breadth-first.
Ανάπτυξη ΣΥΑ.
Ψηφιακή Επεξεργασία Εικόνας
Ψηφιακή Επεξεργασία Εικόνας
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Πανεπιστήμιο Θεσσαλίας Παιδαγωγικό Τμήμα Ειδικής Αγωγής
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Επίλυση Προβλημάτων με Αναζήτηση
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
Προβλήματα Ικανοποίησης Περιορισμών
Εισαγωγή στις βάσεις δεδομένων ISBN
Ψηφιακή Επεξεργασία Εικόνας
Εισαγωγή στην Στατιστική
Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
ΑΝΑΛΥΣΗ ΧΩΡΙΚΩΝ ΠΡΟΤΥΠΩΝ
Παρουσίαση Αριθμητικών Χαρακτηριστικών 1) Διακριτών
Γεωγραφικές συντεταγμένες
Εννοιολογική Χαρτογράφηση
Δυναμικός Κατακερματισμός
Γεωγραφικές συντεταγμένες
Μεταγράφημα παρουσίασης:

Εξόρυξη Χωρικών Δεδομένων Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham)

Θεματολογία Εξόρυξης Χωρικών Δεδομένων Στόχος: Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων Εισαγωγή Σύνοψη Χωρικών Δεδομένων Βασικές Αρχές Εξόρυξης Χωρικών Δεδομένων Γενίκευση / Εξειδίκευση Χωρικοί Κανόνες Χωρική Κατηγοριοποίηση Χωρική Συσταδοποίηση

Χωρικό Αντικείμενο (Spatial Object) Περιέχει τόσο χωρικά όσο και μη χωρικά χαρακτηριστικά. Πρέπει να έχει χαρακτηριστικά προσδιορισμού της θέσης όπως: Γεωγραφικό Πλάτος/Γεωγραφικό Μήκος Ταχυδρομικός κώδικας Διεύθυνση, οδός, κλπ Το χωρικό αντικείμενο μπορεί να ανακτάται χρησιμοποιώντας χωρικά ή/και μη χωρικά χαρακτηριστικά.

Εφορμογές Εξόρυξης Χωρικών Δεδομένων Γεωλογία Γεωγραφικά Πληροφορικά Συστήματα (GIS) Επιστήμες Περιβάλλοντος Γεωργία Ιατρική Ρομποτική Μπορεί να περιέχει τόσο χωρικές όσο και χρονικές πτυχές

Χωρικά (Spatial) Queries Η χωρική επιλογή περιλαμβάνει λειτουργίες εξειδικευμένης σύγκρισης: Κοντά Βόρεια, Νότια, Ανατολικά, Δυτικά Περιέχεται σε Επικαλύπτεται Ερώτηση περιοχής (Region (Range) Query) – βρες αντικείμενα που επικαλύπτουν μια συγκεκριμένη περιοχή Ερώτηση πλησιέστερου γείτονα (Nearest Neighbor Query) – βρες αντικείμενα που είναι γειτονικά ως προς ένα γνωστό αντικείμενο Σάρωση απόστασης (Distance Scan) – βρες αντικείμενα που βρίσκονται εντός συγκεκριμένης απόστασης από ένα γνωστό αντικείμενο όπου η απόσταση αυξάνει βαθμιαία

Δομές Χωρικών Δεδομένων Δομές δεδομένων ειδικά σχεδιασμένες για την αποθήκευση ή τη δεικτοδότηση χωρικών δεδομένων Συχνά βασίζονται στο B-δένδρο ή στο Δένδρο Δυαδικής Αναζήτησης Συσταδοποίηση δεδομένων στο δίσκο με βάση τη γεωγραφική τοποθεσία Μπορούν να αναπαριστούν μια σύνθετη χωρική δομή τοποθετώντας το χωρικό αντικείμενο σε μια δομή συγκεκριμένου γεωγραφικού σχήματος Τεχνικές: Τετραδικό Δένδρο (Quad Tree) R- Δένδρο k-D Δένδρο

Ελάχιστο Περιβάλλον Ορθογώνιο Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle, MBR) Το μικρότερο ορθογώνιο που περιέχει πλήρως το αντικείμενο

Παραδείγματα Ελαχίστου Περιβάλλοντος Ορθογωνίου

Τετραδικό Δένδρο (Quad Tree) Ιεραρχικός διαχωρισμός του χώρου σε τεταρτημόρια (MBRs) Κάθε επίπεδο του δένδρου αναπαριστά το αντικείμενο ως σύνολο τεταρτημορίων τα οποία περιέχουν κάποιο μέρος του αντικειμένου Κάθε επίπεδο είναι μια πιο ακριβή αναπαράσταση του αντικειμένου Το πλήθος των επιπέδων καθορίζεται από το βαθμό της επιθυμητής ακρίβειας

Παράδειγμα Τετραδικού Δένδρου

R-Δένδρο Όπως και στο Τετραδικό Δένδρο, η περιοχή χωρίζεται σε διαδοχικά μικρότερα ορθογώνια (MBRs). Τα ορθογώνια δεν χρειάζεται να είναι του ίδιου μεγέθους ή αριθμού σε κάθε επίπεδο. Τα ορθογώνια μπορεί να επικαλύπτονται. Τα κελιά χαμηλότερου επιπέδου έχουν μόνο ένα αντικείμενο. Αλγόριθμοι συντήρησης (maintenance) του δένδρου παρόμοιοι με τα B-δένδρα.

Παράδειγμα R-Δένδρου

K-D Δένδρο Σχεδιασμένο για δεδομένα πολλών χαρακτηριστικών, όχι απαραίτητα χωρικά Παραλλαγή του δυαδικού δένδρου αναζήτησης Κάθε επίπεδο χρησιμοποιείται για τη δεικτοδότηση μίας από τις διαστάσεις του χωρικού αντικειμένου Τα κελιά κατώτατου επίπεδου έχουν μόνο ένα αντικείμενο Διαιρέσεις που δεν βασίζονται σε MBRs αλλά σε διαδοχικές διαιρέσεις του εύρους διαστάσεων

Παράδειγμα k-D Δένδρου

Τοπολογικές Συσχετίσεις Χωρική περιοχή: Ξένη ή αμοιβαίως αποκλειόμενη (Disjoint) Έχει επικάλυψη ή τέμνει(Overlaps ή Intersects) Ίση Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε Καλύπτει ή περιέχει

Απόσταση Μεταξύ Αντικειμένων Euclidean Manhattan Επεκτάσεις:

Προοδευτική Βελτίωση (Progressive Refinement) Δώσε προσεγγιστικές απαντήσεις πριν από τις πιο βελτιωμένες απαντήσεις. Φίλτραρε τα δεδομένα που δεν είναι μέρος της απάντησης Ιεραρχική παρουσίαση των δεδομένων βασισμένη σε χωρικές σχέσεις Αδρό κατηγόρημα που επαναληπτικά βελτιώνεται

Χωρική Ιεραρχία: Progressive Refinement – Προοδευτική Βελτίωση

Spatial Data Dominant Algorithm – Γενίκευση Χωρικής Τάξης

STING STatistical Information Grid-based Ιεραρχική τεχνική για το διαχωρισμό μιας περιοχής σε ορθογώνια κελια Δομή δεδομένων πλέγματος που περιέχει συνοπτικές πληροφορίες για κάθε κελί Τεχνική ιεραρχικής συσταδοποίησης Παρόμοιο με το τετραδικό δένδρο

STING

STING Build Αλγόριθμος

STING Αλγόριθμος

Χωρικοί Κανόνες Κανόνας χωρικού χαρακτηριστικού(Characteristic Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι $50,000. Διακρίνων Κανόνας – Κανόνας Χωρικού Διαχωρισμού (Discriminant Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι $50,000, ενώ στο Plano το μέσο οικογενειακό εισόδημα είναι $75,000. Κανόνας χωρικής συσχέτισης (Association Rule) Το μέσο οικογενειακό εισόδημα στο Dallas για οικογένειες που ζουν κοντά στην Λίμνη White Rock είναι $100,000.

Κανόνες Χωρικής Συσχέτισης Είτε το πρότερο (antecedent) είτε το απότοκο (consequent) του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα. Αντιμετώπισε την underlying βάση δεδομένων ως σύνολο χωρικών αντικειμένων. Μπορεί να δημιουργηθεί χρησιμοποιώντας ένα είδος προοδευτικής βελτίωσης

Αλγόριθμος Δημιουργίας Κανόνων Χωρικών Συσχετίσεων Παρόμοιος με τον Apriori αλγόριθμο στον οποίο καθορίζονται συχνά «σύνολα κατηγορημάτων»

Χωρική Συσταδοποίηση Διαχωρισμός χωρικών αντικειμένων Μπορεί να βασίζεται σε μη χωρικά ή/και χωρικά χαρακτηριστικά Μπορεί να χρησιμοποιεί γενίκευση και προοδευτική βελτίωση

Επέκταση ID3 – Κατηγοριοποίηση Χωρικών Αντικειμένων Neighborhood Graph (Γράφοι γειτνίασης) Κόμβοι– αντικείμενα Ακμές – συνδέουν γείτονες Ο ορισμός της «γειτονίας» ποικίλει (απόσταση μικρότερη κάποιου κατωφλίου, ικανοποίηση μιας τοπολογικής σχέσης μεταξύ των αντικειμένων, κ.α.) Ο αλγόριθμος ID3 για την κατηγοριοποίηση εξετάζει τα μη χωρικά χαρακτηριστικά όλων των αντικειμένων σε μια γειτονιά

Δένδρο Χωρικής Απόφασης Προσέγγιση παρόμοια με αυτή που χρησιμοποιήθηκε για τους χωρικούς κανόνες συσχέτισης. Τα χωρικά αντικείμενα μπορούν να περιγραφούν με βάση τα γειτονικότερα ως προς αυτά αντικείμενα – (buffer (ενδιάμεση ζώνη)). Περιγραφή της κλάσης με βάση τη συνάθροιση γειτονικών αντικειμένων

Αλγόριθμος Δένδρου Χωρικής Απόφασης Καθορίζεται οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Έτσι υπολογίζεται το κέρδος της πληροφορίας

Χωρική Συσταδοποίηση Ανιχνεύει συστάδες ή ακανόνιστα σχήματα Χρήση κεντροειδών και προσεγγίσεις απλής απόστασης μπορεί να μην δουλεύουν αποδοτικά. Οι συστάδες μπορεί να είναι ανεξάρτητες της σειράς εισόδου.

Χωρική Συσταδοποίηση

CLARANS Επεκτάσεις Αφαίρεσε τις υποθέσεις κύριας μνήμης του CLARANS. Χρησιμοποίησε τεχνικές χωρικής δεικτοδότησης Χρησιμοποίησε δειγματοληψία χρησιμοποιώντας τα R*-δένδρα για να ταυτοποιήσεις κεντρικά αντικείμενα. Άλλαξε τους υπολογισμούς κόστους μειώνοντας το πλήθος των εξεταζόμενων αντικειμένων Αντί να εξετάζεται όλη η βάση, εξετάζονται μόνο τα αντικείμενα στις συστάδες που επηρεάζονται κατά την αλλαγή ενός medoid. Η ανάκτηση των αντικειμένων σε μια δοθείσα συστάδα βασίζεται στην κατασκευή ενός διαγράμματος Voronoi

Voronoi

SD (CLARANS) Spatial Dominant (SD) Επαναληπτικά αντικαθιστά τα κεντροειδή αλλά περιορίζει το πλήθος των ζευγαριών που αναζητούνται Χρησιμοποιεί γενίκευση Χρησιμοποιεί εκμάθηση για να εξάγει την περιγραφή της συστάδας

SD(CLARANS) Algorithm

DBCLASD Distribution Based Clustering of LArge Spatial Databases Επέκταση του DBSCAN Θεωρεί ότι τα αντικείμενα στη συστάδα είναι ομοιόμορφα κατανεμηνένα Ταυτοποιεί κατανομές που ικανοποιούν περιορισμούς απόστασης μεταξύ πλησιέστερων γειτόνων. Αντικείμενα προστίθενται αν η κατανομή είναι ομοιόμορφη

DBCLASD Αλγόριθμος

Aggregate Proximity (Συναθροιστική Εγγύτητα) Η σχέση συναθροιστικής εγγύτητας εντοπίζει τα k πιο κοντινά χαρακτηριστικά σε μια συστάδα The CRH Algorithm – χρησιμοποιεί διαφορετικά σχήματα: Περικλείων Κύκλος (Encompassing Circle) Ισοθετικό Ορθογώνιο (Isothetic Rectangle) Κυρτό Περίβλημα (Convex Hull) Μια προσέγγιση φιλτραρίσματος των χαρακτηριστικών που χρησιμοποιεί πρώτα τον περικλείοντα κύκλο, μετά το ισοθετικό ορθογώνιο και τέλος το κυρτό περίβλημα

CRH