Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εξόρυξη Χωρικών Δεδομένων
Advertisements

A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
Πινακες (Arrays) Σημασια Συνταξη Αρχικοποιηση Προσβαση Παραμετροι
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Αγγελική Σκούρα Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Συνέπεια Τόξου (Arc Consistency)
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Εισαγωγή στην Κοινωνιογλωσσολογία
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Ιόνιο Πανεπιστήμιο ΠΜΣ Επιστήμη της Πληροφορίας Διατύπωση Ερωτημάτων σε XML τεκμήρια με τη γλώσσα XQuery Εργασία για το μάθημα Ηλεκτρονική Δημοσίευση Υπεύθυνος.
Ουρά Προτεραιότητας: Heap
Δομές Δεδομένων.
Χωρικοί-χρονικοί συμβιβασμοί
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - 4ο εξάμηνο1 Ανάλυση Αλγορίθμων b Θέματα: Ορθότητα Χρονική αποδοτικότητα Χωρική αποδοτικότητα Βελτιστότητα b Προσεγγίσεις:
A Scalable Content-Addressable Network Μυρτώ Ντέτσικα Παναγιώτα Νικολαΐδου Ελένη Γεώργα Λαμπρινή Κώνστα Βαγγέλης Λάππας Γρηγόρης Τζώρτζης Γιώργος Καρπάθιος.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων.
Data Mining software Weka. Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Επεξεργασία Ερωτήσεων.
Μορφές των χωρικών δεδομένων
Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος
Data Management in p2p A Comparative Study of Pub/Sub Methods in Structured P2P Networks Μαρίνα Δρόσου – ΑΜ 135 Μυρτώ Ντέτσικα – ΑΜ 144 Γρηγόριος Τζώρτζης.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Επεξεργασία Ερωτήσεων.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Επεξεργασία Ερωτήσεων.
Τι είναι η Κατανομή (Distribution)
Κανονικοποίηση, συναρτησιακές εξαρτήσεις
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
Ανάλυση- Επεξεργασία των Δεδομένων
Στατιστικές Υποθέσεις
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Επίλυση Προβλημάτων με Αναζήτηση
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Java DataBase Connectivity
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους. 1 Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους! 1. Ο πρώτος συνίσταται.
ΑΝΑΛΥΣΗ ΧΩΡΙΚΩΝ ΠΡΟΤΥΠΩΝ
Ξέρουμε από τα προηγούμενα:
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Στατιστικές Υποθέσεις
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Ερωτήματα Επιλογής σε ACCESS
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Διαχρονικές Δομές Δεδομένων
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα

Εξόρυξη Δεδομένων

Χωρικά vs. μη-χωρικά δεδομένα Παραδείγματα μη-χωρικών δεδομένων – Ονόματα, τηλέφωνα, διευθύνσεις ,... Παραδείγματα χωρικών δεδομένων – Δημογραφικά δεδομένα – Μετεωρολογικά δεδομένα – Κτηματολόγιο, δασολόγιο, κλπ. – Ιατρικές εικόνες

Χωρικό Αντικείμενο  Είναι αντικείμενο με μια χωρική συνιστώσα  Περιγράφεται από χωρικά και μη χωρικά γνωρίσματα  Σε αυτά μπορεί να περιλαμβάνεται κάποιος τύπος σχετικός με θέση:  Γεωγραφικό Μήκος και Πλάτος  Ταχυδρομικός Κωδικός  Διεύθυνση  Η ανάκτηση του αντικειμένου θα πρέπει να είναι δυνατή με χρήση χωρικών ή/και μη χωρικών γνωρισμάτων Προσπέλαση  Τα χωρικά δεδομένα μπορούν να προσπελασθούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές «κοντά», «βόρεια», «νότια», «γειτονικά» και «περιέχεται σε»

Εξόρυξη γνώσης από χωρικά δεδομένα Η εξόρυξη γνώσης από σύνολο χωρικών δεδομένων (spatial data mining) αποσκοπεί στην ανακάλυψη κρυμμένων συσχετίσεων και χαρακτηριστικών που ενυπάρχουν στα στοιχεία  Δηλ. πραγματοποιείται αναζήτηση για χρήσιμα, μη-τετριμμένα πρότυπα σε χωρικές βάσεις δεδομένων Στόχοι Ανάλυσης Χωρικών Δεδομένων:  Επαγωγικές Ερωτήματα (Deductive Querying), π.χ. searching, sorting, overlays  Απαγωγική Εξόρυξη (Inductive Mining), π.χ. statistics, correlation, clustering, classification Παραδείγματα Εφαρμογών:  Infer land-use classification from satellite imagery  Identify cancer clusters and geographic factors with high correlation  Identify crime hotspots to assign police patrols and social workers

Εφαρμογές εξόρυξης γνώσης από χωρικά δεδομένα Συστήματα Γεωγραφικών Πληροφοριών (GIS) Περιβαλλοντολογία Γεωλογία Γεωργία Ιατρική Ρομποτική Οπουδήποτε συνδυάζεται η χρονική με τη χωρική διάσταση

Απόσταση μεταξύ Χωρικών Αντικειμένων Σημειακά αντικείμενα  Ευκλείδεια, Manhattan Μη σημειακά αντικείμενα  Κάθε χωρικό αντικείμενο θεωρείται ως μια συστάδα των σημείων εντός του

Χωρική Εξόρυξη Γνώσης Εξόρυξη Γνώσης από Χωρικά Δεδομένα Χωρική Συσταδοποίηση STINGDBSCAN Χωρική Κατηγοριοποίηση Επέκταση του ID 3 Χωρικό Δένδρο Απόφασης

STING STatistical Information Grid-based Ο στόχος είναι η συσταδοποίηση (ως προς την θέση) των εγγραφών που υπάρχουν σε ένα πίνακα Χρησιμοποιεί μια ιεραρχική τεχνική για τη διαίρεση των χωρικών περιοχών σε ορθογώνια κελιά Κάθε κόμβος στη δομή πλέγματος συνοψίζει την πληροφορία για τα στοιχεία εντός της Μπορεί να θεωρηθεί ως τεχνική ιεραρχικής συσταδοποίησης Η τοποθέτηση μιας εγγραφής σε ένα grid cell καθορίζεται πλήρως από τη φυσική του θέση

Ο Αλγόριθμος STING Build

Παράδειγμα STING Build

Ο Αλγόριθμος STING

Ιεραρχική Δομή κάθε Grid Cell Η χωρική περιοχή χωρίζεται σε τετραγωνικά cells (χρησιμοποιώντας latitude και longitude) Κάθε κελί σχηματίζει μια ιεραρχική δομή Αυτό σημαίνει ότι κάθε κελί υψηλότερου επίπεδου διαχωρίζεται σε 4 μικρότερα κελιά χαμηλότερου επίπεδου  Με άλλα λόγια, κάθε κελί στο i-οστό επίπεδο (εκτός από τα φύλλα) έχει 4 παιδία στο i+1 επίπεδο Η ένωση των 4 παιδιών-cells θα επιστρέψει το γονικό κελί του προηγούμενου επιπέδου Το μέγεθος  των cells στο επιπέδο των φύλλων και  το πλήθος των επιπέδων εξαρτάται από το βαθμό «κοκοποίησης» (granularity) που επιθυμεί ο χρήστης

Η Ιεραρχική Δομή της Συσταδοποίησης Sting

Αποθήκευση Στατιστικών Παραμέτρων Η στατιστική πληροφορία σχετικά με τα γνωρίσματα σε κάθε grid cell, για κάθε επίπεδο προ-υπολογίζονται και αποθηκεύονται χειρωνακτικά  Οι στατιστικές παράμετροι για τα κελιά του χαμηλότατου επιπέδου υπολογίζονται κατευθείαν από τις τιμές που υπάρχουν στον πίνακα  Οι στατιστικές παράμετροι για τα κελιά όλων των άλλων επιπέδων υπολογίζονται από τα αντίστοιχα κελιά των παιδιών του χαμηλότερου επιπέδου Για κάθε κελί όλων των επιπέδων, έχουμε στατιστικές παραμέτρους εξαρτώμενες και ανεξάρτητες των γνωρισμάτων  Attribute Independent Parameter  Count : number of records in this cell  Attribute Dependent Parameter

Στατιστικές Παράμετροι Για κάθε γνώρισμα κάθε κελιού, αποθηκεύονται οι ακόλουθες παράμετροι:  M  mean of all values of each attribute in this cell  S  Standard Deviation of all values of each attribute in this cell  Min  The minimum value for each attribute in this cell  Max  The maximum value for each attribute in this cell  Distribution  The type of distribution that the attribute value in this cell follows. (e.g. normal, exponential, etc.) None is assigned to “Distribution” if the distribution is unknown

Επεξεργασία Ερωτημάτων Ο STING μπορεί να απαντήσει αρκετά χωρικά ερωτήματα αποδοτικά, διότι δεν χρειάζεται να αποκτήσουμε πρόσβαση στην πλήρη βάση δεδομένων Πως επεξεργάζονται τα ερωτήματα?  Χρησιμοποιούμε μια top-down προσέγγιση  Ξεκινάμε από ένα προ-επιλεγμένο επίπεδο  Το προ-επιλεγμένο επίπεδο δεν είναι απαραίτητα το πιο ψηλό επίπεδο  Για κάθε κελί του τρέχοντος επιπέδου, υπολογίζεται το confidence interval (εύρος πιθανότητας) που αντανακλά τα σχετικά κελία για το δεδομένο ερώτημα  Το confidence interval υπολογίζεται χρησιμοποιώντας τις στατιστικές παραμέτρους κάθε κελιού  Απομάκρυνση μη σχετικών κελιών από επιπλέον επεξεργασία  Όταν ολοκληρωθεί η επεξεργασία του τρέχοντος επιπέδου, συνεχίζεται στο επόμενο, πιο χαμηλό, επίπεδο  Η επεξεργασία του επόμενου, πιο χαμηλού, επιπέδου εξετάζει τα υπόλοιπα σχετικά κελιά  Η διαδικασία αυτή επαναλαμβάνεται μέχρι να φτάσουμε σε χαμηλότατο επίπεδο

Διάφορα Επίπεδα Grid κατά την επεξεργασία ερωτήματος

Χωρικά Ερωτήματα Ένα χωρικό ερώτημα μπορεί να είναι:  Μια ερώτηση πλησιέστερου γείτονα (nearest neighbour query) αναζητά αντικείμενα που είναι κοντά σε ένα, συγκεκριμένο αντικείμενο  Μια σάρωση απόστασης (distance scan) βρίσκει αντικείμενα εντός μιας προκαθορισμένης απόστασης από ένα συγκεκριμένο αντικείμενο, με την απόσταση να αυξάνεται σταδιακά  Μια ερώτηση περιοχής (region query) ή ερώτηση εύρους (range query) είναι μια ερώτηση που ζητά αντικείμενα που τέμνουν μια δοθείσα περιοχή στην ερώτηση Παράδειγμα:  Υπόθεσε ότι η χωρική περιοχή είναι ένας χάρτης των περιοχών Ρίου, Αγυιάς και Αγ. Σοφίας  Οι εγγραφές μας αναπαριστούν διαμερίσματα που βρίσκονται στην παραπάνω χωρική περιοχή  Ερώτημα: “ Βρες όλα τα διαμερίσματα που είναι προς ενοικίαση κοντά (10 χιλιόμετρα) στο Πανεπιστήμιο Πατρών και που το εύρος ενοικίου κυμαίνεται από €400 έως €600”

Πλεονεκτήματα και Μειονεκτήματα του STING Πλεονεκτήματα  Πολύ αποδοτικός  Η υπολογιστική πολυπλοκότητα είναι O(k) όπου k είναι το πλήθος των grid cells του χαμηλότατου επιπέδου. Συνήθως k << N, όπου N είναι το πλήθος των εγγραφών Μειονεκτήματα  Όλα τα όρια των συστάδων είναι είτε οριζόντια είτε κάθετα. Δεν υπάρχουν διαγώνια

Χωρική Κατηγοριοποίηση Στοχεύει στη διαμέριση συνόλων χωρικών αντικειμένων Μπορεί να γίνει κατηγοριοποίηση με χρήση μη χωρικών ή/και χωρικών γνωρισμάτων Τεχνικές γενίκευσης και προοδευτικής βελτίωσης μπορούν να χρησιμοποιηθούν

Επέκταση του ID3 Γράφος Γειτνίασης  Κόμβοι – αντικείμενα  Ακμές – συνδέουν γείτονες Ο ορισμός του «γείτονα» ποικίλει  Μπορεί να οριστεί βάσει μιας μετρικής απόστασης μεταξύ των χωρικών αντικειμένων Ο ID3 για τους σκοπούς κατηγοριοποίησης υπολογίζει όχι μόνο τα μη χωρικά γνωρίσματα του αντικείμενου-στόχου αλλά και των γειτονικών αντικειμένων

Δένδρο Χωρικής Απόφασης Παρόμοια προσέγγιση με αυτή που χρησιμοποιείται στους κανόνες χωρικών συσχετίσεων Η ιδέα βασίζεται στο ότι τα χωρικά αντικείμενα μπορούν να περιγραφούν βάση των αντικειμένων που είναι κοντά σε αυτά – Ενδιάμεση Ζώνη (buffer) Περιγραφή των κλάσεων βασισμένη σε μια συνάθροιση των πιο σχετικών κατηγορημάτων για κοντινά αντικείμενα

Ο Αλγόριθμος του Δένδρου Χωρικής Απόφασης

Χωρική Συσταδοποίηση Εντοπισμός συστάδων από διαφορετικά σχήματα Ένας αλγόριθμος που δουλεύει χρησιμοποιώντας κέντρα βάρους και απλές μετρήσεις απόστασης πιθανόν δεν θα είναι σε θέση να αναγνωρίζει ασυνήθιστα σχήματα Οι συστάδες πρέπει να προκύπτουν ανεξάρτητα της σειράς με την οποία εξετάστηκαν τα σημεία στο χώρο

DBCLASD Επέκταση του αλγορίθμου DBSCAN, Distribution Based Clustering of LArge Spatial Databases (συσταδοποίηση μεγάλων βάσεων χωρικών δεδομένων βασισμένη σε κατανομές) Υποθέτει ότι τα στοιχεία εντός μιας συστάδας είναι ομοιόμορφα κατανεμημένα και ότι σημεία εκτός της συστάδας πιθανόν δεν ικανοποιούν αυτόν τον περιορισμό. Βάσει αυτής της υπόθεσης, ο αλγόριθμος επιχειρεί να προσδιορίσει την κατανομή που ικανοποιείται από τις αποστάσεις μεταξύ πλησιέστερων γειτόνων. Όπως και με τον αλγόριθμο DBSCAN, δημιουργείται μια συστάδα γύρω από ένα στοιχείο - στόχο. Στοιχεία προστίθενται στη συστάδα, όσο το σύνολο των πλησιέστερων βάσει της απόστασης γειτόνων ικανοποιεί την υπόθεση της ομοιόμορφης κατανομής. Καθορίζονται τα υποψήφια στοιχεία και στη συνέχεια προστίθενται στην τρέχουσα συστάδα, αν ικανοποιούν ένα κριτήριο μέλους. Τα υποψήφια στοιχεία καθορίζονται με την εκτέλεση μιας ερώτησης περιοχής χρησιμοποιώντας έναν κύκλο ακτίνας m, ο οποίος έχει ως κέντρο ένα σημείο p, το οποίο μόλις προστέθηκε στη συστάδα. Η περιοχή της συστάδας εκτιμάται με χρήση πλεγμάτων, τα οποία περιβάλλουν την συστάδα με ένα πολύγωνο.

Ο Αλγόριθμος DBCLASD

Αρχιτεκτονικές GIS 1η εναλλακτική:  Δύο βάσεις δεδομένων : μία χωρική και μια θεματική (σχεσιακή)  Αρκετά διαδεδομένη (ArcGIS, MapInfo,…) 2η εναλλακτική:  Ένα εκτεταμένο αντικειμενοστραφές ΣΔΒΔ (object-relational DBMS) φιλοξενεί και διαχειρίζεται χωρικά και θεματικά δεδομένα π.χ. Oracle Spatial Cartridge, Informix Spatial Datablade, Microsoft SpatialWare

Υποστήριξη Spatial Data Types σε DBMS Παραδοσιακά σχεσιακά DBMS – Υποστηρίζουν απλούς τύπους δεδομένων, π.χ. number, varchar[], date – Υποστήριξη χωρικών δεδομένων μπορεί να γίνει απλοϊκά  π.χ. ένα σημείο ως δύο αριθμοί, μια περιοχή ως ένα πολύγωνο  Πέρα από τα σχεσιακά DBMS  Object oriented (OO) DBMS  Υποστηρίζουν abstract data types (ADT’s) που ορίζονται από το χρήστη  Οπότε είναι εφικτή η προσθήκη χωρικών τύπων δεδομένων (π.χ. polygon)

Εφαρμογή Χωρικής Κατηγοριοποίησης σε Ιατρικές Εικόνες Ένα δίκτυο αγωγών στο μαστό: (a) γαλακτόγραμμα με a contrast-enhanced δίκτυο αγωγών, (b) μέρος του γαλακτογράμματος που δείχνει μεγαλύτερο το δίκτυο αγωγών, (c) το δίκτυο Προεπεξεργασία (προσδιορισμός ορίων χωρικών περιοχών, σκελετοποίηση, κανονικοποίηση (ισόμορφα δένδρα) Labeling και αναπαράσταση δέντρων με σειρές χαρακτήρων – κωδικοποίηση Prüfer Prufer { } (a) (b) (c) [ V. Megalooikonomou, D. Kontos, J. Danglemaier, A. Javadi, P. A. Bakic, A.D.A. Maidment, Proceedings of the SPIE Conference on Medical Imaging, 2006.]

Ποσοτικός Χαρακτηρισμός Δενδροειδών δομών και Ταξινόμηση … αναπαράσταση δέντρων με σειρές χαρακτήρων Χρήση τεχνικών tf-idf εξόρυξης γνώσης από κείμενα για ανάθεση βάρους σπουδαιότητας σε κάθε όρο- label  To βάρoς w ij του όρου i στη σειρά j προσδιορίζεται ως εξής: w ij = tf ij idf i = tf ij log 2 (N/ df i ) όπου f ij είναι η συχνότητα εμφάνισης του όρου i στη σειρά j, tf ij = f ij / max{f ij } df i = αριθμός των σειρών που περιλαμβάνουν τον όρο i, idf i = αντίστροφο της df i, = log 2 (N/ df i ) και N: ο συνολικός αριθμός σειρών  H κάθε σειρά αναπαρίστανται ως ένα t-dimensional διάνυσμα: d j = (w 1j, w 2j, …,w tj ), όπου t = |vocabulary|=διάσταση  Δύο σειρές είναι παρεμφερείς με βάση το cosine similarity measure των διανυσμάτων που υπολογίζεται ως εξής: CosSim(d j, q) =

Ποσοτικός Χαρακτηρισμός Δενδροειδών δομών και Ταξινόμηση Similarity searches:  Υπολογίζουμε το pairwise cosine distance matrix για όλα τα tf-idf διανύσματα.  Χρησιμοποιούμε κάθε δένδρο (δηλ. tf-idf διάνυσμα) σαν query και βρίσκουμε τα k πιο όμοια δέντρα με βάση το cosine distance matrix.  Precision: το ποσοστό των σχετικών δένδρων (relevant trees) μεταξύ αυτών που βρέθηκαν – μέσος όρος για όλα τα similarity queries που κάναμε (σχετικά: τα δένδρα που ανήκουν στην ίδια ομάδα με το query tree (NF vs. RF)). Prufer Encoding k Precision NFRFTotal 1100% %70.83 %79.55 % %66.67 %72.73 % %64.58 %68.18 % %65.00 %66.36 %

Τέλος παρουσίασης…