1 Multimedia Database Systems Indexing Part B Metric-based Indexing Techniques Department of Informatics Aristotle University of Thessaloniki Fall 2008.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Αλγόριθμοι σχεδίασης βασικών 2D σχημάτων (ευθεία)
Indexing.
Δομές Δεδομένων και Αλγόριθμοι
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Nikos Louloudakis Nikos Orfanoudakis Irini Genitsaridi
Εργαστήριο Υδρογεωλογίας - ΑΣΚΗΣΗ 7
Matching.
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Πιθανοκρατικοί Αλγόριθμοι
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Δυναμικός Κατακερματισμός.
Ο αλγόριθμος του Ukkonen Βεργούλης Θανάσης Το suffix trie Το suffix trie του string D=“book” b o o k o o k k k $ $ $ $
Ανάλυση του λευκού φωτός και χρώματα
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Αλγόριθμοι και Πολυπλοκότητα
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Δυναμικός Προγραμματισμός
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
Προσεγγιστικοί Αλγόριθμοι
Δυναμική Διατήρηση Γραμμικής Διάταξης Διατηρεί μια γραμμική διάταξη δυναμικά μεταβαλλόμενης συλλογής στοιχείων. Υποστηρίζει τις λειτουργίες: Έλεγχος της.
Τυχαιοκρατικοί Αλγόριθμοι TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA Πιθανότητες και Αλγόριθμοι Ανάλυση μέσης.
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
A Balanced Tree Structure for Peer-to-Peer Networks
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι12-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος του Prim και ο αλγόριθμος του Kruskal.
Ουρά Προτεραιότητας: Heap
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
1 Νέα Θεωρία Μεγέθυνσης Ενδογενής μεγέθυνση. 2 Συνάρτηση παραγωγής προϊόντος Υ t = Y(K, L, A) Y t = [(1-α k )·K t ] α · [(1-α L )·A t ·L t ] 1-α 0
TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Ουρά Προτεραιότητας (priority queue) Δομή δεδομένων που υποστηρίζει.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Ελάχιστο Συνδετικό Δέντρο
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Δυναμικός Κατακερματισμός
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

1 Multimedia Database Systems Indexing Part B Metric-based Indexing Techniques Department of Informatics Aristotle University of Thessaloniki Fall 2008

Εισαγωγή Μετρικές Δομές Οργάνωσης των Δεδομένων –Μετρικοί Χώροι –Ερωτήματα Ομοιότητας –Μ-δένδρο –Slim-δένδρο Προσεγγιστικά Ερωτήματα με χρήση M-trees Σχήμα Ταξινόμησης προσεγγιστικών ερωτημάτων 2 2 Περιεχόμενα

Αυξανόμενη χρήση της τεχνολογίας -> Αύξηση του όγκου των δεδομένων σε Β.Δ. Ζητήματα Απόδοσης σε ερωτήματα αναζήτησης σε Β.Δ. Δενδρικές Δομές (Β, Β+ δένδρα) για την αποδοτική δεικτοδότηση του συνόλου των εγγραφών Αλλαγές της μορφής των δεδομένων (πολυμεσικών, γεωγραφικών) -> Αλλαγές στις δομές των δεδομένων –Επέκταση υπάρχουσων –Δημιουργία νέων (R, R*, M, Slim δένδρα) 3 Εισαγωγή

Οι Μετρικές Δομές Οργάνωσης των Δεδομένων επιτυγχάνουν την αποδοτική δεικτοδότηση αντικειμένων που βρίσκονται σε μετρικούς χώρους Ένας μετρικός χώρος είναι ένα ζεύγος Μ=(D,d) όπου –D είναι το πεδίο από όπου παίρνουν τιμές τα χαρακτηριστικά των αντικειμένων –d είναι μία συνάρτηση απόστασης μεταξύ των αντικειμένων και πρέπει να πληρεί τις 3 ακόλουθες ιδιότητες Συμμετρία, d(O x, O y ) = d(O y, O x ) Θετικότητα, d(O x, O y ) > 0 (O x ≠ O y ) και d(O x, O x ) = 0 Τριγωνική Ανισότητα, d(O x, O y ) ≤ d(O x, O z ) + d(O z, O y ) 4 Μετρικοί Χώροι

Έστω ότι ψάχνουμε το κοντινότερο σημείο σε μία βάση 3 αντικειμένων σε ένα ερώτημα Q Έστω επίσης ότι η τριγωνική ανισότητα ισχύει και ότι οι αποστάσεις μεταξύ των αντικειμένων στη βάση έχουν υπολογιστεί Έστω ότι το a υπολογίζουμε ότι απέχει 2 μονάδες από το Q (και γίνεται το best so far) Υπολογίζοντας το d(Q,b) = 7.81 και συμπεραίνουμε πως δε χρειάζεται να υπολογιστεί το d(Q,c) διότι: d(Q,b)  d(Q,c) + d(b,c) d(Q,b) - d(b,c)  d(Q,c)  d(Q,c) 5.51  d(Q,c) και έτσι το c απέχει τουλάχιστον 5.51 μονάδες από το Q ενώ το best so far απέχει μόλις 2 5 a b c Q Τριγωνική Ανισότητα

Ερωτήματα Περιοχής –Δοθέντος ενός αντικειμένου ερωτήματος Q Є D και μίας μέγιστης ακτίνας απόστασης r(Q), το ερώτημα περιοχής range(Q, r(Q)) επιλέγει όλα τα αντικείμενα O j έτσι ώστε d(O j, Q) ≤ r(Q) Ερωτήματα k πλησιέστερων γειτόνων –Δοθέντος ενός αντικειμένου ερωτήματος Q Є D και ενός θετικού ακέραιου k ≥ 1, το ερώτημα k πλησιέστερων γειτόνων NN(Q, k) επιλέγει τα k αντικείμενα που έχουν τη μικρότερη απόσταση από το Q. 6 Ερωτήματα Ομοιότητας

Είναι ένα ισοζυγισμένο δένδρο ικανό να χειριστεί δυναμικά σύνολα δεδομένων Βασίζεται στις σχετικές αποστάσεις μεταξύ των αντικειμένων για τον καθορισμό των κόμβων αποθήκευσης τους Είναι τελείως παραμετροποιήσιμο ως προς τη συνάρτηση απόστασης d (black-box) Η βελτιστοποίηση της απόδοσης του επικεντρώνεται –Σε ζητήματα CPU (υπολογισμοί απόστασης) –Σε θέματα Ι/Ο (πρόσβαση στο δίσκο) 7 M-tree

Μορφή των δεικτοδοτούμενων περιοχών –Στο R-δένδρο είναι κάπως έτσι –Στο Μ-δένδρο εξαρτάται από το είδος της συνάρτησης απόστασης 8 G D E H F P O N L I J K M C D E F A B B F D E A C Euclidean L 2 L 1 (city-block) L  (max-metric) weighted-Euclidean quadratic form M-tree

Δομή των κόμβων –Οι κόμβοι φύλλα αποθηκεύουν όλα τα αντικείμενα της Β.Δ. –Οι εσωτερικοί κόμβοι αποθηκεύουν τα routing objects 9 OjOj Τα χαρακτηριστικά του αντικειμένου Ο j oid(O j ) Δείκτης προς το αντικείμενο στη Βάση Δεδομένων d(O j, P(O j ))Απόσταση του O j από τον πατρικό κόμβο OrOr Τα χαρακτηριστικά του routing αντικειμένου Ο r ptr(T(O r )) Δείκτης στη ρίζα του υποδένδρου (covering tree) T(O r ) r(O r )Ακτίνα κάλυψης του O r d(O r, P(O r ))Απόσταση του O r από τον πατρικό κόμβο OrOr N O d(O,O r )  r(N) M-tree

Εφαρμόζονται δύο βασικοί κανόνες για το κλάδεμα κόμβων που δεν μπορούν να συμμετέχουν στην απάντηση ενός ερωτήματος range(Q, r(Q)) Αν d(O r, Q) > r(Q) + r(O r ), τότε για κάθε αντικείμενο O j στο Τ(O r ) ισχύει: d(O j, Q) > r(Q). Συνεπώς το Τ(O r ) μπορεί να κλαδευτεί με ασφάλεια Αν |d(O p, Q) – d(O r, O p )| > r(Q) + r(O r ), τότε d(O r, Q) > r(Q) + r(O r ) και ο κόμβος O r κλαδεύεται Μείωση των υπολογισμών αποστάσεων κατά 40% 10 Μ-tree

Εκτέλεση Ερωτημάτων –Για την απάντηση ερωτημάτων kNN χρησιμοποιείται μία τεχνική branch-and-bound –Κάνει χρήση 2 καθολικών δομών Μία ουρά προτεραιότητας PR –περιέχει δείκτες προς ενεργά υπο-δένδρα –και ένα ελάχιστο όριο d min (T(O r )) = max{d(O r, Q) – r(O r ), 0} το οποίο χρησιμοποιείται ως ευριστικό κριτήριο για την επιλογή του επόμενου κόμβου για εξέταση (διαλέγεται εκείνος ο κόμβος που έχει το μικρότερο ελάχιστο όριο) Έναν πίνακα k θέσεων ΝΝ (στο τέλος θα περιέχει το αποτέλεσμα) 11 Μ-tree

Κατασκευή του Μ-δένδρου –Εισαγωγή νέων αντικειμένων σε οποιαδήποτε χρονική στιγμή, το Μ-δένδρο είναι δυναμικό –Πραγματοποιείται αναδρομική κατάβαση του δένδρου για να βρεθεί το πιο κατάλληλο φύλλο Επιλέγεται κάθε φορά ο κόμβος που δε θα προκαλέσει αύξηση της ακτίνας κάλυψης Αν υπάρχουν περισσότεροι του ενός τέτοιοι κόμβοι επιλέγεται εκείνος του οποιου το O r είναι πλησιέστερα στο O n Αν δεν υπάρχει τέτοιος κόμβος επιλέγεται εκείνος που ελαχιστοποιεί την αύξηση της ακτίνας κάλυψης d(O r, O n ) – r(O r ) 12 Μ-tree

Εφαρμόζεται κατά την εισαγωγή ενός νέου αντικειμένου σε γεμάτο κόμβο 13 ONON ONON ONON ONON N N N N O N1 N1N1 O N2 N2N2 new object O N1 O N2 Promotion Partition Διαχείριση Διάσπασης (split)

Πολιτική Διάσπασης: καθορίζεται από τις υλοποιήσεις των μεθόδων του promoting και του partioning Η βέλτιστη πολιτική θα έπρεπε να πετυχαίνει –Τη μικρότερη δυνατή αλληλοεπικάλυψη μεταξύ των κόμβων (λιγότερα μονοπάτια προσπελαύνονται) –Τη μείωση του μεγέθους των κόμβων (μειώνεται το μέγεθος του δεικτοδοτημένου νεκρού χώρου) 14 Διαχείριση Διάσπασης (split)

Promotion –Δοθέντος ενός συνόλου αντικειμένων Ν, ο καθορισμός δύο αντικειμένων για «ανέβασμα» και αποθήκευση στον πατρικό κόμβο 1.Το ένα από τα δύο promoted αντικείμενα που θα γίνουν είναι το αντικείμενο που περιέχεται στον πατρικό κόμβο 2.Ο αλγόριθμος m_RAD κάνει promote τα αντικείμενα που ελαχιστοποιούν το άθροισμα των ακτινών κάλυψης r(O p1 ) + r(O p2 ) (πιο πολύπλοκος) 3.Ο mM_RAD ελαχιστοποιεί την μέγιστη τιμή των δύο ακτίνων κάλυψης 4.Η μέθοδος M_LB_DIST χρησιμοποιεί μόνο τις ήδη υπολογισμένες αποστάσεις 5.Η μέθοδος RANDOM επιλέγει τυχαία τα 2 αντικείμενα 6.Η μέθοδος SAMPLING διαλέγει τυχαία αντικείμενα, υπολογίζει το άθροισμα των ακτινών κάλυψης των αντικειμένων και επιλέγει αυτά που το ελαχιστοποιούν (η τυχαία δειγματοληψία γίνεται συνήθως μόνο για το δεύτερο αντικείμενο) 15 Προαγωγή (promotion)

Partition –Δοθέντος ενός συνόλου εγγραφών Ν και δύο routing αντικειμένων, το μοίρασμα των εγγραφών σε δύο υποσύνολα του Ν, Ν 1 και Ν 2 1.Σύμφωνα με τον αλγόριθμο Generalized Hyperplane, κάθε αντικείμενο O j Є Ν αντιστοιχίζεται στο κοντινότερο routing αντικείμενο. Αν d(O j, O p1 ) ≤ d(O j, O p2 ), το O j ανατίθεται στον κόμβο Ν 1 αλλιώς στον κόμβο Ν 2 2.Balanced: Αρχικά υπολογίζονται οι αποστάσεις d(O j, O p1 ) και d(O j, O p2 ) για όλα τα O j Є N. Έπειτα, τα επόμενα βήματα εκτελούνται μέχρις ότου να αδειάσει το Ν. »Τοποθέτηση στο Ν 1 του κοντινότερου γείτονα του Ο p1 και διαγραφή του από το Ν »Τοποθέτηση στο Ν 2 του κοντινότερου γείτονα του Ο p2 και διαγραφή του από το Ν Η μέθοδος αυτή καταλήγει σε πολύ καλά ισοζυγισμένα δένδρα όπου όλοι οι κόμβοι έχουν περίπου τον ίδιο αριθμό αντικειμένων, απαιτεί όμως τον υπολογισμό μεγάλου αριθμού αποστάσεων. 16 Διαμέριση (partition)

Το Μ-δένδρο κλιμακώνεται καλά στο μέγεθος του συνόλου δεδομένων. Τόσο το κόστος Ι/Ο όσο και το κόστος CPU αυξάνουν λογαριθμικά. 17 Πειραματικά Αποτελέσματα

Τέσσερα στοιχεία καινοτομίας –Είναι μία paged, ισοζυγισμένη (balanced) και δυναμική δευτερεύουσα δομή δεδομένων για τη δεικτοδότηση συνόλων δεδομένων που ανήκουν σε μετρικούς χώρους –Ερωτήματα περιοχής και ερωτήματα πλησιέστερων γειτόνων μπορούν να εκτελεστούν με βάση ένα αντικείμενο ερωτήματος –Η εκτέλεση των ερωτημάτων έχει βελτιστοποιηθεί έτσι ώστε να μειωθούν τόσο ο αριθμός των σελίδων που διαβάζονται από το δίσκο, όσο και ο αριθμός των υπολογισμών των αποστάσεων που πρέπει να πραγματοποιηθούν –Είναι κατάλληλο για αντικείμενα που χαρακτηρίζονται από μεγάλο αριθμό διαστάσεων, έχουν δηλ. πολλά features 18 Σύνοψη M-tree

Αποτελεί και αυτό μία μετρική δομή οργάνωσης δεδομένων που βρίσκονται σε μετρικούς χώρους Μοιράζεται τη βασική δομή άλλων μετρικών δένδρων (Μ-δένδρο), διαφέρει όμως στα εξής: 1.Ένας νέος αλγόριθμος διάσπασης που βασίζεται στο ελάχιστο ζευγνύον δένδρο (minimum spanning tree – MST) εισάγεται που εκτελείται πιο γρήγορα χωρίς να μειώνεται η απόδοση της ακρίβειας 2.Ένας νέος αλγόριθμος χρησιμοποιείται για την εισαγωγή νέων αντικειμένων στους πιο κατάλληλους κόμβους 3.Εκτελείται τέλος ο αλγόριθμος Slim-down ως ένα post-processing βήμα έτσι ώστε το δένδρο να γίνει tighter και συνεπώς γρηγορότερο κατά την αναζήτηση. Ο αλγόριθμος αυτός χρησιμοποιεί δύο παράγοντες (fat-factor, bloat- factor) για τη μέτρηση του βαθμού επικάλυψης μεταξύ των κόμβων 19 Slim-tree

Σε αντιστοιχία με το Μ-δένδρο οι κόμβοι διακρίνονται Κόμβους φύλλα Εσωτερικούς κόμβους δεικτοδότησης 20 Oid i Identifier του αντικειμένου Ο i D(O i, Rep(O i )) Απόσταση μεταξύ του αντικειμένου O i και του αντιπροσωπευτικού αντικειμένου του κόμβου Rep(O i ) OiOi Το αντικειμένου Ο i OiOi Το αντιπροσωπευτικό αντικείμενο του υπο- δένδρου του κόμβου Radius i Η ακτίνα κάλυψης της περιοχής που καλύπτει ο κόμβος D(O i, Rep(O i )) Απόσταση μεταξύ του αντικειμένου O i και του αντιπροσωπευτικού αντικειμένου του κόμβου Rep(O i ) Ptr(TO i )Δείκτης προς τη ρίζα του υπο-δένδρου NEntries(Ptr(TO i )) Αριθμός των εγγραφών στον κόμβου που δείχνει ο Ptr(TO i ) Slim-tree

Χτίσιμο του Slim-δένδρου –Εντοπισμός ενός κόμβου που να καλύπτει το νέο αντικείμενο ξεκινώντας από τη ρίζα –Αν δεν βρεθεί επιλέγεται εκείνος που το κέντρο του απέχει λιγότερο από το νέο αντικείμενο –Αν υπάρχουν περισσότεροι του ενός κόμβοι εκτελείται ο αλγόριθμος ChooseSubtree –Η παραπάνω διαδικασία εκτελείται σε όλα τα επίπεδα του δένδρου –Επιλογές αλγορίθμου ChooseSubtree random: επιλέγεται τυχαία ο κόμβος mindist: επιλέγεται ο κόμβος που απέχει λιγότερο από το νέο αντικείμενο και το κέντρο του κόμβου minoccup: επιλέγεται ο κόμβος που έχει την ελάχιστη εγκατοίκηση (occupancy) 21 Slim-tree

Διάσπαση κόμβων –random: Τα δύο νέα κεντρικά αντικείμενα επιλέγονται τυχαία κατά όλα τα υπόλοιπα διαμοιράζονται μεταξύ τους με βάση τις αποστάσεις τους από αυτά –minMax: Όλα τα δυνατά ζεύγη αντικειμένων θεωρούνται ως δυνατά κέντρα. Για κάθε ζευγάρι εκτελείται ένας γραμμικός αλγόριθμος που αντιστοιχεί τα υπόλοιπα αντικείμενα σε αυτά. Επιλέγεται το ζευγάρι που ελαχιστοποιεί την ακτίνα κάλυψης –MST: Το ελάχιστο ζευγνύον δένδρο των αντικειμένων δημιουργείται, διαγράφεται η μεγαλύτερη ακμή (μεγαλύτερη απόσταση) και έτσι δημιουργούνται δύο ομάδες. Από κάθε ομάδα επιλέγεται ως αντιπροσωπευτικό αντικείμενο εκείνο που έχει την ελάχιστη μέγιστη απόσταση από τα υπόλοιπα αντικείμενα 22 Slim-tree

Βελτιστοποίηση Επικάλυψης –Στους διανυσματικούς χώρους η επικάλυψη 2 εγγραφών αναφέρεται στην τομή των δύο περιοχών επικάλυψης –Στους μετρικούς χώρους οι περιοχές δεν είναι γνωστές –Συνεπώς επικάλυψη μεταξύ δύο εγγραφών Ι1 και Ι2 ορίζεται ο λόγος του αριθμού των αντικειμένων στα αντίστοιχα υπο-δένδρα που καλύπτονται και από τις 2 περιοχές προς τον αριθμό των αντικειμένων στα 2 υπο- δένδρα –Ένα δένδρο χαρακτηρίζεται από 2 αριθμητικούς παράγοντες Fat-factor Bloat-factor 23 Slim-tree

Βελτιστοποίηση Επικάλυψης Fat-factor –μετράει πόσο καλό είναι ένα δένδρο σε σχέση με το ποσοστό των επικαλύψεων ασχέτως αν απαιτούνται περισσότερες προσβάσεις στο δίσκο λόγω μικρότερης εγκατοίκησης των κόμβων Bloat-factor –λαμβάνει υπόψη του τόσο το ποσοστό επικάλυψης όσο και την αποδοτική εγκατοίκηση των κόμβων –χρησιμοποιείται για τη σύγκριση διαφορετικών δένδρων που περιέχουν τα ίδια δεδομένα Οι δύο παράγοντες κυμαίνονται από 0 μέχρι 1 –0 στη βέλτιστη περίπτωση –1 στη χειρότερη περίπτωση 24 Slim-tree

Ο Slim-down αλγόριθμος παράγει ένα καλύτερο (tighter) δένδρο Μειώνοντας το ποσοστό επικάλυψης των κόμβων Μειώνοντας τον αριθμό των κόμβων του δένδρου 1.Για κάθε κόμβο i σε ένα δοσμένο επίπεδο του δένδρου, βρίσκουμε το αντικείμενο c που απέχει περισσότερο από τον αντιπρόσωπο b 2.Βρίσκουμε έναν αδελφό κόμβο του i, έστω j, που επίσης καλύπτει το αντικείμενο c. Αν βρεθεί τέτοιος j που να μην είναι γεμάτος, βγάζουμε από τον κόμβο i το αντικείμενο c και το τοποθετούμε στον κόμβο j. Διορθώνουμε τέλος την ακτίνα του κόμβου i 3.Τα βήματα 1 και 2 εκτελούνται ακολουθιακά σε όλους τους κόμβους σε ένα δοσμένο επίπεδο του δένδρου. Αν μετά από ένα συνολικό γύρο (full round) των 2 πρώτων βημάτων, ένα αντικείμενο μετακινείται ακόμη από έναν κόμβο σε έναν άλλον, τότε πρέπει να εκτελεστεί ακόμα ένας συνολικός γύρος των βημάτων 1 και 2 25 Slim-tree

Ο Slim-down αλγόριθμος –αν ένα αντικείμενο c μετακινηθεί από τον κόμβο i στον κόμβο j κατά το βήμα 2, και είναι το μοναδικό αντικείμενο του i που έχει αυτή την απόσταση από το κέντρο, τότε η διόρθωση της ακτίνας του i θα μειώσει την ακτίνα του i χωρίς να αυξήσει παράλληλα καμία άλλη ακτίνα 26 Στο σχήμα a φαίνεται το Slim-δένδρο όπως δημιουργήθηκε για το σύνολο δεδομένων Sierpinsky με τη χρήση τυχαίας διάσπασης κόμβων (bloat-factor = 0.03) ενώ στο σχήμα b το διορθωμένο δένδρο (bloat- factor = 0.01) Slim-tree

Πειραματικά Αποτελέσματα –Παρατηρείται πως το Slim-δένδρο είναι καλύτερο του Μ- δένδρου λόγω της μεγαλύτερης εγκατοίκησης των κόμβων 27 Slim-tree

Τα κυριότερα στοιχεία του Slim-δένδρου είναι τα εξής: –Ένας νέος ChooseSubtree αλγόριθμος που κατευθύνει ένα νέο αντικείμενο από έναν κόμβο σε αυτόν που έχει τη μικρότερη εγκατοί- κηση σε περίπτωση που υπάρχει δυνατότητα επιλογής –Ένας νέος αλγόριθμος διάσπασης υπερχειλισμένων κόμβων που βασίζεται στο ελάχιστο ζευγνύον δένδρο (MST) –Ένας νέος αλγόριθμος “Slim-down” ο οποίος έχει τη δυνατότητα να βελτιώσει την απόδοση ενός δένδρου μειώνοντας την επικάλυψη, αυξάνοντας την εγκατοίκηση και μειώνοντας τον αριθμό των κόμβων –Δύο αριθμητικοί παράγοντες χρησιμοποιούνται για τον χαρακτηρισμό της απόδοσης του δένδρου, ο fat-factor και ο bloat-factor 28 Σύνοψη Slim-tree

Προσεγγιστικά Ερωτήματα –Ανάγκη για αυξημένη επίδοση –Γρήγορη απόκριση –Ποιότητα στα αποτελέσματα Γιατί; –Μεγάλος όγκος δεδομένων –Η exact αναζήτηση υπολογιστικά/χρονικά ασύμφορη –Αναγκαιότητα για γρήγορη λήψη σωστών αποφάσεων 29 Προσεγγιστικά Ερωτήματα

Πειράματα –Χρήση M-trees –Χρήση k-NN μεθόδου (10 k-ΝΝ) –Χρήση Ευκλείδειας απόστασης –Αρχεία πειραμάτων CHV – διανύσματα 45 διαστάσεων –Πραγματικά δεδομένα UV –Συνθετικά δεδομένα –Διανύσματα που κατανένομονται ομοιόμορφα CV –Συνθετικά δεδομένα –Χρήση cluster 30 Προσεγγιστικά Ερωτήματα

Μέτρα απόδοσης –Improvement in efficiency (IE), που σχετίζει το κόστος της ακριβής αναζήτησης με αυτό της προσεγγιστικής. –Precision of approximation (P) –Relative distance error (ε) –όταν το ε = 0 τότε η προσεγγιστική μέθοδος δίνει τα ίδια αποτελέσματα με την ακριβή/εξαντλητική μέθοδο 31 Προσεγγιστικά Ερωτήματα

Approximation through relative distance errors 32 Σημαντικό ρόλο στην απόδοση διαδραματίζει η πυκνότητα του χώρου αναζήτησης και όχι η κατανομή των δεδομένων. Λιγότερο πυκνοί χώροι παρέχουν καλύτερη ακρίβεια και υψηλότερη βελτίωση της απόδοσης αλλά μπορεί να δώσουν και προσεγγίσεις με μεγαλύτερο σχετικό σφάλμα. Προσεγγιστικά Ερωτήματα

Approximate search through distance distributions 33 Η μέθοδος αυτή εκμεταλλεύεται χαρακτηριστικά της κατανομής της απόστασης για να ελέγξει την αναζήτηηση προσεγγιστικής ομοιότητας. Με αυτή τη μέθοδο μπορούμε να βρούμε τιμές του ρ για τις οποίες να πετύχουμε υψηλή απόδοση, υψηλή ακρίβεια και μικρό σχετικό λάθος (πχ για ρ=0,01). Προσεγγιστικά Ερωτήματα

Approximation through the slowdown of distance improvements 34 Η μέθοδος αυτή βασίζεται σε μια πραγματική παρατήρηση ότι η ακριβής απάντηση ανακτάται μέσα από πολλαπλά στάδια αναζήτησης τα οποία βελτιώνουν την ακρίβεια (precision) των προηγούμενων προσεγγιστικών αποτελεσμάτων. Προσεγγιστικά Ερωτήματα

35 Approximation through the slowdown of distance improvements Γενικά η μέθοδος αυτή πέτυχε υψηλή βελτίωση στην απόδοση και διατήρησε καλή ποιότητα στα αποτελέσματα. Προσεγγιστικά Ερωτήματα

Τα πειράματα έδειξαν πως η πρώτη μέθοδος δεν είναι πολύ αποδοτική και καλύτερη όλων είναι η δεύτερη μέθοδος που έχει και υψηλή απόδοση και καλό precision. Γενικά αποδεικτικέ πως το να βρω 10 αντικείμενα από τα 100 καλύτερα είναι 100 φορές πιο γρήγορο από το να βρω τους πραγματικούς 10 πλησιέστερους γειτόνους. Γενικά και οι 3 μέθοδοι είναι εύκολο να υλοποιηθούν με δυσκολότερη υλοποίηση να έχει η μέθοδος προσέγγισης μέσω κατανομών απόστασης. Η δυσκολία έγκειται στην ανάγκη υπολογισμού και διατήρησης της κατανομής της απόστασης για όλα τα αντικείμενα της συλλογής. Σε τέτοιες περιπτώσεις καλύτερα να επιλέγεται η τρίτη μέθοδος. 36 Προσεγγιστικά Ερωτήματα

CV αρχεία 37 Προσεγγιστικά Ερωτήματα

CHV αρχεία 38 Προσεγγιστικά Ερωτήματα

UV αρχεία 39 Προσεγγιστικά Ερωτήματα

Ερωτήματα βάσει της τρίτης μεθόδου και για κ μεγαλύτερο του Προσεγγιστικά Ερωτήματα

Οι διάφορες μέθοδοι επεξεργασίας προσεγγιστικών ερωτημάτων μπορούν να ταξινομηθούν με βάση τα παρακάτω κριτήρια: –Ο τύπος των δεδομένων στα οποία θα εφαρμοστεί η μέθοδος –Οι μετρικές που θα χρησιμοποιηθούν για να υπολογίσουμε τα λάθη από την προσέγγιση –Τι εγγυήσεις υπάρχουν για την ποιότητα των αποτελεσμάτων –Ο βαθμός της αλληλεπίδρασης του χρήστη με την μέθοδο 41 Προσεγγιστικά Ερωτήματα

Τύποι Δεδομένων –MS (metric spaces) –VS (vector spaces) –VS Lp (vector spaces, L p distance) 42 Προσεγγιστικά Ερωτήματα

Μετρικές Λάθους –CS (changing space) –RC (reducing comparisons) 43 Προσεγγιστικά Ερωτήματα

Εγγυήσεις Ποιότητας –NG (no guarantees) –DG (deterministic guarantees) –PG (probabilistic guarantees) PGpar (probabilistic guarantees, parametric) PGnpar (probabilistic guarantees, non-parametric) 44 Προσεγγιστικά Ερωτήματα

Αλληλεπίδραση με τον Χρήστη –SA (static approach) –ΙΑ (interactive approach) 45 Προσεγγιστικά Ερωτήματα

Το παραπάνω σχήμα ταξινόμησης των προσεγγιστικών μεθόδων για ερωτήματα ομοιότητας μπορεί να αποδεικτεί αρκετά χρήσιμο γιατί μέσω αυτού μπορούμε να εντοπίσουμε συσχετίσεις και ομοιότητες μεταξύ των μεθόδων που με μια πρώτη ματιά μπορεί να μην είναι προφανείς. 46 Προσεγγιστικά Ερωτήματα

Σύνοψη

Βιβλιογραφία