Ανάκτηση Πληροφορίας Φροντιστήριο 1 Πλέγας Γιάννης Οκτώβριος 2009.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
Βασικές έννοιες αλγορίθμων
Indexing.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Ανάκτηση Πληροφορίας Φροντιστήριο 1 Οκτώβριος 2013.
Απαντήσεις Προόδου II.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Αλφαριθμητικά.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
Κατακερματισμός Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Δυναμικός Κατακερματισμός.
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Ανάλυση του λευκού φωτός και χρώματα
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Β΄ ΓΕΛ ΕισΑρχΕπ Η/Υ παρ – 2.2.5
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Εξάσκηση στην προπαίδεια
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια.
Ευρετήρια. 2 Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου Δευτερεύον ευρετήριο (secondary index): ορισμένο σε πεδία διαφορετικά.
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
Ευρετήρια.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Ευρετήρια.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Ευρετήρια.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Β΄ ΓΕΛ ΕισΑρχΕπ Η/Υ παρ – 2.2.5
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Μεταβλητές – εντολές εκχώρησης- δομή ακολουθίας
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ουρά Προτεραιότητας: Heap
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων Φροντιστήριο - 30/04/2009.
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Ουρά Προτεραιότητας (priority queue) Δομή δεδομένων που υποστηρίζει.
ΕΠΛ 223 Θεωρία και Πρακτική Μεταγλωττιστών7-1 Πίνακας Συμβόλων Πίνακας συμβόλων: δομή δεδομένων που χρησιμοποιείται για την αποθήκευση διαφόρων πληροφοριών.
1 ΗΥ-340 Γλώσσες και Μεταφραστές Φροντιστήριο Πίνακας Συμβόλων Symbol Table.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
ΤΑ ΔΟΝΤΙΑ ΜΑΣ.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
Παράδειγμα B + -Tree Υποθέτουμε B + -Tree τάξης 3 (α=2, b=3)  Κάθε φύλλο θα έχει 2 ως 3 το πολύ στοιχεία  Κάθε εσωτερικός κόμβος θα έχει 2 ως 3 το πολύ.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Δυναμικός Κατακερματισμός
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Ανάκτηση Πληροφορίας Φροντιστήριο 1 Πλέγας Γιάννης Οκτώβριος 2009

Περιεχόμενα Ανεστραμμένα Αρχεία Β-Δέντρα Perfect Hashing Structures Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Ανεστραμμένα Αρχεία Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Ανεστραμμένα Αρχεία Τα ανεστραμμένα αρχεία (inverted files) αποτελούν μια διαφορετική λύση για δεικτοδότηση πεδίων τύπου συνόλου (σύνολα κειμένων). Παίρνουν το όνομά τους από το γεγονός ότι για κάθε αντικείμενο του λεξιλογίου δημιουργείται μια λίστα (ανεστραμμένη λίστα) στην οποία περιέχεται πληροφορία για τις θέσεις όπου εμφανίζεται το αντικείμενο (όρος) αυτό στη βάση (κείμενο ή έγγραφο). 4 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ανεστραμμένα Αρχεία Σε μια βάση δεδομένων εμπορικών συναλλαγών, η πληροφορία αυτή μπορεί να είναι τα αναγνωριστικά των συναλλαγών που περιέχουν το αντικείμενο. Σε βάσεις που διαχειρίζονται κείμενο, η πληροφορία μπορεί να πάρει τη μορφή του αριθμού γραμμής στους οποίους εμφανίζεται η λέξη. 5 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Δημιουργία Ανεστραμμένων Αρχείων Αρχεία κειμένων σαρώνονται και εξάγονται διακριτικά (tokens). Τα tokens καταχωρούνται με ένα κωδικό κειμένου (Document ID) Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Now is the time for all good men to come to the aid of their country It was a dark and stormy night in the country manor. The time was past midnight Κείμενο ΑΚείμενο Β

Δημιουργία Ανεστραμμένων Αρχείων Όταν όλα τα κείμενα σαρωθούν τότε το ανεστραμμένο αρχείο ταξινομείται. 7 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Δημιουργία Ανεστραμμένων Αρχείων Οι πολλαπλοί όροι για κάθε κείμενο συνενώνονται και προστίθεται η συχνότητα εμφάνισης 8 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Δημιουργία Ανεστραμμένων Αρχείων Οι πολλαπλοί όροι για κάθε κείμενο συνενώνονται και προστίθεται η συχνότητα εμφάνισης 9 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Το αρχείο χωρίζεται Λεξικό Εμφανίσεις

Ανεστραμμένα Αρχεία Η ακρίβεια με την οποία προσδιορίζεται η θέση αναφέρεται σαν υφή (grain) του ευρετηρίου. Για ευρετήρια ανεστραμμένου αρχείου, μπορούμε να διακρίνουμε δύο κατηγορίες σχετικές με την υφή τους: ▫Ευρετήριο αδρής υφής (coarse grain index) ▫Ευρετήριο λεπτής υφής (fine grain index) 10 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ανεστραμμένα Αρχεία Ευρετήριο αδρής υφής (coarse grain index): Σε ευρετήρια αδρής υφής, κρατείται πληροφορία μικρής λεπτομέρειας, όπως αυτή του παραδείγματος. Κάθε ανεστραμμένη λίστα κρατά μόνο τους αύξοντες αριθμούς των κειμένων στις οποίες εμφανίζεται ο αντίστοιχος όρος. 11 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ανεστραμμένα Αρχεία Ευρετήριο λεπτής υφής (fine grain index): Σε τέτοια ευρετήρια, η θέση του κάθε όρου προσδιορίζεται με μεγαλύτερη ακρίβεια. Στο προηγούμενο παράδειγμα, ένα ευρετήριο λεπτής υφής θα μπορούσε να περιλαμβάνει, εκτός από το αναγνωριστικό του κειμένου, ένα δεύτερο αριθμό που να προσδιορίζει σε ποια θέση μέσα στο κείμενο υπάρχει ο όρος. 12 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ανεστραμμένα Αρχεία Όσο πιο λεπτή είναι η υφή ενός ανεστραμμένου αρχείου τόσο μεγαλύτερο είναι το μέγεθός του. ▫Εφόσον απαιτείται μεγαλύτερη ακρίβεια στον προσδιορισμό της θέσης κάθε όρου, είναι απαραίτητο να κρατείται περισσότερη πληροφορία. ▫Οι πολλαπλές εμφανίσεις ενός όρου σε ένα κείμενο Η λεπτή υφή παρέχει τη δυνατότητα άμεσης απόρριψης λανθασμένων υποψήφιων απαντήσεων (π.χ. όταν ψάχνουμε φράσεις) χωρίς να είναι απαραίτητη η πρόσβαση στο περιεχόμενο των απαντήσεων αυτών (να ανακτήσουμε το κείμενο). 13 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

14 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Ερώτημα(Query) με ένα όρο Επιστρέφεται η ανεστραμμένη λίστα του όρου που ψάχνουμε. Ερώτημα(Query) με ένα 2 όρους Επιστρέφεται η τομή ανάμεσα στις δυο ανεστραμμένες λίστες των όρων που ψάχνουμε.

15 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Ερώτημα(Query) με δυο όρους 1 ος όρος ▫some 2 ος όρος ▫hot Τομή ▫some AND hot →

Β-Δέντρα (B-trees) Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Κίνητρα για B-Trees Μέχρι τώρα έχουμε υποθέσει ότι μπορούμε να αποθηκεύσουμε μια ολόκληρη δομή δεδομένων στην κύρια μνήμη. Τι κάνουμε σε περίπτωση που τα δεδομένα δε χωράνε στη μνήμη; Χρησιμοποιούμε το δίσκο αλλά σε αυτή την περίπτωση η πολυπλοκότητα αποτυγχάνει. 17 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Κίνητρα για B-Trees Υποθέτουμε ότι όλες οι διαδικασίες παίρνουν κατά προσέγγιση ίσο χρόνο. Αυτό δε συμβαίνει όταν παρεμβάλλεται πρόσβαση στο δίσκο. Με άλλα λόγια, μια πρόσβαση στο δίσκο παίρνει σχεδόν ίδιο χρόνο με εντολές. Αξίζει να εκτελούμε πολλές εντολές για να αποφύγουμε μία πρόσβαση στο δίσκο. 18 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Κίνητρα για B-Trees Σε περιπτώσεις μεγάλου όγκου δεδομένων, καταλήγουμε σε ένα πολύ βαθύ δέντρο με πολλές διαφορετικές προσβάσεις στο δίσκο. Γνωρίζουμε πως δεν μπορούμε να βελτιώσουμε το log n για ένα binary tree Μια λύση είναι να χρησιμοποιηθούν περισσότεροι κλάδοι και έτσι λιγότερο ύψος! Όσο αυξάνονται οι διακλαδώσεις το βάθος μειώνεται 19 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ορισμός B-tree Ένα B-tree τάξης m είναι ένα m- tree ( ένα δέντρο όπου κάθε κόμβος μπορεί να έχει μέχρι m παιδιά ) όπου: 1.Ο αριθμός κλειδιών στα μη φύλλα είναι ένα λιγότερο από τον αριθμό των παιδιών τους και αυτά τα κλειδιά ορίζουν τη διαμέριση των κλειδιών των παιδιών όπως σε ένα κλασσικό search tree 2.όλα τα φύλλα είναι στο ίδιο επίπεδο. 3. όλα τα μη φύλλα εκτός της ρίζας έχουν τουλάχιστον  m / 2  παιδιά (  m / 2  στοιχεία). 4.Η ρίζα είναι φύλλο, ή έχει από 2 έως m παιδιά 5.΄Ενα φύλλο περιέχει μέχρι m – 1 κλειδιά m πάντα περιττός 20 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Ένα B-Tree 21 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Ένα B-tree τάξης 5 με 26 στοιχεία Όλα τα φύλλα στο ίδιο επίπεδο

Insert σε ένα B-Tree Προσπάθεια να προστεθεί το νέο κλειδί σε ένα φύλλο Εάν υπερφορτωθεί το φύλλο, σπάμε το φύλλο στα δύο, και ανεβάζουμε το μεσαίο κλειδί στον πατέρα του. Εάν υπερφορτωθεί ο πατέρας επαναλαμβάνουμε την ίδια διαδικασία. Αυτή η στρατηγική να πρέπει να επαναληφθεί μέχρι την κορυφή. Εάν κριθεί απαραίτητο, η ρίζα σπάει στα δύο και το μεσαίο κλειδί ανεβαίνει στη νέα ρίζα. 22 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Κατασκευάζοντας ένα B-tree τα κλειδιά φθάνουν στην ακόλουθη σειρά : Θέλουμε να κατασκευάσουμε ένα B-tree τάξης 5 Τα 4 πρώτα στοιχεία πάνε στη ρίζα: Εάν βάλουμε το 5 ο στοιχείο στη ρίζα παραβιάζουμε τη συνθήκη 5 Επομένως, όταν το 25 έρχεται, επιλέγουμε το μεσαίο κλειδί και φτιάχνουμε μία νέα ρίζα 23 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Κατασκευάζοντας ένα B-tree 24 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος , 14, 28 προστίθενται στα φύλλα :

Κατασκευάζοντας ένα B-tree Προσθέτοντας το 17 στο δεξί φύλλο το υπερφορτώνουμε, και έτσι παίρνουμε το μεσαίο κλειδί, το ανεβάζουμε στη ρίζα και σπάμε το φύλλο. 25 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος , 52, 16, 48 προστίθενται στα φύλλα

Κατασκευάζοντας ένα B-tree Προσθέτοντας το 68 σπάμε το δεξιότερο φύλλο, ανεβάζουμε το 48 στη ρίζα, και προσθέτοντας το 3 σπάμε το αριστερότερο φύλλο, ανεβάζοντας το 3 στη ρίζα; 26, 29, 53, 55 πάνε στα φύλλα. 26 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Η πρόσθεση του 45 σπάει το Και ανεβάζοντας το 28 στη ρίζα, σπάμε τη ρίζα

Κατασκευάζοντας ένα B-tree 27 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Διαγραφή σε ένα B-tree Κατά τη διάρκεια της εισαγωγής, το κλειδί πηγαίνει πάντα σε ένα φύλλο. Για τη διαγραφή επιθυμούμε να αφαιρέσουμε από ένα φύλλο. Οι πιθανοί τρόποι που μπορούμε να κάνουμε αυτό είναι: 1.Εάν το κλειδί είναι σε φύλλο, και η αφαίρεσή του δεν οδηγεί σε πολύ λίγα παιδιά, τότε απλά το διαγράφουμε. 2.Εάν το κλειδί δεν είναι σε φύλλο και ο πρόγονος ή απόγονός του είναι σε φύλλο. Τότε διαγράφουμε το κλειδί και μεταφέρουμε το κλειδί του απόγονου/πρόγονου στη θέση του διαγραμμένου κλειδιού. 28 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Διαγραφή σε ένα B-tree Εάν οι 1 και 2 οδηγήσουν σε έναν κόμβο φύλλων που περιέχει λιγότερο από τον ελάχιστο αριθμό κλειδιών, έπειτα πρέπει να εξετάσουμε τα γειτονικά αδέρφια του εν λόγω φύλλου : 3.εάν ένας από αυτούς έχει περισσότερα από τον ελάχιστο αριθμό κλειδιών τότε ανεβάζουμε ένα κλειδί στον πατέρα και παίρνουμε το κλειδί του πατέρα στο φύλλο που το χρειάζεται. 4.εάν κανένας από αυτούς δεν έχει περισσότερα από τον ελάχιστο αριθμό κλειδιών, τότε το φύλλο και ένας από τους γείτονες μπορούν να συνδυαστούν με τον κοινό πατέρα τους και το νέο φύλλο θα έχει το σωστό αριθμό φύλλων; εάν αυτό το βήμα αφήνει το γονέα με πολύ λίγα κλειδιά έπειτα επαναλαμβάνουμε τη διαδικασία μέχρι τη ρίζα, αν είναι απαραίτητο 29 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

#1: Απλή διαγραφή φύλλου 30 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Delete 2:Δεδομένου ότι υπάρχουν αρκετά κλειδιά στον κόμβο, το διαγράφουμε

#2: Απλή διαγραφή μη-φύλλου 31 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Delete 52 56

#4:Πολύ λίγα κλειδιά στον κόμβο και τα αδέρφια του 32 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος Delete 72 Πολύ λίγα κλειδιά! Τα συνενώνουμε

#4:Πολύ λίγα κλειδιά στον κόμβο και τα αδέρφια του 33 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

#3: Αρκετά αδέρφια 34 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

#3: Αρκετά αδέρφια 35 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Ανάλυση B-Tree Ο μέγιστος αριθμός στοιχείων σε ένα B-tree τάξης m και ύψους h: rootm – 1 level 1m(m – 1) level 2m 2 (m – 1)... level hm h (m – 1) m h+1 – 1Έτσι, ο συνολικός αριθμός στοιχείων είναι (1 + m + m 2 + m 3 + … + m h )(m – 1) = [(m h+1 – 1)/ (m – 1)] (m – 1) = m h+1 – 1 36 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Πολυπλοκότητα πράξεων Search/Insert/Delete παίρνουν όσο ο αριθμός των στοιχείων στο μονοπάτι από τον κόμβο στη ρίζα. Ο συνολικός αριθμός πράξεων είναι λιγότερος από το ύψος του δέντρου. Το ύψος ενός δέντρου είναι λιγότερο από log(n) όπου n είναι ο αριθμός στοιχείων σε ένα B-δέντρο. 37 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Perfect Hashing Structures Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος

Εισαγωγή Μία από τις βασικότερες δομές ευρετηριοποίησης σε συλλογές εγγράφων είναι τα ανεστραμμένα αρχεία (inverted files). Υπάρχουν πολλοί τρόποι για να αποθηκεύσει κανείς το λεξικό, ένας από αυτούς είναι το Perfect hashing: ▫Οι όροι αποθηκεύονται με χρησιμοποίηση μίας συνάρτησης τέλειου κατακερματισμού (perfect hashing), αυτή η επιλογή προτιμάται για λεξικά σταθερού μεγέθους που δεν ανανεώνονται 39 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Perfect hashing Χρησιμοποιούνται στην πράξη σε μικρούς πίνακες της κύριας μνήμης για ειδικές εφαρμογές όπως για παράδειγμα, σε μεταφραστές για αποθήκευση δεσμευμένων λέξεων, σε επεξεργασία φυσικής γλώσσας για φιλτράρισμα λέξεων υψηλής συχνότητας κτλ. ▫Αυτού του είδους ο κατακερματισμός είναι εφικτός μόνο όταν ξέρουμε εκ των προτέρων τα κλειδιά πού θα μετασχηματίσουμε. Αν μια τέλεια συνάρτηση δεσμεύει τον ελάχιστο δυνατό χώρο, τότε λέγεται ελάχιστη(minimal). 40 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing Μηχανισμός ταιριάσματος ενός συνόλου L με n στοιχεία X j με ένα σύνολο από ακεραίους αριθμούς h(x j ) που ικανοποιούν τη σχέση 0≤h(x j )≤m-1, με διπλά ταιριάσματα να επιτρέπονται. Καθιερωμένος τρόπος για την υλοποίηση ενός πίνακα αναζήτησης με καλά αποτελέσματα. 41 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing Παράδειγμα: Έχουμε n κλειδιά Μια κοινή hash function είναι η εξής: ▫H(x) = x*modm, m > n/a, a ένα βάρος (αναλογία εγγραφών σε διαθέσιμες διευθύνσεις) και m ένας αρχικά καθορισμένος αριθμός διαθέσιμων θέσεων 42 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing Παράδειγμα: Έχουμε 1000 κλειδιά Προτείνεται η συνάρτηση ▫h(x) = x*mod1.399 (τοποθεσίες) Δίνει βάρος a= Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Σχεδιασμός αλγορίθμου 44 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Πρέπει να κάνουμε map n στοιχεία σε m slots Η πιθανότητα να εισάγουμε τα n στοιχεία χωρίς επικαλύψεις είναι: ▫Όταν m=365 και n=22, Π=0.524 ▫Όταν m=365 και n=23, Π=0.493

Minimal Perfect Hashing Όσο πιο μικρό είναι το a τόσο απίθανο είναι 2 κλειδιά να δείχνουν στην ίδια hash τιμή. Η αποφυγή επικαλύψεων είναι σχεδόν αδύνατη στην πραγματικότητα. 45 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing Παράδειγμα: Έχουμε για κλειδιά τις 365 ημέρες Πόσοι άνθρωποι μπορούν να συλλεχθούν μαζί πριν να συμβεί 2 από αυτούς να έχουν την ίδια μέρα γενέθλια με πιθανότητα 0.5; Η απάντηση είναι 23 άνθρωποι 46 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing Όταν η hash function έχει την επιπλέον ιδιότητα για x i και x j στο L, h(x i )=h(x j ) αν και μόνο αν i=j τότε η συνάρτηση λέγεται perfect hash function ▫Εδώ δεν υπάρχουν συγκρούσεις Όταν η hash function είναι και perfect και ταιριάζει το m με το n (m=n) καθένα από τα n κλειδιά ταιριάζει σε ένα μοναδικό ακέραιο μεταξύ 1 και n και a=1. Τότε η συνάρτηση λέγεται minimal perfect function (MPHF) ▫Επιτυγχάνει μια πρόσβαση ▫Δεν υπάρχουν κενά slots Όταν η hash function έχει ιδιότητα όταν x i <x j τότε h(x i )<h(x j ) τότε λέγεται πως είναι order preserving 47 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing 48 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Minimal Perfect Hashing 49 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Έχουμε 2 hash functions h 1 (t), h 2 (t) Κάνουν map σε ακέραιους στο διάστημα 0....m-1 για κάποιες τιμές m≥n με επικαλύψεις επιτρεπτές

Minimal Perfect Hashing 50 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος ος τρόπος: να λάβουμε κάθε χαρακτήρα σαν συμβολοσειρά radix-36 και να υπολογίσουμε τα βάρη w j, ▫t[i] είναι το radix-36 του i χαρακτήρα του όρου t ▫|t| είναι το μήκος σε χαρακτήρες του όρου t

Minimal Perfect Hashing 51 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Έχοντας δυο διαφορετικά σύνολα από βάρη w 1 [i] και w 2 [i] για 1≤i ≤|t| έχουμε και δυο διαφορετικές hash functions h 1 (t), h 2 (t) Χρειαζόμαστε ένα πίνακα g που να κάνει map τους αριθμούς 0...m-1 στα κλειδιά 0…..n-1 (πίνακας b) ▫h(t) = g(h 1 (t))+ n g(h 2 (t)) για ένα string t (το h(t) δείχνει την τελική θέση στη λίστα)

Minimal Perfect Hashing 52 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Έχοντας ένα σύνολο από όρους Δεν χρειάζεται να αποθηκεύουμε το αλφαριθμητικό (όρο t) Χρειαζόμαστε να αποθηκεύουμε στην h(t) θέση του πίνακα ▫Το ft ▫Την διεύθυνση του όρου στο ανεστραμμένο αρχείο Χώρος ▫1.44n bits (~ or 4-20 bits per key) για MPHF ▫nlogn bits για OPMPHF

Σχεδιασμός αλγορίθμου 53 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Το μυστικό του σχεδιασμού είναι ο ορθός σχεδιασμός του πίνακα g. Δημιουργούμε τις h 1 (t) και h 2 (t) βάζοντας τυχαίες τιμές στους πίνακες w 1 και w 2. Δημιουργούμε γράφημα με m κόμβους και ακμές με ετικέτες την hash function (h(t)) για κάθε όρο t. Κάθε όρος t του λεξικού ανταποκρίνεται σε μια ακμή του γραφήματος και οι δυο hash functions ορίζουν σε ποιους κόμβους συνδέεται η κάθε ακμή.

Σχεδιασμός αλγορίθμου 54 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009

Τέλος 1 ου Φροντιστηρίου 55 Ανάκτηση Πληροφορίας - Φροντιστήριο 1 - Οκτώβριος 2009 Αναφορές ▫Managing Gigabytes, Compressing and Indexing Documents and Images, Witten, Moffat, Bell