Ψηφιακό Δέντρο (Trie) και Δέντρο Επιθεμάτων (Suffix tree)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εισαγωγή στη Βιοπληροφορική 3η διάλεξη Μάθημα Ελεύθερης Επιλογής Τομέα Λογικού των Υπολογιστών Εαρινό Εξάμηνο Ακαδ. Έτους Χ. Mακρης- Α. Περδικούρη.
Advertisements

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Ο αλγόριθμος του Ukkonen Βεργούλης Θανάσης Το suffix trie Το suffix trie του string D=“book” b o o k o o k k k $ $ $ $
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree
1/23 DHTStrings: Συστήματα Δημοσιεύσεων/Συνδρομών σε DHT Δίκτυα με Υποστήριξη για Συμβολοσειρές Διανομή Περιεχομένου στο Διαδίκτυο Τμήμα ΜΗΥΠ Παν/μιο Πατρών.
Γλωσσική Τεχνολογία String Handling – Regular Expressions.
Regular Expressions. Regular Expressions - γενικά  Βασική ιδέα: έχουμε ένα pattern και ένα κείμενο εισόδου. Εφαρμόζουμε το pattern στο κείμενο και μπορούμε:
ΛΟΓΙΣΜΙΚΟ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ MERLIN / MCL 3.0 ΠΕΡΙΒΑΛΛΟΝ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ.
WEIGHTED CLUSTERING ΠΡΟΗΓΜΕΝΗ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Μιχάλης Χριστόπουλος Μ Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence.
ΛΟΓ102: Τεχνολογία Λογισμικού Ι Διδάσκων: Νίκος Παπασπύρου 1Νίκος ΠαπασπύρουΛΟΓ102:
Εισαγωγή στη Βιοπληροφορική Ενότητα 7: Αλγόριθμοι κατηγοριοποίησης βιολογικών δεδομένων Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική.
Πληροφορίες μαθήματος Διδασκαλία Θεωρίας: Τετάρτη Εγγραφή στο eclass του μαθήματος Βιβλιογραφία μαθήματος: –Θεμελιώδεις Αρχές Συστημάτων Βάσεων.
Εισηγητής : Κωνσταντίνος Μηλιωρίτσας. Πολιτικός Μηχανικός, Προϊστάμενος Ύδρευσης ΔΕΥΑ Λαμίας. Αξιοποίηση υφιστάμενων σταθμών τηλεμετρίας ΑΠΡΙΛΙΟΣ, 2016.
Υπηρεσίες Μακροχρόνιας Φροντίδας στην Ελλάδα Στην Ελλάδα η Μ.Φ.Υ. είναι ελλιπώς ανεπτυγμένη. Οι υπηρεσίες Μ.Φ.Υ στην χώρα μας παρέχονται από το σύστημα.
Εισαγωγή στη Βιοπληροφορική Ενότητα 1: Εισαγωγικά θέματα Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική Σχολή Τμήμα Μηχανικών.
Εισαγωγή στη Βιοπληροφορική Ενότητα 8: Δομές Δεικτοδότησης Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική Σχολή Τμήμα Μηχανικών.
1 Μετασυλλεκτικοί Χειρισμοί Γεωργικών Προϊόντων Ενότητα 1: Εισαγωγικές Έννοιες. Διδάσκων: Παπαιωάννου Χρυσούλα, Αναπληρώτρια Καθηγήτρια. Τμήμα Τεχνολόγων.
Thasos Charalambous Προσωπικά δεδομένα και Υπολογιστές Μια από τις πιο κοινές χρήσεις των υπολογιστών είναι η εγγραφή σε βάσεις δεδομένων με σκοπό την.
Αλγόριθμοι Ταξινόμησης – Μέρος 4
Ποσοτικές Μέθοδοι Έρευνας Αρχική μέθοδος στην οποία στηρίχτηκε η συγκρότηση της εμπειρικής ή πειραματικής παιδαγωγικής ήταν το πείραμα, κάτω από την επίδραση.
Βασικές Έννοιες της Πληροφορικής
Δρ. Πέτρος Τομάρας Καθηγητής Μάρκετινγκ ΤΕΙ Αθήνας
Ορισμοί Ιεραρχικός Μη γραμμικός τύπος δεδομένων Γονέας – Παιδιά
Myschool ΕΓΓΡΑΦΕΣ ΜΑΘΗΤΩΝ
ΟΜΟΣΠΟΝΔΙΑΚΩΝ ΠΡΟΠΟΝΗΤΩΝ ΚΑΙ ΠΡΟΠΟΝΗΤΩΝ ΠΡΟΕΘΝΙΚΩΝ ΟΜΑΔΩΝ Σ.Ε.Γ.Α.Σ
Αλγόριθμοι Εξαγωγής Συμπερασμάτων (Inference Engine)
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Δενδρικές Μέθοδοι Προσπέλασης
Εξόρυξη γνώσης Εισαγωγή
Data Warehouse – Data Mining
Β. Μάγκλαρης 9/11/2015 ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Αρχιτεκτονικές & Πρωτόκολλα Δρομολόγησης στο Internet (I) Επίπεδο.
Εισαγωγή στη Βιοπληροφορική
Γραφικές Μέθοδοι Σχεδιασμού με Η-Υ Εκπαιδευτικό Παράδειγμα Kατασκευής
Περιεχομενο σημερινου μαθηματοσ
Θεωρητικές Αρχές και Μέθοδοι Ιστορικής Κοινωνιολογίας
Ο τόπος μας… Το πολιτιστικό μας πάρκο ¨Αντώνης Τρίτσης¨
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Ανάκτηση Πληροφορίας Διδάσκων: Μακρής Χρήστος
Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann.
ΜΑΘΗΜΑΤΙΚΑ Β’ ΓΥΜΝΑΣΙΟΥ
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
«Ανάπτυξη εφαρμογής για τη διαχείριση μεθόδων αναζήτησης σε οπτικοποιημένο περιβάλλον»  Μπλάγας Χρήστος.
Εισαγωγή στις Βάσεις Δεδομένων
RIPASSO 3.
Βελτιστοποίηση και Επεξεργασία Ερωτημάτων
ΕΡΕΥΝΑ – ΘΕΩΡΙΑ – ΕΠΙΣΤΗΜΟΝΙΚΗ ΓΝΩΣΗ
Τμήμα Πληροφορικής & Επικοινωνιών
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Γυμνάσιο Νέας Κυδωνίας
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
Εισαγωγή στα Ευρετήρια
ΘΕΑΡΕΣΤΟ ΗΘΙΚΟ ΔΙΔΑΓΜΑ
ΣΤΕΦΑΝΟΣ Α. ΝΤΟΥΚΑΚΗΣ Παθολόγος Επιμελητής A’ ΕΣΥ
Εισαγωγή στις Βάσεις Δεδομένων
Στο (2)  Δεν εξετάζεται η αιτιώδης συνάφεια 
Βασικές έννοιες (Μάθημα 1) Τίτλος: Μερικές βασικές έννοιες της Πληροφορικής 22/11/2018 Ξένιος Αντωνιάδης.
Ενότητα A5.1.2γ (Αποθήκευση Αρχείων από το Διαδίκτυο )
17/2/2019 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ (2) Ενότητα A1.1 β Ο Δάσκαλος.
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Κεφάλαιο 3 Αριθμητικά Περιγραφικά Μέτρα.
Ενότητα A5.1.2β (Εντοπισμός Πληροφοριών στον Ιστό )
Το παράδειγμα φωτογραφιών από το Facebook.
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΕΡΓΑΣΤΗΡΙΟ
Μεταγράφημα παρουσίασης:

Ψηφιακό Δέντρο (Trie) και Δέντρο Επιθεμάτων (Suffix tree)

Υβριδικές Δομές Δεδομένων Συνδυάζουν τη χρήση δεικτών και πινάκων Ψηφιακό δέντρο (Trie) Interpolation Search Tree

Ψηφιακό δέντρο (Trie) Αποθήκευση και ανάκτηση πληροφορίας κειμένου εύκολα και γρήγορα Λέξεις Συμβολοσειρές Επιθέματα Κτλ. Ταίριασμα Προτύπου ή Συμβολοσειράς Εφαρμογές σε αναζήτηση/επεξεργασία κειμένου, data mining, βιοπληροφορική κτλ.

Λογική του Trie Έστω 𝑆= 𝑥 1 ,…, 𝑥 𝑛 Έστω 𝑆= 𝑥 1 ,…, 𝑥 𝑛 Θέλω να αναπαραστήσω το 𝑆 σε μια δομή Δεν στηριζόμαστε στις τιμές 𝑥 𝑖 Χρησιμοποιούμε αναπαράσταση των στοιχείων ως μία ακολουθία χαρακτήρων Οι λέξεις βρίσκονται ανάλογα με το γράμμα με το οποίο αρχίζουν (το ίδιο και με τα υπόλοιπα γράμματα) → μοιάζει με λεξικό Είναι φυλλοπροσανατολισμένο

Ορισμός Έστω σύμπαν U του οποίου τα στοιχεία είναι συμβολοσειρές μήκους 𝜆 πάνω σε ένα αλφάβητο Κ με Κ =k. Ένα σύνολο S⊆U αναπαρίσταται ως ένα k-δικό δέντρο που περιέχει όλα τα προθέματα των στοιχείων του 𝑆

Υλοποίηση Κάθε εσωτερικός κόμβος του δέντρου είναι ένας πίνακας μήκους k από δείκτες Κάθε θέση του πίνακα αντιστοιχίζεται σε ένα γράμμα του αλφαβήτου Κάθε θέση του πίνακα σε ένα κόμβο u σε βάθος i θα λάβει τιμή αν κάποιο από τα στοιχεία του S στην i-οστή θέση έχει τον αντίστοιχο χαρακτήρα Ύψος λ Χώρος O(k)

Παράδειγμα 1

Παράδειγμα 2

Πολυπλοκότητες Οι βασικές πράξεις απαιτούν χρόνο Ο 𝜆 =Ο 𝑙𝑜𝑔 𝑘 𝑁 Οι βασικές πράξεις απαιτούν χρόνο Ο 𝜆 =Ο 𝑙𝑜𝑔 𝑘 𝑁 Εξαρτώνται από το μέγεθος του αλφαβήτου k και του σύμπαντος U Ο χώρος που απαιτείται στην χειρότερη περίπτωση είναι Ο 𝑛𝜆𝑘 , 𝑛= 𝑆 Αυτό συμβαίνει όταν τα στοιχεία δεν έχουν κοινά προθέματα: 𝑛 πλήρη μονοπάτια 𝑛𝜆 κόμβοι συνολικά 𝑛𝜆𝑘 συνολικός χώρος

Συμπαγές Trie Αποθηκεύονται μόνο οι κόμβοι του Trie με βαθμό μεγαλύτερο ή ίσο του 2, ενώ οι αλυσίδες των κόμβων με βαθμό 1 αντικαθίστανται από ένα απλό αριθμό Ο αριθμός αυτός αποθηκεύεται στην (πρώτη) πλευρά που οδηγεί στην αλυσίδα και είναι ίσος με το πλήθος των κόμβων σε αυτή Στην χειρότερη περίπτωση, ο χώρος από Ο 𝑛𝜆𝑘 μειώνεται σε Ο 𝑛𝑘

Παράδειγμα

Δέντρο Επιθεμάτων (Suffix Tree) Ορισμός Το Suffix Tree μιας συμβολοσειράς 𝑆[1…𝑛] είναι ένα συμπαγές Trie που περιέχει ως κλειδιά όλα τα επιθέματα 𝑆 1…𝑛 , 𝟏≤𝒊≤𝒏

Έστω συμβολοσειρά X=ababc Κατασκευή Suffix Tree Έστω συμβολοσειρά X=ababc ΠΡΟΣΟΧΗ! Από τον ίδιο κόμβο δεν εξέρχονται υποσυμβολοσειρές με κοινό πρώτο χαρακτήρα

Κατασκευή Suffix Tree – Αλλιώς Έστω συμβολοσειρά X=ababc

Εφαρμογές Suffix Tree Ταίριασμα Προτύπου – Pattern matching Μέγιστη Επαναλαμβανόμενη Υποσυμβολοσειρά – Longest Repeated Substring Μέγιστη Κοινή Υποσυμβολοσειρά – Longest Common Substring