Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΓΡΑΜΜΑΤΙΚΕΣ ΧΩΡΙΣ ΣΥΜΦΡΑΖΟΜΕΝΑ I
Advertisements

1 ΥΠΟΛΟΓΙΣΤΙΚΉ ΓΕΩΜΕΤΡΊΑ. 2 Πρόβλημα:  Δυναμική διατήρηση N διαστημάτων με διαφορετικά ανά δύο σημεία αρχής και τέλους (σύνορα) έτσι ώστε να απαντάμε.
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Αλφαριθμητικά.
Εισαγωγή στη Βιοπληροφορική 3η διάλεξη Μάθημα Ελεύθερης Επιλογής Τομέα Λογικού των Υπολογιστών Εαρινό Εξάμηνο Ακαδ. Έτους Χ. Mακρης- Α. Περδικούρη.
12 Δενδρικές Μέθοδοι Προσπέλασης  Β-δένδρα  Β*-δένδρα  Β + -δένδρα  Άλλες παραλλαγές των Β-δένδρων.
Εισαγωγή στη Βιοπληροφορική 2η διάλεξη
Ο αλγόριθμος του Ukkonen Βεργούλης Θανάσης Το suffix trie Το suffix trie του string D=“book” b o o k o o k k k $ $ $ $
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
Φροντηστήριο Διαχείριση Περιεχομένου Παγκόσμιου Ιστού και Γλωσσικά Eργαλεία.
Τα Μαθηματικά της Τέχνης & η τέχνη των Μαθηματικών
Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Δένδρα στα οποία κάθε.
1/23 DHTStrings: Συστήματα Δημοσιεύσεων/Συνδρομών σε DHT Δίκτυα με Υποστήριξη για Συμβολοσειρές Διανομή Περιεχομένου στο Διαδίκτυο Τμήμα ΜΗΥΠ Παν/μιο Πατρών.
Γλωσσική Τεχνολογία String Handling – Regular Expressions.
Regular Expressions. Regular Expressions - γενικά  Βασική ιδέα: έχουμε ένα pattern και ένα κείμενο εισόδου. Εφαρμόζουμε το pattern στο κείμενο και μπορούμε:
Τεχνικές Κατακερματισμού
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Δομές Δεδομένων στο Λ.Π.. Λίστες Λίστα είναι ένας όρος –Οι όροι αυτοί ορίζονται με τη βοήθεια μιας συνάρτησης: [ ] σταθερά για κενή λίστα – nil [t1| l]
Εισαγωγή στην Οικονομική ΤΟΜΟΣ Α΄
A Balanced Tree Structure for Peer-to-Peer Networks
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Εισαγωγή στη Βιοπληροφορική
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΏΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΒΙΟΛΟΓΙΑΣ ΤΟΜΕΑΣ ΟΙΚΟΛΟΓΙΑΣ LINDEΝMAYER SYSTEMS(L – SYSTEMS): Ένα σημαντικό εργαλείο.
Alpha-Beta Pruning for Games with Simultaneous Moves Abdallah Saffidine, Hilmar Finnsson, Michael Buro Παρουσίαση: Βάλβης Δημήτριος Εργασία στο μάθημα.
TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Ουρά Προτεραιότητας (priority queue) Δομή δεδομένων που υποστηρίζει.
Διερεύνηση γραφήματος. Ένας αλγόριθμος διερεύνησης γραφήματος επισκέπτεται τους κόμβους του γραφήματος με μια καθορισμένη στρατηγική, π.χ. κατά εύρος.
Ελαφρύτατες διαδρομές TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A.
Διερεύνηση γραφήματος. Ένας αλγόριθμος διερεύνησης γραφήματος επισκέπτεται τους κόμβους του γραφήματος με μια καθορισμένη στρατηγική, π.χ. κατά εύρος.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι 8-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2-3 Δένδρα, Υλοποίηση και πράξεις Β-δένδρα B-Δένδρα.
Παράδειγμα B + -Tree Υποθέτουμε B + -Tree τάξης 3 (α=2, b=3)  Κάθε φύλλο θα έχει 2 ως 3 το πολύ στοιχεία  Κάθε εσωτερικός κόμβος θα έχει 2 ως 3 το πολύ.
Ελαφρύτατες διαδρομές TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Βασικά στοιχεία της Java
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Πανεπιστήμιο Βόλου Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης «Αρχαία Ελληνική και Βυζαντινή Ιστορία και Πολιτισμός» Μάθημα 3 ο (Μυκηναϊκός Πολιτισμός – Γεωμετρική.
Θεωρία υπολογισμού1 Μη αιτιοκρατικό αυτόματο Σ={0}, L = { 0 k : k=2m, k=3m}, μαντεύουμε το μήκος.
Εισαγωγή στη Βιοπληροφορική Ενότητα 8: Δομές Δεικτοδότησης Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική Σχολή Τμήμα Μηχανικών.
Δένδρα & Ανίχνευση Πρώτη ανίχνευση σε βάθος. Δένδρα & Ανίχνευση Πρώτη ανίχνευση σε πλάτος –Level 0: 1 –Level 1: 2, 10, 11 –Level 2: 3, 9, 12, 14 –Level.
ΑΦΗΓΗΣΗ Ορισμός (ενότητα 3) Μορφές αφήγησης (ενότητα 3) Δομή αφηγηματικού κειμένου (ενότητα 3) Το ρήμα στην αφήγηση (ενότητα 5) Οπτική γωνία (ενότητα 8)
Φροντίδα Ψυχικά Πάσχοντος στο Σπίτι
Τ.Ε.Ι. Κρήτης Σχολή Τεχνολογικών Εφαρμογών Τμ. Μηχανικών Πληροφορικής
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
ΠΑΙΔΙΑΤΡΙΚΟ ΤΡΑΥΜΑ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΑΙΕΥΤΙΚΗΣ
Δένδρα.
Εισαγωγή στη Βιοπληροφορική
Λήμμα άντλησης Πως αποφασίζουμε αποδεικνύουμε ότι μία γλώσσα δεν είναι κανονική; Δυσκολότερο από την απόδειξη ότι μια γλώσσα είναι κανονική. Γενικότερο.
ΚΕΦΑΛΑΙΟ 3o Ενότητες Α μέρος
Ενότητα 9 : Κανονικές Εκφράσεις Αλέξανδρος Τζάλλας
Δομές δεδομένων.
Ισοδυναμία ΜΠΑ με ΠΑ Για κάθε ΜΠΑ Μ υπάρχει αλγόριθμος ο οποίος κατασκευάζει ΠΑ Μ’ αιτιοκρατικό ώστε να αναγνωρίζουν την ίδια ακριβώς γλώσσα. Καθώς το.
Εκπαιδευτική Τεχνολογία – Πολυμέσα (Εργαστήριο) [ΤΤΕ]
Πανεπιστήμιο Βόλου Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης
Ισορροπημένα Δένδρα Μπορούμε να επιτύχουμε χρόνο εκτέλεσης
Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης
Ουρά Προτεραιότητας (priority queue)
Δομές Αναζήτησης Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε στοιχείο έχει ένα κλειδί από ολικά διατεταγμένο σύνολο Θέλουμε να υποστηρίξουμε δύο.
Ψηφιακό Δέντρο (Trie) και Δέντρο Επιθεμάτων (Suffix tree)
ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΓΡΑΦΗΜΑΤΩΝ II
Πειράματα Χημείας για τη Γ’ τάξη Γυμνασίου Σχολ. έτος
النسبة الذهبية العدد الإلهي
ΚΡΗΤΙΚΟΣ – Δ. ΣΟΛΩΜΟΥ.
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Φ. ΜΗΛΙΩΝΗ, Δ.Ν., Δ/ΝΤΡΙΑ ΝΠΙΔ ΕΠΑΝΟΔΟΣ
Μεταγράφημα παρουσίασης:

Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree Γενικευμένο Δέντρο Επιθεμάτων -Generalized Suffix Tree Διαχείριση Συμβολοσειρών

Βασικοί Ορισμοί Συμβολοσειρά-string: x=x[1]x[2]…..x[n], x[i]Σ & |x|=n x= acgttaaaca, |x|=10 & Σ={a,c,g,t} Κενή συμβολοσειρά: ε Υπο-συμβολοσειρά-substring w: x=uwv Πρόθεμα –Prefix w: x=wu Επίθεμα-Suffix w: x=uw Κάθε συμβολοσειρά S, μήκους |S|=m, έχει m δυνατά μη κενά επιθέματα που είναι τα ακόλουθα: S[1…m], S[2…m], …. S[m-1…m] και S[m]. Παράδειγμα "sequence" : sequence, equence, quence, uence, ence, nce, ce, e. Διαχείριση Συμβολοσειρών

Το Δέντρο Επιθεμάτων Suffix Tree x= xabxac Διαχείριση Συμβολοσειρών

Trie Ορισμός: Έστω σύμπαν U=Σl για αλφάβητο Σ και l>0. Trie καλείται το κ-δικό δένδρο (κ=|Σ|) το οποίο περιέχει όλα τα προθέματα των στοιχείων του S. Κάθε επίπεδο του δένδρου αντιστοιχίζεται και σε ένα di (d1ρίζα). Κάθε στοιχείο x=x1x2…xl τοποθετείται στο υποδένδρο x1x2… . x1 x2 σ1 σ2 … σκ Διαχείριση Συμβολοσειρών

Trie - παράδειγμα Χρόνος ins/del/search : Ο(l) Χώρος: Ο(nlk) Διαχείριση Συμβολοσειρών

Compressed Trie Χώρος:Ο(nlk) Ο(nk)=O(n) Διαχείριση Συμβολοσειρών

Compressed Trie - example Διαχείριση Συμβολοσειρών

Suffix Tree Ορισμός: Το suffix tree μιας συμβολοσειράς S[1…n] είναι ένα συμπαγές trie που περιέχει ως κλειδιά όλα τα επιθέματα S[i…n], 1≤i≤n. $ c a b bcabc$ Trie $ c abc$ bc Compressed trie 4 1 3 2 5 6 (3,6) Διαχείριση Συμβολοσειρών

Κατασκευή του Δέντρου Επιθεμάτων Μια απλοϊκή θεώρηση: Ένθεση μιας πλευράς στο δέντρο για το επίθεμα S[1…m]$, Διαδοχική ένθεση των επιθεμάτων S[i…m]$, για i=2m. Διαχείριση Συμβολοσειρών

Naïve Κατασκευή S=bcabc$ Χρόνος: Ο(n2) S=aaaaa...$ 1: bcabc$ 2: cabc$ 3 abc$ 1 bcabc$ 1 bcabc$ 3 abc$ 2 cabc$ 4 $ $ c abc$ bc 4 1 3 2 5 6 6: $ 2 c abc$ 5: c$ 1 bc abc$ 3 abc$ 4 $ Χρόνος: Ο(n2) S=aaaaa...$ 5 $ Διαχείριση Συμβολοσειρών

Suffix Links – Speed Up i-1 i u1x u2 u1 u x u z ux x u1 u2 z z z i i-1 res(i)=|u2|+|z| res(i+1)|<=res(i)-inti Scan cost=length(headi)-length(headi-1) Διαχείριση Συμβολοσειρών

Suffix Links – Speed Up a b a..$ Node c b b b a..$ Node d bb b head13 S=bbbbbababbbaabbbbb$ i-1:Inserted S[13..19]=abbbbb$ x=a, u=bbb, z=bb$ u1=b, u2=bb i: Insert S[14..19]=BBBBB$ a b a..$ Node c b b b a..$ Node d bb b head13 a..$ bb$ b a..$ b..$ head14 a..$ $ Διαχείριση Συμβολοσειρών

Το Γενικευμένο Δέντρο Επιθεμάτων Generalized Suffix Tree Ορισμός: «Το Γενικευμένο Δέντρο Επιθεμάτων, αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S1,S2,…Sn}». x1 = xabxa x2 = babxba Διαχείριση Συμβολοσειρών

Ακριβής Εύρεση Προτύπου - Exact pattern matching problem Ξεκινώντας από τη ρίζα, σύγκρινε έναν προς έναν τους χαρακτήρες του Ρ, ακολουθώντας το κατάλληλο μονοπάτι. Εάν εμφανιστεί κάποιο μη-ταίριασμα, τότε το πρότυπο δεν εμφανίζεται στην ακολουθία, διαφορετικά ανέφερε ως απάντηση όλα τα φύλλα που βρίσκονται κάτω από τον κόμβο του τελευταίου χαρακτήρα του P. Η αναζήτηση στοιχίζει O(n+k) χρόνο, |P|=n & k: το πλήθος εμφανίσεων του P στο T. Διαχείριση Συμβολοσειρών

Ακριβής Εύρεση Πολλαπλών Προτύπων Κατασκευή του Δ.Ε. για την ακολουθία εισόδου T σε Ο(|Τ|) χρόνο, Ξεκινώντας από τη ρίζα, αναζητούμε διαδοχικά όπως και στην προηγούμενη εφαρμογή το σύνολο των προτύπων Ρ={Ρ1 ,Ρ2, ..} Η αναζήτηση στοιχίζει O(n+|Ρ|+ kρ) χρόνο, |P|= | Ρ1| +|Ρ2|+….. & kρ: το πλήθος εμφανίσεων των προτύπων στο T. Κατασκευή του Αυτομάτου σε χρόνο O(|P|) Αναζήτηση: O(m+k) Διαχείριση Συμβολοσειρών

Μέγιστη κοινή υποσυμβολοσειρά 2 ακολουθιών- Longest Common Substring Problem Κατασκευή του Γ.Δ.Ε. για τις ακολουθίες εισόδου S1, S2, …… Σημειώνουμε κάθε εσωτερικό κόμβο του δέντρου u, με "1" ή "2", αν εμπεριέχει στο υπόδεντρο του u, κάποιο φύλλο που αναπαριστά κάποιο επίθεμα της ακολουθίας S1 ή S2. Η ετικέτα μονοπατιού - path label, κάθε εσωτερικού κόμβου που σημειώνεται ταυτόχρονα με "1" και "2", αποτελεί μια κοινή υπο- συμβολοσειρά των δυο ακολουθιών S1 και S2,. Διαχείριση Συμβολοσειρών

Μέγιστη κοινή υποσυμβολοσειρά 2 ακολουθιών- Longest Common Substring Problem Παράδειγμα 1,2 1 1,2 1,2 2 1,2 Διαχείριση Συμβολοσειρών

Εύρεση Κοινών Μοτίβων σε 2 ή περισσότερες Βιολογικές Ακολουθίες Το Πρόβλημα της Εύρεσης κοινών μοτιβων: Για ένα σύνολο Κ ακολουθιών με συνολικό μήκος Σ(|Κ|)= n, και έναν ακέραιο k, (2<k<K), ορίζουμε ως λ(k), το μήκος του μέγιστου μοτίβου που εμφανίζεται σε τουλάχιστον k υπο- συμβολοσειρές. Το πρόβλημα ανάγεται στον υπολογισμό όλων των δυνατών τιμών του λ(k) και λύνεται σε γραμμικό χρόνο Ο(n), ως προς το μήκος των ακολουθιών εισόδου. Διαχείριση Συμβολοσειρών

Maximal Pairs x x gap Gusfield : O(n+a) j a b Suffix Tree ... σ1 σ2 σ|Σ| i j Gusfield : O(n+a) Brodal : O(nlogn+a) , t1≤gap≤t2 O(n+a) , t1≤gap Διαχείριση Συμβολοσειρών

Maximal Pairs in Multiple Strings gap Διαχείριση Συμβολοσειρών

Maximal Pairs in Multiple Strings gap … i’ j’ Sk x x gap r u x a b Generalized Suffix Tree . ... S1 S2 Sk σ1 σ2 σ|Σ| . ... S1 S2 Sk σ1 σ2 σ|Σ| O(nlogn+ak) , gap ≤t1 O(n+a) , gap unbounded S1:i S1:j … … Sk:i’ Sk:j’ Διαχείριση Συμβολοσειρών

Exact Matching with wild cards text acgtttaacctttgagtttgggcv a**t pattern * * * * * * r u w a b Διαχείριση Συμβολοσειρών

Πίνακες Επιθεμάτων Suffix Arrays Διαχείριση Συμβολοσειρών

Αλγόριθμοι Συμβολοσειρών Διαχείριση Συμβολοσειρών Διαχείριση Συμβολοσειρών

Διαχείριση Συμβολοσειρών