Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Διαχείριση Συμβολοσειρών Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree Γενικευμένο Δέντρο Επιθεμάτων -Generalized Suffix Tree.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Διαχείριση Συμβολοσειρών Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree Γενικευμένο Δέντρο Επιθεμάτων -Generalized Suffix Tree."— Μεταγράφημα παρουσίασης:

1 Διαχείριση Συμβολοσειρών Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree Γενικευμένο Δέντρο Επιθεμάτων -Generalized Suffix Tree

2 Διαχείριση Συμβολοσειρών Βασικοί Ορισμοί Συμβολοσειρά-string: x=x[1]x[2]…..x[n], x[i]  Σ & |x|=n x= acgttaaaca, |x|=10 & Σ={a,c,g,t} Κενή συμβολοσειρά: ε Υπο-συμβολοσειρά-substring w: x=uwv Πρόθεμα –Prefix w: x=wu Επίθεμα-Suffix w: x=uw Κάθε συμβολοσειρά S, μήκους |S|=m, έχει m δυνατά μη κενά επιθέματα που είναι τα ακόλουθα: S[1…m], S[2…m], …. S[m-1…m] και S[m]. Παράδειγμα "sequence" : sequence, equence, quence, uence, ence, nce, ce, e.

3 Διαχείριση Συμβολοσειρών Το Δέντρο Επιθεμάτων Suffix Tree Ορισμός: «αποθηκεύει όλα τα δυνατά επιθέματα μιας συμβολοσειράς S». x= xabxac

4 Διαχείριση Συμβολοσειρών Trie Ορισμός: Έστω σύμπαν U=Σ l για αλφάβητο Σ και l>0. Trie καλείται το κ-δικό δένδρο (κ=|Σ|) το οποίο περιέχει όλα τα προθέματα των στοιχείων του S. Κάθε επίπεδο του δένδρου αντιστοιχίζεται και σε ένα d i (d 1  ρίζα). Κάθε στοιχείο x=x 1 x 2 …x l τοποθετείται στο υποδένδρο x 1  x 2  …. σ1σ1 σ2 …σ2 … σκσκ x1x1 x2x2 x1x1

5 Διαχείριση Συμβολοσειρών Trie - παράδειγμα Χρόνος ins/del/search : Ο(l) Χώρος: Ο(nlk)

6 Διαχείριση Συμβολοσειρών Compressed Trie Χώρος:Ο(nlk)  Ο(nk)=O(n)

7 Διαχείριση Συμβολοσειρών Compressed Trie - example

8 Διαχείριση Συμβολοσειρών Suffix Tree Ορισμός: Το suffix tree μιας συμβολοσειράς S[1…n] είναι ένα συμπαγές trie που περιέχει ως κλειδιά όλα τα επιθέματα S[i…n], 1≤i≤n. $ c $ a b c $ b c $ a b c $ a b c $ bcabc$ Trie $ c $ abc$ bc $ abc$ Compressed trie (3,6)

9 Διαχείριση Συμβολοσειρών Κατασκευή του Δέντρου Επιθεμάτων Μια απλοϊκή θεώρηση:  Ένθεση μιας πλευράς στο δέντρο για το επίθεμα S[1…m]$,  Διαδοχική ένθεση των επιθεμάτων S[i…m]$, για i=2  m.

10 Διαχείριση Συμβολοσειρών Naïve Κατασκευή S=bcabc$ 1 bcabc$ 2 cabc$ 1: bcabc$ 2: cabc$ 1 bcabc$ 2 cabc$ 3: abc$ 1 bcabc$ 3 abc$ 2 cabc$ 4: bc$ 1 bc abc$ 3 abc$ 4 $ 2 c abc$ 5: c$ 1 bc abc$ 3 abc$ 4 $ 5 $ $ c $ bc $ abc$ : $ Χρόνος: Ο(n 2 ) S=aaaaa...$

11 Διαχείριση Συμβολοσειρών Suffix Links – Speed Up i-1i ux x u z z u x u 1 u 2 z u1xu1x u2u2 u1u1 u2u2 i z res(i)=|u2|+|z| res(i+1)|<=res(i)-int i Scan cost=length(head i )-length(head i-1 )

12 Διαχείριση Συμβολοσειρών Suffix Links – Speed Up S=bbbbbababbbaabbbbb$ i-1:Inserted S[13..19]=abbbbb$ x=a, u=bbb, z=bb$ u 1 =b, u 2 =bb i: Insert S[14..19]=BBBBB$ a b Node c b b Node d b a..$ b..$ a..$ b bb a..$ bb$ head 1 3 a..$ $ b head 1 4

13 Διαχείριση Συμβολοσειρών Το Γενικευμένο Δέντρο Επιθεμάτων Generalized Suffix Tree Ορισμός: «Το Γενικευμένο Δέντρο Επιθεμάτων, αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S 1,S 2,…S n }». x 1 = xabxa x 2 = babxba

14 Διαχείριση Συμβολοσειρών Ακριβής Εύρεση Προτύπου - Exact pattern matching problem Κατασκευή του Δ.Ε. για την ακολουθία εισόδου T σε Ο(|Τ|) χρόνο, Ξεκινώντας από τη ρίζα, σύγκρινε έναν προς έναν τους χαρακτήρες του Ρ, ακολουθώντας το κατάλληλο μονοπάτι.  Εάν εμφανιστεί κάποιο μη-ταίριασμα, τότε το πρότυπο δεν εμφανίζεται στην ακολουθία,  διαφορετικά ανέφερε ως απάντηση όλα τα φύλλα που βρίσκονται κάτω από τον κόμβο του τελευταίου χαρακτήρα του P. Η αναζήτηση στοιχίζει O(n+k) χρόνο, |P|=n & k: το πλήθος εμφανίσεων του P στο T.

15 Διαχείριση Συμβολοσειρών Ακριβής Εύρεση Πολλαπλών Προτύπων Κατασκευή του Δ.Ε. για την ακολουθία εισόδου T σε Ο(|Τ|) χρόνο, Ξεκινώντας από τη ρίζα, αναζητούμε διαδοχικά όπως και στην προηγούμενη εφαρμογή το σύνολο των προτύπων Ρ={Ρ 1,Ρ 2,..} Η αναζήτηση στοιχίζει O(n+|Ρ|+ k ρ ) χρόνο, |P|= | Ρ 1 | +|Ρ 2 |+….. & k ρ : το πλήθος εμφανίσεων των προτύπων στο T. Κατασκευή του Αυτομάτου σε χρόνο O(|P|) Αναζήτηση: O(m+k)

16 Διαχείριση Συμβολοσειρών Μέγιστη κοινή υποσυμβολοσειρά 2 ακολουθιών- Longest Common Substring Problem Κατασκευή του Γ.Δ.Ε. για τις ακολουθίες εισόδου S 1, S 2, …… Σημειώνουμε κάθε εσωτερικό κόμβο του δέντρου u, με "1" ή "2", αν εμπεριέχει στο υπόδεντρο του u, κάποιο φύλλο που αναπαριστά κάποιο επίθεμα της ακολουθίας S 1 ή S 2. Η ετικέτα μονοπατιού - path label, κάθε εσωτερικού κόμβου που σημειώνεται ταυτόχρονα με "1" και "2", αποτελεί μια κοινή υπο- συμβολοσειρά των δυο ακολουθιών S 1 και S 2,.

17 Διαχείριση Συμβολοσειρών Μέγιστη κοινή υποσυμβολοσειρά 2 ακολουθιών- Longest Common Substring Problem Παράδειγμα 2 1,2 1

18 Διαχείριση Συμβολοσειρών Εύρεση Κοινών Μοτίβων σε 2 ή περισσότερες Βιολογικές Ακολουθίες Το Πρόβλημα της Εύρεσης κοινών μοτιβων: Για ένα σύνολο Κ ακολουθιών με συνολικό μήκος Σ(|Κ|)= n, και έναν ακέραιο k, (2

19 Διαχείριση Συμβολοσειρών Maximal Pairs xx gap r u x i j a b Suffix Tree... σ1σ1 σ2σ2 σ |Σ| i... σ1σ1 σ2σ2 σ |Σ| j Gusfield : O(n+a) Brodal : O(nlogn+a), t 1 ≤gap≤t 2 O(n+a), t 1 ≤gap

20 Διαχείριση Συμβολοσειρών Maximal Pairs in Multiple Strings xx gap

21 Διαχείριση Συμβολοσειρών Maximal Pairs in Multiple Strings xx gap xx S1S1 SkSk … r u x a b Generalized Suffix Tree S 1 :i S k :i’ … S 1 :j S k :j’ … i’j’ S1S1 S2S2 SkSk σ1σ1 σ2σ2 σ |Σ| S1S1 S2S2 SkSk σ1σ1 σ2σ2 σ |Σ| O(nlogn + ak), gap ≤t 1 O(n+a), gap unbounded

22 Διαχείριση Συμβολοσειρών Exact Matching with wild cards r u w a b text pattern ** * * acgtttaacctttgagtttgggcv a**t

23 Διαχείριση Συμβολοσειρών Πίνακες Επιθεμάτων Suffix Arrays

24 Διαχείριση Συμβολοσειρών Αλγόριθμοι Συμβολοσειρών Διαχείριση Συμβολοσειρών

25


Κατέβασμα ppt "Διαχείριση Συμβολοσειρών Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree Γενικευμένο Δέντρο Επιθεμάτων -Generalized Suffix Tree."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google