Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Indexing.
Δομές Δεδομένων και Αλγόριθμοι
Optimizing Web Search Using Social Annotations Παρουσίαση: Λάζος Άγγελος.
Αλφαριθμητικά.
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Εισαγωγή στη Βιοπληροφορική 3η διάλεξη Μάθημα Ελεύθερης Επιλογής Τομέα Λογικού των Υπολογιστών Εαρινό Εξάμηνο Ακαδ. Έτους Χ. Mακρης- Α. Περδικούρη.
Ο αλγόριθμος του Ukkonen Βεργούλης Θανάσης Το suffix trie Το suffix trie του string D=“book” b o o k o o k k k $ $ $ $
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
Δομές Δεικτοδότησης Δέντρο Επιθεμάτων- Suffix Tree
Πτυχιακή εργασία των Κωνσταντίνου Κουρμούση (1604)
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Διαίρει-και-Βασίλευε
Δυναμικός Προγραμματισμός
Πτυχιακή εργασία: «Ανάπτυξη αλγορίθμου Γενετικού Προγραμματισμού (Genetic Programming) με δυνατότητα διαχείρισης δενδροειδών δομών και εφαρμογή του στην.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Ευρετήρια.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΛΕΙΤΟΥΡΓΙΕΣ ΤΟΥ ΓΕΝΕΤΙΚΟΥ ΥΛΙΚΟΥ
Εισαγωγή στη Βιοπληροφορική
Ψηφιακά Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να χρησιμοποιήσουμε την παραπάνω αναπαράσταση.
EXTERNAL MEMORY ALGORITHMS AND DATA STRUCTURES: DEALING WITH MASSIVE DATA Διδάσκοντες:Μακρής Χρήστος Βοηθητικό υλικό: Αντωνέλης Παναγιώτης
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Δομές Δεδομένων (Data Structures) 3o Εξάμηνο Σπουδών Διδάσκων: Απόστολος Παπαδόπουλος και
Ουρά Προτεραιότητας: Heap
Δομές Δεδομένων.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
Χωρικοί-χρονικοί συμβιβασμοί
Μοντέλα - Αλγόριθμοι – Ταξινόμηση Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
Προηγμένη Εφαρμογή Ιστού Διαχείρισης Δεδομένων Βιοεπιστημών Διπλωματική Εργασία του Γεωργίου Πρέκα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
Ασυμπτωτικός Συμβολισμός
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων.
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
1 Είδη μέσων αποθήκευσης Πρωτεύοντα μέσα αποθήκευσης κεντρική μνήμη και όλες οι υπόλοιπες μνήμες (π.χ καταχωρητές, cache memory) Δευτερεύοντα μέσα αποθήκευσης.
ΕΝΟΤΗΤΑ 1. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΕΦΑΛΑΙΟ 1.1 ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ 1.
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Δυναμικός Κατακερματισμός
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
19η Διάλεξη Εξωτερική Αναζήτηση και Β-δέντρα Ε. Μαρκάκης
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος

Βιολογικά Δεδομένα και Ακολουθίες DNAΤο DNA περιέχει όλη τη γενετική πληροφορία ενός οργανισμού. πρωτεΐνεςΟι πρωτεΐνες αποτελούν τα βασικά κατασκευαστικά μέρη των κυττάρων. RNAΣε μόρια RNA αντιγράφεται η πληροφορία για την κατασκευή των πρωτεϊνών. ακολουθίεςΔυνατότητα αναπαράστασης αυτών των βιομορίων ως ακολουθίες. Βιολογικά συμπεράσματα με τη χρήση αλγορίθμων αναζήτησης και επεξεργασίας ακολουθιακών δεδομένων.

Ευρετήρια για ταχύτερες αναζητήσεις Ανάγκη για πολλές, συχνές αναζητήσεις ακολουθιών. ευρετηρίωνΕπιτακτική η δημιουργία ευρετηρίων για ταχύτερη αναζήτηση προτύπων Δημοφιλέστερα ευρετήρια για ακολουθιακά δεδομένα: –Δένδρα επιθεμάτων –Δένδρα επιθεμάτων (suffix trees) –Πίνακες επιθεμάτων –Πίνακες επιθεμάτων (suffix arrays)

Ευρετήρια πολύ μεγάλου μεγέθους αύξηση του όγκουΔιαρκής αύξηση του όγκου των βιολογικών δεδομένων. δεν χωρούν στην μνήμηΤα ευρετήρια δεν χωρούν στην μνήμη (ακόμα και αν τα δεδομένα χωρούν). Ι/Ο συμφόρησηΜεγάλη Ι/Ο συμφόρηση και πτώση απόδοσης κατά την κατασκευή. Ερευνητικό ενδιαφέρον για το πρόβλημα ήδη από τις αρχές της δεκαετίας του ‘00

Αντικείμενο της διπλωματικής Βιβλιογραφική μελέτηΒιβλιογραφική μελέτη των τεχνικών αποδοτικής κατασκευής για δένδρα επιθεμάτων που δεν χωρούν στην μνήμη. Υλοποίηση αλγορίθμων αποτίμησης ερωτημάτωνΥλοποίηση αλγορίθμων αποτίμησης ερωτημάτων πάνω στα δένδρα που κατασκευάζονται με τον αλγόριθμο TRELLIS. ΠειράματαΠειράματα και σύγκριση αποτελεσμάτων με αυτά μεθόδων χωρίς ευρετήριο

Το δένδρο επιθεμάτων Το δένδρο επιθεμάτων είναι ένα trie που περιέχει όλα τα επιθέματα της ακολουθίας 1 2 b a n a a $ $ $ n a n a a n $ 4 $ 6 n a n a $ 3 5 σύνδεσμος επιθέματος αναζήτηση προτύπου με απλή διάσχιση από ρίζα

Βιβλιογραφική μελέτη

Μέθοδος κατακερματισμού στην βάση προθεμάτων [ΗΑΙ01] σταθερού μήκουςΚατακερματισμός σε υποδένδρα με βάση προθέματα σταθερού μήκους. Αναζήτηση κατάλληλου μήκους ώστε όλα τα δένδρα να χωρούν στην μνήμη. ΜειονεκτήματαΜειονεκτήματα –Υποδένδρα με μεγάλες διαφορές μεγέθους, σπατάλη πόρων. –Ανάγκη για bin-packing τεχνικές. –Εγκατάλειψη συνδέσμων επιθέματος.

DynaCluster [CYH05] και TOP-Q[BH04] DynaCluster –Δυναμική δημιουργία συστάδων με μεγάλη τοπικότητα αναφοράς –Αποθήκευση στο δίσκο μια συστάδα κάθε φορά TOP-Q –Παραμονή στην μνήμη των κόμβων που εκτιμάται ότι θα προσπελαστούν συχνότερα –Διατήρηση συνδέσμων επιθέματος Μείωση της σπατάλης πόρων, καλή απόδοση για ακολουθίες επιπέδου χρωμοσώματος

Αλγόριθμος TDD [THP04] Κατακερματισμός στην βάση προθεμάτωνΚατακερματισμός στην βάση προθεμάτων αντίστοιχα με αλγόριθμο Hunt. αλγορίθμου wotdeagerΧρήση του αλγορίθμου wotdeager για κατασκευή των υποδένδρων. Αλγόριθμος wotdeager: –Κατασκευή από πάνω προς τα κάτω για μεγάλη τοπικότητα αναφοράς –Εξοικονόμηση χώρου Βuffering στρατηγικήΒuffering στρατηγική για τις δομές δεδομένων του αλγορίθμου που εξασφαλίζει αποδοτική χρήση του cache Δυνατότητα αποδοτικής παραγωγής ευρετηρίου για το σύνολο του γονιδιώματος.

TRELLIS [PZ07]

Υλοποιήσεις & Πειράματα

Ενδεικτικές βελτιστοποιήσεις στο σύστημα TRELLIS Χρήση δομής trieΧρήση δομής trie για την αποδοτική ανάκτηση των προθεμάτων Υλοποίηση LCA προεπεξεργασίαςΥλοποίηση LCA προεπεξεργασίας υποδένδρων: –Ανάκτηση όλων των απαραίτητων πληροφοριών για εφαρμογή του αλγορίθμου σταθερού χρόνου για το LCA –Κατάλληλη δεικτοδότηση των επιθεμάτων για αναγωγή στην εύρεση του LCE

Πειράματα Υλοποιήσεις σε C++. Πραγματικά βιολογικά δεδομένα από το ανθρώπινο γονιδίωμα (από βάση του NCBI) Πειράματα: –Ακριβής ταύτιση προτύπου. –Προσομοίωση στοίχισης. –Προσεγγιστική ταύτιση προτύπου. –Εύρεση προθεματικών ταυτίσεων.

Πειράματα για ακριβή ταύτιση Πειράματα: –Σταθερό μήκος query. –Σταθερό μήκος data. Μέθοδοι: –Διάσχιση δένδρου επιθεμάτων. –Knuth-Morris-Pratt –Boyer-Moore

Πειράματα για ακριβή ταύτιση (σταθερό μήκος query)

Πειράματα για ακριβή ταύτιση (σταθερό μήκος ακολουθίας εισόδου)

Πειράματα για προσομοίωση στοίχισης Πειράματα: –Σταθερό μήκος query. –Σταθερό μήκος data. Μέθοδοι: –Χωρίς χρήση συνδέσμων επιθέματος. –Με χρήση συνδέσμων επιθέματος.

Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος query)

Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος ακολουθίας εισόδου)

Πειράματα για προσεγγιστική ταύτιση Πειράματα: –query 40 bytes –πλήθος διαφορών k=3 Μέθοδοι: –Υβριδικός δυναμικός προγραμματισμός (δυναμικός προγραμματισμός + δένδρο επιθεμάτων). –Δυναμικός προγραμματισμός με cut-off heuristic.

Πειράματα για προσεγγιστική ταύτιση Μήκος ακολουθίας (Mbps) Ukkonen 85 (sec) Υβριδικός (sec) 10,338 20,648 51, ,0198

Πειράματα για εύρεση προθεματικών ταυτίσεων Πειράματα: –κάτω φράγμα 8 σύμβολα Μέθοδοι: –Με χρήση δένδρου επιθεμάτων –Χωρίς δένδρο επιθεμάτων με τη brute-force μέθοδο.

Πειράματα για εύρεση προθεματικών ταυτίσεων

Συμπεράσματα (1) Ακριβής ταύτιση προτύπου –Πλεονεκτημα της χρήσης ευρετηρίου στον δίσκο σε όλες τις περιπτώσεις –Ικανοποιητική απόδοση του Boyer-Moore, συγκρίσιμη με του ευρετηρίου, για μικρό query και μικρό dataset –Μεγάλο άνοιγμα της ψαλίδας υπέρ του ευρετηρίου όσο το dataset μεγαλώνει Προσομοίωση στοίχισης –Αισθητή υπεροχή της χρήσης των συνδέσμων για μεγάλο μέγεθος query

Συμπεράσματα (2) Προσεγγιστική ταύτιση –Μεγάλη υπεροχή της αναζήτησης χωρίς την χρήση ευρετηρίου κατευθείαν στην μνήμη –Δυσκινησία του αλγορίθμου υβριδικού δυναμικού προγραμματισμού λόγω έλλειψης τοπικότητας αναφοράς και Ι/Ο συμφόρησης Καθολικό LCE –Δυνατότητα για πολύ γρήγορη ανάκτηση του LCE με χρήση του αλγορίθμου σταθερού χρόνου πάνω στα προεπεξεργασμένα δένδρα

Επεκτάσεις Επέκταση του TRELLIS για άλλα αλφάβητα πέραν του DNA Συμπίεση των κόμβων των δένδρων για μείωση της μεγάλης σπατάλης χώρου που είναι ένα μειονέκτημα του TRELLIS (27 bytes/σύμβολο) Υλοποίηση στα δένδρα άλλων αλγορίθμων που χρησιμοποιούν τους συνδέσμους επιθέματος ή τα ερωτήματα LCE (εύρεση παλινδρόμων, δίδυμες επαναλήψεις κλπ) Αναζήτηση εναλλακτικών τρόπων σελιδοποίησης για μείωση της συμφόρησης κατά την εκτέλεση αλγορίθμων όπως του υβριδικού δυναμικού προγραμματισμού

Βιβλιογραφία [BH04] Bedathur S., Haritsa J., Engineering a fast online persistent suffix tree construction, 20th International Conference on Data Engineering, [CYL05] Cheung C., Yu J., Lu H., Constructing suffix tree for gigabyte sequences with megabyte memory, IEEE Transactions on Knowledge and Data Engineering, 17(1):90–105, [HAI01] Hunt E., Atkinson Μ., Irving R., A database index to large biological sequences, 27th International Conference on Very Large Data Bases, [PZ07] Phophakdee B., Zaki M., Genome-scale Disk-based Suffix Tree Indexing, ACM SIGMOD International Conference on Management of Data, [THP04] Tata S., Hankins R., Patel J., Practical suffix tree construction, 30th International Conference on VLDB, 2004.

Τέλος.. Ερωτήσεις;

Υβριδικός δυναμικός προγραμματισμός Φραγμένο πλήθος διαφορών Ο δυναμικός προγραμματισμός απαιτεί Ο(nm) χώρο με χρήση ενός πίνακα n X m στοιχείων Ο υβριδικός απαιτεί μόνο Ο(n+m) χώρο αφού προσομειώνει τον υπολογισμό με χρήση μόνο των διαγωνίων Κάθε επέκταση γίνεται με υπολογισμό του LCE προτύπου και κειμένου σε διάφορες θέσεις Πολυπλοκότητα χρόνου του υβριδικού Ο(kn) όπου k το μέγιστο πλήθος των διαφορών, η πολυπλοκότητα του δυναμικού είναι πάντα Ο(mn) ανεξάρτητα από το μέγιστο πλήθος διαφορών που μας ενδιαφέρει