Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.

Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος

Βιολογικά Δεδομένα και Ακολουθίες DNAΤο DNA περιέχει όλη τη γενετική πληροφορία ενός οργανισμού. πρωτεΐνεςΟι πρωτεΐνες αποτελούν τα βασικά κατασκευαστικά μέρη των κυττάρων. RNAΣε μόρια RNA αντιγράφεται η πληροφορία για την κατασκευή των πρωτεϊνών. ακολουθίεςΔυνατότητα αναπαράστασης αυτών των βιομορίων ως ακολουθίες. Βιολογικά συμπεράσματα με τη χρήση αλγορίθμων αναζήτησης και επεξεργασίας ακολουθιακών δεδομένων.

Ευρετήρια για ταχύτερες αναζητήσεις Ανάγκη για πολλές, συχνές αναζητήσεις ακολουθιών. ευρετηρίωνΕπιτακτική η δημιουργία ευρετηρίων για ταχύτερη αναζήτηση προτύπων Δημοφιλέστερα ευρετήρια για ακολουθιακά δεδομένα: –Δένδρα επιθεμάτων –Δένδρα επιθεμάτων (suffix trees) –Πίνακες επιθεμάτων –Πίνακες επιθεμάτων (suffix arrays)

Ευρετήρια πολύ μεγάλου μεγέθους αύξηση του όγκουΔιαρκής αύξηση του όγκου των βιολογικών δεδομένων. δεν χωρούν στην μνήμηΤα ευρετήρια δεν χωρούν στην μνήμη (ακόμα και αν τα δεδομένα χωρούν). Ι/Ο συμφόρησηΜεγάλη Ι/Ο συμφόρηση και πτώση απόδοσης κατά την κατασκευή. Ερευνητικό ενδιαφέρον για το πρόβλημα ήδη από τις αρχές της δεκαετίας του ‘00

Αντικείμενο της διπλωματικής Βιβλιογραφική μελέτηΒιβλιογραφική μελέτη των τεχνικών αποδοτικής κατασκευής για δένδρα επιθεμάτων που δεν χωρούν στην μνήμη. Υλοποίηση αλγορίθμων αποτίμησης ερωτημάτωνΥλοποίηση αλγορίθμων αποτίμησης ερωτημάτων πάνω στα δένδρα που κατασκευάζονται με τον αλγόριθμο TRELLIS. ΠειράματαΠειράματα και σύγκριση αποτελεσμάτων με αυτά μεθόδων χωρίς ευρετήριο

Το δένδρο επιθεμάτων Το δένδρο επιθεμάτων είναι ένα trie που περιέχει όλα τα επιθέματα της ακολουθίας 1 2 b a n a a $ $ $ n a n a a n $ 4 $ 6 n a n a $ 3 5 σύνδεσμος επιθέματος αναζήτηση προτύπου με απλή διάσχιση από ρίζα

Βιβλιογραφική μελέτη

Μέθοδος κατακερματισμού στην βάση προθεμάτων [ΗΑΙ01] σταθερού μήκουςΚατακερματισμός σε υποδένδρα με βάση προθέματα σταθερού μήκους. Αναζήτηση κατάλληλου μήκους ώστε όλα τα δένδρα να χωρούν στην μνήμη. ΜειονεκτήματαΜειονεκτήματα –Υποδένδρα με μεγάλες διαφορές μεγέθους, σπατάλη πόρων. –Ανάγκη για bin-packing τεχνικές. –Εγκατάλειψη συνδέσμων επιθέματος.

DynaCluster [CYH05] και TOP-Q[BH04] DynaCluster –Δυναμική δημιουργία συστάδων με μεγάλη τοπικότητα αναφοράς –Αποθήκευση στο δίσκο μια συστάδα κάθε φορά TOP-Q –Παραμονή στην μνήμη των κόμβων που εκτιμάται ότι θα προσπελαστούν συχνότερα –Διατήρηση συνδέσμων επιθέματος Μείωση της σπατάλης πόρων, καλή απόδοση για ακολουθίες επιπέδου χρωμοσώματος

Αλγόριθμος TDD [THP04] Κατακερματισμός στην βάση προθεμάτωνΚατακερματισμός στην βάση προθεμάτων αντίστοιχα με αλγόριθμο Hunt. αλγορίθμου wotdeagerΧρήση του αλγορίθμου wotdeager για κατασκευή των υποδένδρων. Αλγόριθμος wotdeager: –Κατασκευή από πάνω προς τα κάτω για μεγάλη τοπικότητα αναφοράς –Εξοικονόμηση χώρου Βuffering στρατηγικήΒuffering στρατηγική για τις δομές δεδομένων του αλγορίθμου που εξασφαλίζει αποδοτική χρήση του cache Δυνατότητα αποδοτικής παραγωγής ευρετηρίου για το σύνολο του γονιδιώματος.

TRELLIS [PZ07]

Υλοποιήσεις & Πειράματα

Ενδεικτικές βελτιστοποιήσεις στο σύστημα TRELLIS Χρήση δομής trieΧρήση δομής trie για την αποδοτική ανάκτηση των προθεμάτων Υλοποίηση LCA προεπεξεργασίαςΥλοποίηση LCA προεπεξεργασίας υποδένδρων: –Ανάκτηση όλων των απαραίτητων πληροφοριών για εφαρμογή του αλγορίθμου σταθερού χρόνου για το LCA –Κατάλληλη δεικτοδότηση των επιθεμάτων για αναγωγή στην εύρεση του LCE

Πειράματα Υλοποιήσεις σε C++. Πραγματικά βιολογικά δεδομένα από το ανθρώπινο γονιδίωμα (από βάση του NCBI) Πειράματα: –Ακριβής ταύτιση προτύπου. –Προσομοίωση στοίχισης. –Προσεγγιστική ταύτιση προτύπου. –Εύρεση προθεματικών ταυτίσεων.

Πειράματα για ακριβή ταύτιση Πειράματα: –Σταθερό μήκος query. –Σταθερό μήκος data. Μέθοδοι: –Διάσχιση δένδρου επιθεμάτων. –Knuth-Morris-Pratt –Boyer-Moore

Πειράματα για ακριβή ταύτιση (σταθερό μήκος query)

Πειράματα για ακριβή ταύτιση (σταθερό μήκος ακολουθίας εισόδου)

Πειράματα για προσομοίωση στοίχισης Πειράματα: –Σταθερό μήκος query. –Σταθερό μήκος data. Μέθοδοι: –Χωρίς χρήση συνδέσμων επιθέματος. –Με χρήση συνδέσμων επιθέματος.

Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος query)

Πειράματα για προσομοίωση στοίχισης (σταθερό μήκος ακολουθίας εισόδου)

Πειράματα για προσεγγιστική ταύτιση Πειράματα: –query 40 bytes –πλήθος διαφορών k=3 Μέθοδοι: –Υβριδικός δυναμικός προγραμματισμός (δυναμικός προγραμματισμός + δένδρο επιθεμάτων). –Δυναμικός προγραμματισμός με cut-off heuristic.

Πειράματα για προσεγγιστική ταύτιση Μήκος ακολουθίας (Mbps) Ukkonen 85 (sec) Υβριδικός (sec) 10,338 20,648 51,5103 103,0198

Πειράματα για εύρεση προθεματικών ταυτίσεων Πειράματα: –κάτω φράγμα 8 σύμβολα Μέθοδοι: –Με χρήση δένδρου επιθεμάτων –Χωρίς δένδρο επιθεμάτων με τη brute-force μέθοδο.

Πειράματα για εύρεση προθεματικών ταυτίσεων

Συμπεράσματα (1) Ακριβής ταύτιση προτύπου –Πλεονεκτημα της χρήσης ευρετηρίου στον δίσκο σε όλες τις περιπτώσεις –Ικανοποιητική απόδοση του Boyer-Moore, συγκρίσιμη με του ευρετηρίου, για μικρό query και μικρό dataset –Μεγάλο άνοιγμα της ψαλίδας υπέρ του ευρετηρίου όσο το dataset μεγαλώνει Προσομοίωση στοίχισης –Αισθητή υπεροχή της χρήσης των συνδέσμων για μεγάλο μέγεθος query

Συμπεράσματα (2) Προσεγγιστική ταύτιση –Μεγάλη υπεροχή της αναζήτησης χωρίς την χρήση ευρετηρίου κατευθείαν στην μνήμη –Δυσκινησία του αλγορίθμου υβριδικού δυναμικού προγραμματισμού λόγω έλλειψης τοπικότητας αναφοράς και Ι/Ο συμφόρησης Καθολικό LCE –Δυνατότητα για πολύ γρήγορη ανάκτηση του LCE με χρήση του αλγορίθμου σταθερού χρόνου πάνω στα προεπεξεργασμένα δένδρα

Επεκτάσεις Επέκταση του TRELLIS για άλλα αλφάβητα πέραν του DNA Συμπίεση των κόμβων των δένδρων για μείωση της μεγάλης σπατάλης χώρου που είναι ένα μειονέκτημα του TRELLIS (27 bytes/σύμβολο) Υλοποίηση στα δένδρα άλλων αλγορίθμων που χρησιμοποιούν τους συνδέσμους επιθέματος ή τα ερωτήματα LCE (εύρεση παλινδρόμων, δίδυμες επαναλήψεις κλπ) Αναζήτηση εναλλακτικών τρόπων σελιδοποίησης για μείωση της συμφόρησης κατά την εκτέλεση αλγορίθμων όπως του υβριδικού δυναμικού προγραμματισμού

Βιβλιογραφία [BH04] Bedathur S., Haritsa J., Engineering a fast online persistent suffix tree construction, 20th International Conference on Data Engineering, 2004. [CYL05] Cheung C., Yu J., Lu H., Constructing suffix tree for gigabyte sequences with megabyte memory, IEEE Transactions on Knowledge and Data Engineering, 17(1):90–105, 2005. [HAI01] Hunt E., Atkinson Μ., Irving R., A database index to large biological sequences, 27th International Conference on Very Large Data Bases, 2001. [PZ07] Phophakdee B., Zaki M., Genome-scale Disk-based Suffix Tree Indexing, ACM SIGMOD International Conference on Management of Data, 2007. [THP04] Tata S., Hankins R., Patel J., Practical suffix tree construction, 30th International Conference on VLDB, 2004.

Τέλος.. Ερωτήσεις;

Υβριδικός δυναμικός προγραμματισμός Φραγμένο πλήθος διαφορών Ο δυναμικός προγραμματισμός απαιτεί Ο(nm) χώρο με χρήση ενός πίνακα n X m στοιχείων Ο υβριδικός απαιτεί μόνο Ο(n+m) χώρο αφού προσομειώνει τον υπολογισμό με χρήση μόνο των διαγωνίων Κάθε επέκταση γίνεται με υπολογισμό του LCE προτύπου και κειμένου σε διάφορες θέσεις Πολυπλοκότητα χρόνου του υβριδικού Ο(kn) όπου k το μέγιστο πλήθος των διαφορών, η πολυπλοκότητα του δυναμικού είναι πάντα Ο(mn) ανεξάρτητα από το μέγιστο πλήθος διαφορών που μας ενδιαφέρει

Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Τεχνικές κατασκευής δένδρων επιθεμάτων πολύ μεγάλου μεγέθους και χρήσης τους για γρήγορη αναζήτηση βιολογικών δεδομένων Βασίλης Πολυχρονόπουλος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια