Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεAndor Glaros Τροποποιήθηκε πριν 9 χρόνια
1
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1 Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης http://skyblue.csd.auth.gr/~dimitris Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό
2
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 2 Πώς μπορούμε να ελαττώσουμε την καθυστέρηση πρόσβασης στον Παγκόσμιο Ιστό (ΠΙ); Το βασικό ερώτημα/κίνητρο της διατριβής
3
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 3 Εξετάζουμε μεθόδους διάχυσης της πληροφορίας στον (ενσύρματο και ασύρματο) Παγκόσμιο Ιστό από τους εξυπηρετητές προς τους καταναλωτές Στηριζόμαστε στην τεχνική του caching, δηλ., στην αποθήκευση της πληροφορίας σε ενδιάμεσους “αντιπροσώπους” των εξυπηρετητών Κεντρική ιδέα της διατριβής
4
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 4 Caching στον ενσύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Caching in Web Memory Hierarchies, Proceedings of the ACM Symposium on Applied Computing (SAC), Mar., 2004. Caching στον ασύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Web Caching in Broadcast Mobile Wireless Environments”, IEEE Internet Computing magazine, Special issue on “Data Dissemination on the Web”, vol. 8, no. 3, May/Jun., 2004. Σημασιολογικό caching Δημοσιεύτηκε ως: D. Katsaros. “Efficiently Maintaining Structural Associations of Semistructured Data”, Proceedings of the Panhellenic Conference on Informatics – Selected papers, Lecture Notes on Computer Science (LNCS), vol. 2563, Springer- Verlag, 2003. Συνεισφορές της διατριβής (1)
5
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 5 Prefetching στον ενσύρματο ΠΙ Δημοσιεύτηκε ως: A. Nanopoulos, D. Katsaros, Y. Manolopoulos. “A Data Mining Algorithm for Generalized Web Prefetching”, IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 5, Sep./Oct., 2003. Εκπομπή στον ασύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Broadcast Program Generation for Webcasting”, Data and Knowledge Engineering (Elsevier), vol. 49, no. 1, Apr., 2004. Συνεισφορές της διατριβής (2)
6
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 6 ΜΕΡΟΣ 1ο: Βασικές έννοιες ΜΕΡΟΣ 2ο: Caching στον ενσύρματο ΠΙ ΜΕΡΟΣ 3ο: Caching στον ασύρματο ΠΙ ΜΕΡΟΣ 4ο: Διατήρηση σχήματος ημιδομημένων δεδομένων ΜΕΡΟΣ 5ο: Prefetching στον ενσύρματο ΠΙ ΜΕΡΟΣ 6ο: Εκπομπή στον ασύρματο ΠΙ ΜΕΡΟΣ 7ο: Συμπεράσματα διατριβής ΜΕΡΟΣ 8ο: Μελλοντική έρευνα Οργάνωση της παρουσίασης
7
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 7 ΜΕΡΟΣ 1ο : Βασικές έννοιες caching στον ΠΙ Μοντέλο προσπέλασης της πληροφορίας Προβλήματα επίδοσης στον ΠΙ Caching και prefetching Μέτρα επίδοσης της cache
8
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 8 ΠελάτηςProxy αίτηση απάντηση αίτηση απάντηση cache ΔΙΑΔΙΚΤΥΟΔΙΑΔΙΚΤΥΟ αίτηση απάντηση + prefetch απάντηση αίτηση Βάση Δεδομένων Web-Powered Βάση Δεδομένων Εξυπηρετητής Εφαρμογής cache Cache Κύριας Μνήμης Εξυπηρετητής Παγκοσμίου Ιστού Cache Δίσκου Βασικές Έννοιες Το μοντέλο του Παγκοσμίου Ιστού (ενσύρματα δίκτυα)
9
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 9 Βασικές Έννοιες Το μοντέλο του Παγκοσμίου Ιστού (ασύρματα δίκτυα)
10
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 10 Προβλήματα επίδοσης του ΠΙ Τεράστια δημοφιλία του ΠΙ, συνεπάγεται: Συμφόρηση (congestion) στο δίκτυο Υπερφόρτωση (overloading) εξυπηρετητών Μεγάλοι χρόνοι απόκρισης εξυπηρετητών Υψηλή καθυστέρηση ανάκτησης (user latency) Βασικές Έννοιες
11
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 11 Λύσεις στα προβλήματα επίδοσης του ΠΙ Ύπαρξη τοπικότητας (locality) στa ρεύματα αναφορών (αιτήσεων) του ΠΙ: Χρονική τοπικότητα (temporal locality) Τα πρόσφατα προσπελασθέντα αντικείμενα έχουν μεγάλη πιθανότητα να προσπελαστούν στο κοντινό μέλλον Χωρική τοπικότητα (spatial locality) Ο αριθμός των διακριτών υποακολουθιών ενός ρεύματος είναι μικρότερος από αυτόν που αντιστοιχεί σε μια τυχαία μετάθεση του ρεύματος Βασικές Έννοιες
12
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 12 Caching και Prefetching για τον ΠΙ Χρονική τοπικότητα αξιοποίηση Caching Caching : Προσωρινή αποθήκευση αντικειμένων πλησιέστερα στον καταναλωτή. Είναι “ανταποδοτικό” (reactive): προσπαθεί να βελτιώσει την επίδοση του συστήματος, αφού πρώτα παρατηρηθεί ελάττωση αυτής Χωρική τοπικότητα αξιοποίηση Prefetching Prefetching :πρόγνωση των μελλοντικών αιτήσεων και προσωρινή αποθήκευση των αντίστοιχων αντικειμένων στην cache πριν αυτά ζητηθούν. Είναι “προενεργητικό” (proactive): λαμβάνει μέριμνα για να μην ελαττωθεί η επίδοση Βασικές Έννοιες
13
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 13 ΜΕΡΟΣ 2ο : Caching στον ενσύρματο ΠΙ Εισαγωγή Κίνητρο και σχετικές εργασίες Αλγόριθμος αντικατάστασης CRF Πειραματική αποτίμηση των μεθόδων Συμπεράσματα
14
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 14 Προκλήσεις για μια πολιτική αντικατάστασης Παράγοντες που διακρίνουν το caching στον ΠΙ από το caching σε παραδοσιακές αρχιτεκτονικές υπολογιστικών συστημάτων: Ετερογένεια στα μεγέθη των αντικειμένων, Ετερογένεια στα κόστη ανάκτησης, Βάθος της ιεραρχίας των caches στον ΠΙ, και Πρότυπο αιτήσεων, οι αιτήσεις δεν γεννιούνται από μερικές προγραμματιζόμενες διεργασίες, αλλά πηγάζουν από μεγάλους ανθρώπινους πληθυσμούς με διαφορετικά και μεταβαλλόμενα ενδιαφέροντα Caching στον ενσύρματο ΠΙ
15
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 15 Πώς αντιμετωπίστηκαν οι προκλήσεις? (1) Η πλειονότητα των πολιτικών αντικατάστασης δεν επιτυγχάνουν ισορροπία HR και CSR: Οι recency-based πολιτικές, ευνοούν το HR, π.χ., η οικογένεια των αλγορίθμων GreedyDualSize Οι frequency-based πολιτικές, ευνοούν το CSR (BHR ή DSR), π.χ., LFUDA Εξαιρέσεις : LUV και GD*. Συνδυάζουν recency και frequency. Μειονέκτημα του LUV είναι η ύπαρξη μιας “διοικητικά” ρυθμιζόμενης παραμέτρου λ, που “επιλέγει” τη recency- based ή frequency-based συμπεριφορά Ο GD* έχει παρόμοι μειονέκτημα, αφού απαιτεί ρύθμιση της παραμέτρου β Caching στον ενσύρματο ΠΙ
16
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 16 Πώς αντιμετωπίστηκαν οι προκλήσεις? (2) Σχετικά με το βάθος της ιεραρχίας των caches: O Carey Williamson Απέδειξε αλλαγή στο πρότυπο προσπέλασης, που χαρακτηρίζεται από ασθενέστερη χρονική τοπικότητα Η προέλευση του ρεύματος των αιτήσεων έλαβε μικρή σχετικά προσοχή Η προέλευση (σε συνδυασμό με το βάθος της ιεραρχίας) είναι υπεύθυνη για το μεγάλο αριθμό των one- timers (αντικείμενα που ζητούνται μόνο μια φορά) Caching στον ενσύρματο ΠΙ
17
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 17 Γιατί χρειαζόμαστε νέα μέθοδο αντικατάστασης? Σε ετερογενή περιβάλλοντα, όπως ο ΠΙ, ανάγκη βελτιστοποίησης/ ισορροπίας μεταξύ HR και CSR (ισορροπία μεταξύ μέσης καθυστέρησης ανάκτησης για το χρήστη και κυκλοφορίας στο δίκτυο) Αντιμετώπιση της ασθενούς χρονικής τοπικότητας στον Παγκόσμιο Ιστό Αντιμετώπιση των one-timers Αποφυγή χρήσης “διοικητικά” ρυθμιζόμενων παραμέτρων Caching στον ενσύρματο ΠΙ
18
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 18 Η πολιτική αντικατάστασης CRF Διαμερίζουμε το χώρο της cache R-segment Συνάρτηση ταξινόμησης αντικειμένων: κλάσμα χρόνου εισόδου στην cache προς το μέγεθος του αντικειμένου Προστασία από one-timers Εκμεταλλεύεται μικρής εμβέλειας (short-range) χρονική τοπικότητα I-segment. Συνάρτηση ταξινόμησης αντικειμένων: γινόμενο χρόνου τελευταίας δια-αναφοράς επί τη recency του αντικειμένου Ο χρόνος τελευταίας δια-αναφοράς εκτιμά τη σταθερή δημοφιλία (συχνότητα αναφοράς) ενός αντικειμένου Η recency εκτιμά την παροδική προτίμηση στο αντικείμενο Caching στον ενσύρματο ΠΙ
19
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 19 Επίδοση της CRF (1) Εξετάσαμε τη CRF σε σχέση με τις πολιτικές Recency-based: LRU, Size, GDS, SLRU GDS ως αντιπρόσωπος της οικογένειας που περιλαμβάνει τις GDS, GDSF Frequency-based: LFU, LFUDA, HLRU, LNCRW3 HRLU(6) ως αντιπρόσωπος της οικογένειας HLRU LNCRW3 υλοποιήθηκε, ώστε να βελτιστοποιεί το BHR και όχι το DSR Recency + Frequency: LUV LUV ρύθμιση: δοκιμάσαμε διάφορεες τιμές για την παράμετρο λ, and we επιλέξαμε την τιμή 0.01, επειδή έδωσε την καλύτερη επίδοση για μικρές caches, αλλά και την καλύτερη επίδοση στις περισσότερες περιπτώσεις Caching στον ενσύρματο ΠΙ
20
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 20 Επίδοση της CRF (2) Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων με το εργαλείο ProWGen μοντελοποιώντας Κατανομή μεγέθους αντικειμένων, Κατανομή δημοφιλίας, Ισχύ χρονικής τοπικότητας Εξετάσαμε τους παράγοντες One-timers Κύρτωση Zipf Χρονική τοπικότητα κανονική εξαιρετικά ισχυρή Μέγεθος cache μικρή μεσαία μεγάλη Caching στον ενσύρματο ΠΙ
21
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 21 Πραγματικά δεδομένα : recency-based Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio Caching στον ενσύρματο ΠΙ
22
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 22 Πραγματικά δεδομένα : frequency-based Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio Caching στον ενσύρματο ΠΙ
23
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 23 ΜΕΡΟΣ 3ο : Caching στον ασύρματο ΠΙ Κίνητρο Σχετικές εργασίες Αλγόριθμος αντικατάστασης SliCache Πειραματική αποτίμηση των μεθόδων Συμπεράσματα
24
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 24 Κίνητρο ανάπτυξης πολιτικής αντικατάστασης Διάκριση μεταξύ αντικειμένων που είναι πιθανό να προσπελαστούν στο κοντινό μέλλον και εκείνων που έχουν μικρή τέτοια πιθανότητα Αποφυγή χρήσης “διοικητικά” ρυθμιζόμενων παραμέτρων (εξαιτίας δυσκολίας ρύθμισης της τιμής τους, κινητικότητας πελατών) Αντιμετώπιση του γεγονότος ότι τα αντικείμενα έχουν μεταβλητό μέγεθος Αποφυγή υποθέσεων σχετικά με το πρόγραμμα εκπομπής (διαφορετικοί εξυπηρετητές, διαφορετικά προγράμματα εκπομπής του ίδιου εξυπηρετητή) Caching στον ασύρματο ΠΙ
25
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 25 Σχετικές εργασίες για caching (σε ασύρματα δίκτυα) PIX: Πιθανότητα προσπέλασης προς τη συχνότητα εκπομπής Πολιτική του Tassiula: βασίζεται σε lookahead, δηλ., γνώση του προγράμματος εκπομπής Gray: όμοια, βασίζεται σε lookahead Min-SAUD: γενίκευση του PIX, λαμβάνοντας υπόψη το μεταβλητό μέγεθος των αντικειμένων Caching στον ασύρματο ΠΙ
26
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 26 Η πολιτική SliCache Περιγράψαμε νωρίτερα την CRF Ικανοποιεί όλα τα κριτήρια που θέσαμε Θα δείξουμε πόσο ευεργετική είναι η επίτευξη ισορροπίας σε HR και BHR σε ασύρματα περιβάλλοντα Κατάλληλη για “διάφανη” ενοποίηση Caching στον ασύρματο ΠΙ
27
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 27 Aνάλυση επίδοσης της SliCache Εξετάστηκε η SliCache σε σχέση με τους LRU, LRU-K, PIX, Min-SAUD Caching στον ασύρματο ΠΙ ΠολιτικήRecencyΣυχνότητα Μεταβλητό μέγεθος αντικειμέν. Πρόβλεψη προγράμ. εκπομπής LRU PIX LRU-K Min-SAUD SliCache
28
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 28 Aνάλυση επίδοσης της SliCache Χρησιμοποιήσαμε συνθετικά ρεύματα αιτήσεων Εξετάσαμε τις κατανομές μεγέθους/δημοφιλίας: INCRT: τα μικρά αντικείμενα είναι πιο δημοφιλή DECRT: τα μικρά αντικείμενα είναι πιο δημοφιλή RAND: δεν υπάρχει συσχέτιση μεγέθους/δημοφιλίας Μελετήσαμε την επίδραση του παράγοντα: Μέγεθος της cache Κύρτωση Zipf Ομοιογένεια των πελατών Γνώση του προγράμματος εκπομπής Caching στον ασύρματο ΠΙ
29
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 29 Επίδραση του μεγέθους της cache Κατανομή INCRT Κατανομή DECRT Caching στον ασύρματο ΠΙ
30
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 30 Επίδραση της Zipfian κύρτωσης Κατανομή INCRT Caching στον ασύρματο ΠΙ
31
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 31 Επίδραση του προγράμματος εκπομπής Caching στον ασύρματο ΠΙ Κατανομή INCRT
32
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 32 ΜΕΡΟΣ 4ο : Διατήρηση σχήματος ημιδομημένων δεδομένων Περιγραφή προβλήματος Κίνητρο Ορισμός του προβλήματος Σχετικές εργασίες Αλγόριθμος DeltaSSD Πειραματική αποτίμηση των μεθόδων Συμπεράσματα
33
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 33 Κίνητρο Σημασιολογικό caching σε δεδομένα του ΠΙ : τα επερωτήματα των χρηστών (μαζί με τα αντίστοιχα αποτελέσματά τους) στεγάζονται στην cache για μελλοντική χρήση. Έχει δυο συνιστώσες: Εύρεση και διατήρηση των κοινών (υπο)δομών σε συλλογές π.χ., XML εγγράφων Υιοθέτηση/επινόηση μιας πολιτικής αντικατάστασης Το κίνητρό μας είναι η πρώτη συνιστώσα, και ειδικότερα η διατήρηση Διατήρηση σχήματος ημιδομημένων δεδομένων
34
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 34 Το ζήτημα της διατήρησης σχήματος Μεγάλος όγκος (π.χ., XML) δεδομένων, δηλ., δενδρικών δομών Υποθέτουμε ότι είναι ήδη γνωστές οι κοινές (υπο)δομές της συλλογής (π.χ., με τον αλγόριθμο Wang & Liu, IEEE TKDE 2000) Εύρεση των κοινών (υπο)δομών όταν προστίθενται νέα δεδομένα στη συλλογή Διατήρηση σχήματος ημιδομημένων δεδομένων
35
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 35 Ορισμός προβλήματος Διατήρηση σχήματος ημιδομημένων δεδομένων Είσοδος 1.Συλλογή αντικειμένων δενδρικών συναλλαγών, που συμβολίζεται με DB 2.Ελάχιστο κατώφλι υποστήριξης MINSUP 3.Οι συχνές δενδρικές δομές της DB 4.Σύνολο νέων αντικειμένων προστίθεται στη συλλογή, και συμβολίζεται με db Το πρόβλημα της αυξητικής εξόρυξης σχήματος είναι η ανακάλυψη όλων των δενδρικών δομών που έχουν υποστήριξη στη συλλογή DB db μεγαλύτερη ή ίση από το MINSUP
36
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 36 Σχετικές εργασίες Διατήρηση σχήματος ημιδομημένων δεδομένων WANG: Όμοιος με τον Apriori (όχι αυξητικός). Εκτελεί πολλαπλές σαρώσεις της βάσης, δημιουργεί υποψήφιες συχνές δενδρικές δομές και ελέγχει την υποστήριξή τους ZJZT: Έλεγχος των παλιών συχνών δενδρικών, εάν εξακολουθούν να είναι ακόμα συχνές. Εκτέλεση εξόρυξης στο db και επιβεβαίωση των αποτελεσμάτων στην DB
37
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 37 Ο αλγόριθμος DeltaSSD Διατήρηση σχήματος ημιδομημένων δεδομένων Αξιοποιεί τις υποψήφιες δενδρικές δομές που απέτυχαν να γίνουν συχνές. Αυτές αποτελούν το Αρνητικό Σύνορο Ελέγχει εάν κάποιες δενδρικές δομές που ανήκαν στο Αρνητικό σύνορο γίνονται συχνές Βρίσκεται το “Κλείσιμο” (closure) αυτών, και ελέγχει ποιες είναι συχνές στη συνολική βάση
38
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 38 Πειραματικά αποτελέσματα: Σαφής ανωτερότητα Διατήρηση σχήματος ημιδομημένων δεδομένων WangZJZTDeltaSSD minsup Σαρώσεις DB Σαρώσεις db Σαρώσεις DB Σαρώσεις db Σαρώσεις DB Σαρώσεις db 0.08333312 0.10333312 0.12333312 0.14333312 Αριθμός σαρώσεων της βάσης
39
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 39 ΜΕΡΟΣ 5ο : Prefetching στον ενσύρματο ΠΙ Εισαγωγή Κίνητρο και σχετικές εργασίες Αλγόριθμος αντικατάστασης WM o Πειραματική αποτίμηση των μεθόδων Συμπεράσματα
40
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 40 Το ζήτημα του prefetching Prefetching: Γνώση των μελλοντικών αιτήσεων και στέγαση των αντίστοιχων αντικειμένων στην cache, πριν ζητηθούν Με πληροφόρηση (Informed): Ανεφάρμοστο στον ΠΙ Προγνωστικό (Predictive) Εξετάζουμε: Προγνωστικό predictive (αξιοποιούμε το ιστορικό των αιτήσεων) Πρωτοβουλία του εξυπηρετητή (ο εξυπηρετητής κάνει προβλέψεις και τις γνωστοποιεί στους πελάτες) Prefetching στον ενσύρματο ΠΙ
41
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 41 Σχετικές εργασίες για prefetching Οικογένειες αλγορίθμων: (a) DG: Πρότυπα μεταξύ ζευγών αντικειμένων. (b) PPM: Πρότυπα μεταξύ συνεχόμενων ακολουθιών Prefetching στον ενσύρματο ΠΙ Ρεύματα αιτήσεων: ABCACBD και CCABCBCA
42
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 42 Κίνητρο ανάπτυξης Η δομή του Διαδικτυακού τόπου και τα περιεχόμενα των ιστοσελίδων επιβάλλουν: Την τάξη των εξαρτήσεων (πρώτη ή υψηλότερες) μεταξύ των αντικειμένων Την “παρεμβολή” αντικειμένων που ανήκουν σε πρότυπα μαζί με τυχαίες επισκέψεις (θόρυβος) Τα πρότυπα που αναζητούμε θα πρέπει να σέβονται αυτούς τους παράγοντες Prefetching στον ενσύρματο ΠΙ
43
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 43 Η πολιτική WM o Βασίζεται στο παράδειγμα της εξόρυξης κανόνων συσχέτισης, δηλ., μέθοδο Apriori Διαφορετικό τρόπο δημιουργίας των υποψηφίων: λαμβάνει υπόψη τη διάταξή τους Prefetching στον ενσύρματο ΠΙ Τάξη ΕξαρτήσεωνΘόρυβος DGΟΧΙΝΑΙ PPMΝΑΙΟΧΙ WM o ΝΑΙ
44
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 44 Μέτρο επίδοσης των πολιτικών Ακρίβεια: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς το συνολικό αριθμό των εγγράφων που μεταφέρθηκαν στην cache εξαιτίας της λειτουργίας του prefetching Χρησιμότητα: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη, αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς τον συνολικό αριθμό των εγγράφων που ζητήθηκαν Δικτυακή κίνηση: ισούται με το κλάσμα του συνολικού αριθμού των εγγράφων που φτάνουν στην cache των πελατών (non prefeteched + prefeteched έγγραφα), προς τον αριθμό των non prefeteched εγγράφων. Caching στον ασύρματο ΠΙ
45
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 45 Αξιολόγηση επίδοσης Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων μοντελοποιώντας: συνδεσμολογία, μεγέθη αντικειμένων Εξετάσαμε τους παράγοντες Θόρυβο Τάξη εξαρτήσεων cache Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων Εξετάσαμε: DG, PPM Caching στον ασύρματο ΠΙ
46
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 46 Ακρίβεια σε σχέση με το θόρυβο Prefetching στον ενσύρματο ΠΙ
47
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 47 Χρησιμότητα σε σχέση με το θόρυβο Prefetching στον ενσύρματο ΠΙ
48
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 48 Ακρίβεια σε σχέση με τις εξαρτήσεις Prefetching στον ενσύρματο ΠΙ
49
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 49 Χρησιμότητα σε σχέση με τις εξαρτήσεις Prefetching στον ενσύρματο ΠΙ
50
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 50 ΜΕΡΟΣ 6ο : Εκπομπή στον ασύρματο ΠΙ Κίνητρο Περιγραφή προβλήματος Σχετικές εργασίες Αλγόριθμος CascadedWebcasting Πειραματική αποτίμηση των μεθόδων Συμπεράσματα
51
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 51 Δίσκοι Εκπομπής (Broadcast Disks) Εκπομπή στον ασύρματο ΠΙ Βάση Δεδομένων Τμήματα 1234567891011 Πρόγραμμα Εκπομπής Δίσκοι 1 Δ1Δ1 23 Δ2Δ2 4567891011 Δ3Δ3 1 Τ 11 2 Τ 21 3 Τ 22 4567891011 Τ 31 Τ 32 Τ 33 Τ 34 124513671289131011
52
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 52 Δημιουργία προγράμματος Το ουσιαστικό ζήτημα στους Δίσκους Εκπομπής: Δεδομένου του αριθμού τους, να γίνει διαμέριση των δεδομένων στους δίσκους ανάλογα με τις συχνότητες προσπέλασής τους (είναι διαθέσιμες διάφορες στατιστικές μέθοδοι εκτίμησής τους) Το πρόβλημα είναι ισοδύναμο με την κατανομή δεδομένων σε πολλαπλά ομοιογενή ασύρματα κανάλια εκπομπής Εκπομπή στον ασύρματο ΠΙ
53
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 53 Σχετικές εργασίες για εκπομπή δεδομένων Bucketing: Μια σάρωση του διανύσματος των πιθανοτήτων προσπέλασης Growing Segments: Σταδιακή αύξηση “μοναδιαίων” δίσκων. Πολλαπλές σαρώσεις VF K : διαίρεση του δίσκου με το μεγαλύτερο κόστος. Πολλαπλές σαρώσεις Greedy: διαίρεση του δίσκου που επιφέρει τη μεγαλύτερη ελάττωση στο κόστος. Πολλαπλές σαρώσεις Data Based: Γενίκευση του VF K. Πολλαπλές σαρώσεις Εκπομπή στον ασύρματο ΠΙ
54
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 54 Κίνητρο ανάπτυξης νέας πολιτικής εκπομπής Υπολογιστικά χρονοβόρες Εστιάζουν στη βελτίωση κατά πολύ λίγες ποσοστιαίες μονάδες του μέσου χρόνου προσπέλασης του πελάτη Δεν είναι κατάλληλες για μεγάλο όγκο δεδομένων, π.χ., Cache Satellite Distribution Systems, χιλιάδες αντικείμενα εκπέμπονται από δορυφόρο σε επίγειες caches Εκπομπή στον ασύρματο ΠΙ
55
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 55 Βασική διαίσθηση για την CascadedWebcasting Διαίσθηση Ενας πρακτικά σταθερός αριθμός δεδομένων με μεγάλη πιθανότητα προσπέλασης Δεδομένα που ανήκουν σε λίγες μεγάλες ομάδες Δεδομένα που συνεισφέρουν ελάχιστα στο μέσο χρόνο προσπέλασης Εκπομπή στον ασύρματο ΠΙ
56
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 56 Ο αλγόριθμος CascadedWebcasting (Casc) Ταξινόμηση του διανύσματος των πιθανοτήτων προσπέλασης (κοινό βήμα όλων των μεθόδων) Διαμέρισή του σε τμήματα μεγέθους ίσου με τις δυνάμεις του 2, δηλ., 1, 2, 4, 8, 16,... Επαναληπτική συνένωση εκείνων των δυο διαδοχικών τμημάτων που επιφέρουν τη μεγαλύτερη ελάττωση στο μέσο χρόνο προσπέλασης Εκπομπή στον ασύρματο ΠΙ
57
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 57 Επίδοση της CascadedWebcasting Χρησιμοποιήσαμε δεδομένα αιτήσεων συνθετικά πραγματικά Αξιολογήσαμε τις μεθόδους Bucketing, Growing Segments, VF K, Greedy, Data Based, δηλ., όλες τις ανταγωνιστικές Μέτρα επίδοσης: Μέση καθυστέρηση προσπέλασης Χρόνος εκτέλεσης της κάθε μεθόδου Εξετάσαμε την επίδοση ως προς τον: Αριθμό δίσκων Μέγεθος της βάσης Κύρτωση Zipf Εκπομπή στον ασύρματο ΠΙ
58
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 58 Επίδραση του αριθμού των Δίσκων Εκπομπής Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης Εκπομπή στον ασύρματο ΠΙ
59
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 59 Επίδραση του μεγέθους της βάσης Εκπομπή στον ασύρματο ΠΙ Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης
60
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 60 ΜΕΡΟΣ 7ο : Συμπεράσματα της διατριβής Ιδιαιτερότητες Παγκοσμίου Ιστού Caching: recency+frequency, μεγάλο βάθος ιεραρχίας, one-timers Caching κινητούς πελάτες: αδύνατη η πρόβλεψη Τεράστια ανομοιογένεια: εξόρυξη για εύρεση κοινών δομών Prefetching: υπερκείμενο, “θόρυβος” Εκπομπή: τεράστιος όγκος αντικειμένων
61
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 61 ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (1) Σημασιολογικός Παγκόσμιος Ιστός (Semantic Web) XML Caching τμημάτων XML Σημασιολογικά Ευρετήρια (Semantic Indexes) Σημασιολογικές μηχανές αναζήτησης Υπηρεσίες Παγκοσμίου Ιστού (Web services) Caching αποτελεσμάτων Caches ως Web services
62
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 62 ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (2) Διάχυτα Υπολογιστικά Περιβάλλοντα (Pervasive Computing Environments) Έξυπνες caches Media transcoding XML “transcoding” Caching σε κινητά ad-hoc δίκτυα Συνεργατικό caching Caching διαδρομής προς αντικείμενα
63
Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 63 Ευχαριστώ για την προσοχή σας
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.