Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1 Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1 Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων."— Μεταγράφημα παρουσίασης:

1 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1 Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό

2 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 2 Πώς μπορούμε να ελαττώσουμε την καθυστέρηση πρόσβασης στον Παγκόσμιο Ιστό (ΠΙ); Το βασικό ερώτημα/κίνητρο της διατριβής

3 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 3  Εξετάζουμε μεθόδους διάχυσης της πληροφορίας στον (ενσύρματο και ασύρματο) Παγκόσμιο Ιστό από τους εξυπηρετητές προς τους καταναλωτές  Στηριζόμαστε στην τεχνική του caching, δηλ., στην αποθήκευση της πληροφορίας σε ενδιάμεσους “αντιπροσώπους” των εξυπηρετητών Κεντρική ιδέα της διατριβής

4 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 4  Caching στον ενσύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Caching in Web Memory Hierarchies, Proceedings of the ACM Symposium on Applied Computing (SAC), Mar.,  Caching στον ασύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Web Caching in Broadcast Mobile Wireless Environments”, IEEE Internet Computing magazine, Special issue on “Data Dissemination on the Web”, vol. 8, no. 3, May/Jun.,  Σημασιολογικό caching Δημοσιεύτηκε ως: D. Katsaros. “Efficiently Maintaining Structural Associations of Semistructured Data”, Proceedings of the Panhellenic Conference on Informatics – Selected papers, Lecture Notes on Computer Science (LNCS), vol. 2563, Springer- Verlag, Συνεισφορές της διατριβής (1)

5 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 5  Prefetching στον ενσύρματο ΠΙ Δημοσιεύτηκε ως: A. Nanopoulos, D. Katsaros, Y. Manolopoulos. “A Data Mining Algorithm for Generalized Web Prefetching”, IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 5, Sep./Oct.,  Εκπομπή στον ασύρματο ΠΙ Δημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Broadcast Program Generation for Webcasting”, Data and Knowledge Engineering (Elsevier), vol. 49, no. 1, Apr., Συνεισφορές της διατριβής (2)

6 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 6  ΜΕΡΟΣ 1ο: Βασικές έννοιες  ΜΕΡΟΣ 2ο: Caching στον ενσύρματο ΠΙ  ΜΕΡΟΣ 3ο: Caching στον ασύρματο ΠΙ  ΜΕΡΟΣ 4ο: Διατήρηση σχήματος ημιδομημένων δεδομένων  ΜΕΡΟΣ 5ο: Prefetching στον ενσύρματο ΠΙ  ΜΕΡΟΣ 6ο: Εκπομπή στον ασύρματο ΠΙ  ΜΕΡΟΣ 7ο: Συμπεράσματα διατριβής  ΜΕΡΟΣ 8ο: Μελλοντική έρευνα Οργάνωση της παρουσίασης

7 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 7 ΜΕΡΟΣ 1ο : Βασικές έννοιες caching στον ΠΙ  Μοντέλο προσπέλασης της πληροφορίας  Προβλήματα επίδοσης στον ΠΙ  Caching και prefetching  Μέτρα επίδοσης της cache

8 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 8 ΠελάτηςProxy αίτηση απάντηση αίτηση απάντηση cache ΔΙΑΔΙΚΤΥΟΔΙΑΔΙΚΤΥΟ αίτηση απάντηση + prefetch απάντηση αίτηση Βάση Δεδομένων Web-Powered Βάση Δεδομένων Εξυπηρετητής Εφαρμογής cache Cache Κύριας Μνήμης Εξυπηρετητής Παγκοσμίου Ιστού Cache Δίσκου Βασικές Έννοιες Το μοντέλο του Παγκοσμίου Ιστού (ενσύρματα δίκτυα)

9 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 9 Βασικές Έννοιες Το μοντέλο του Παγκοσμίου Ιστού (ασύρματα δίκτυα)

10 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 10 Προβλήματα επίδοσης του ΠΙ Τεράστια δημοφιλία του ΠΙ, συνεπάγεται:  Συμφόρηση (congestion) στο δίκτυο  Υπερφόρτωση (overloading) εξυπηρετητών  Μεγάλοι χρόνοι απόκρισης εξυπηρετητών  Υψηλή καθυστέρηση ανάκτησης (user latency) Βασικές Έννοιες

11 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 11 Λύσεις στα προβλήματα επίδοσης του ΠΙ Ύπαρξη τοπικότητας (locality) στa ρεύματα αναφορών (αιτήσεων) του ΠΙ:  Χρονική τοπικότητα (temporal locality)  Τα πρόσφατα προσπελασθέντα αντικείμενα έχουν μεγάλη πιθανότητα να προσπελαστούν στο κοντινό μέλλον  Χωρική τοπικότητα (spatial locality)  Ο αριθμός των διακριτών υποακολουθιών ενός ρεύματος είναι μικρότερος από αυτόν που αντιστοιχεί σε μια τυχαία μετάθεση του ρεύματος Βασικές Έννοιες

12 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 12 Caching και Prefetching για τον ΠΙ  Χρονική τοπικότητα  αξιοποίηση Caching  Caching : Προσωρινή αποθήκευση αντικειμένων πλησιέστερα στον καταναλωτή. Είναι “ανταποδοτικό” (reactive): προσπαθεί να βελτιώσει την επίδοση του συστήματος, αφού πρώτα παρατηρηθεί ελάττωση αυτής  Χωρική τοπικότητα  αξιοποίηση Prefetching  Prefetching :πρόγνωση των μελλοντικών αιτήσεων και προσωρινή αποθήκευση των αντίστοιχων αντικειμένων στην cache πριν αυτά ζητηθούν. Είναι “προενεργητικό” (proactive): λαμβάνει μέριμνα για να μην ελαττωθεί η επίδοση Βασικές Έννοιες

13 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 13 ΜΕΡΟΣ 2ο : Caching στον ενσύρματο ΠΙ  Εισαγωγή  Κίνητρο και σχετικές εργασίες  Αλγόριθμος αντικατάστασης CRF  Πειραματική αποτίμηση των μεθόδων  Συμπεράσματα

14 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 14 Προκλήσεις για μια πολιτική αντικατάστασης Παράγοντες που διακρίνουν το caching στον ΠΙ από το caching σε παραδοσιακές αρχιτεκτονικές υπολογιστικών συστημάτων:  Ετερογένεια στα μεγέθη των αντικειμένων,  Ετερογένεια στα κόστη ανάκτησης,  Βάθος της ιεραρχίας των caches στον ΠΙ, και  Πρότυπο αιτήσεων, οι αιτήσεις δεν γεννιούνται από μερικές προγραμματιζόμενες διεργασίες, αλλά πηγάζουν από μεγάλους ανθρώπινους πληθυσμούς με διαφορετικά και μεταβαλλόμενα ενδιαφέροντα Caching στον ενσύρματο ΠΙ

15 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 15 Πώς αντιμετωπίστηκαν οι προκλήσεις? (1) Η πλειονότητα των πολιτικών αντικατάστασης δεν επιτυγχάνουν ισορροπία HR και CSR:  Οι recency-based πολιτικές, ευνοούν το HR, π.χ., η οικογένεια των αλγορίθμων GreedyDualSize  Οι frequency-based πολιτικές, ευνοούν το CSR (BHR ή DSR), π.χ., LFUDA Εξαιρέσεις : LUV και GD*. Συνδυάζουν recency και frequency.  Μειονέκτημα του LUV είναι η ύπαρξη μιας “διοικητικά” ρυθμιζόμενης παραμέτρου λ, που “επιλέγει” τη recency- based ή frequency-based συμπεριφορά  Ο GD* έχει παρόμοι μειονέκτημα, αφού απαιτεί ρύθμιση της παραμέτρου β Caching στον ενσύρματο ΠΙ

16 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 16 Πώς αντιμετωπίστηκαν οι προκλήσεις? (2) Σχετικά με το βάθος της ιεραρχίας των caches: O Carey Williamson  Απέδειξε αλλαγή στο πρότυπο προσπέλασης, που χαρακτηρίζεται από ασθενέστερη χρονική τοπικότητα Η προέλευση του ρεύματος των αιτήσεων έλαβε μικρή σχετικά προσοχή  Η προέλευση (σε συνδυασμό με το βάθος της ιεραρχίας) είναι υπεύθυνη για το μεγάλο αριθμό των one- timers (αντικείμενα που ζητούνται μόνο μια φορά) Caching στον ενσύρματο ΠΙ

17 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 17 Γιατί χρειαζόμαστε νέα μέθοδο αντικατάστασης?  Σε ετερογενή περιβάλλοντα, όπως ο ΠΙ, ανάγκη βελτιστοποίησης/ ισορροπίας μεταξύ HR και CSR (ισορροπία μεταξύ μέσης καθυστέρησης ανάκτησης για το χρήστη και κυκλοφορίας στο δίκτυο)  Αντιμετώπιση της ασθενούς χρονικής τοπικότητας στον Παγκόσμιο Ιστό  Αντιμετώπιση των one-timers  Αποφυγή χρήσης “διοικητικά” ρυθμιζόμενων παραμέτρων Caching στον ενσύρματο ΠΙ

18 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 18 Η πολιτική αντικατάστασης CRF  Διαμερίζουμε το χώρο της cache  R-segment  Συνάρτηση ταξινόμησης αντικειμένων: κλάσμα χρόνου εισόδου στην cache προς το μέγεθος του αντικειμένου  Προστασία από one-timers  Εκμεταλλεύεται μικρής εμβέλειας (short-range) χρονική τοπικότητα  I-segment.  Συνάρτηση ταξινόμησης αντικειμένων: γινόμενο χρόνου τελευταίας δια-αναφοράς επί τη recency του αντικειμένου  Ο χρόνος τελευταίας δια-αναφοράς εκτιμά τη σταθερή δημοφιλία (συχνότητα αναφοράς) ενός αντικειμένου  Η recency εκτιμά την παροδική προτίμηση στο αντικείμενο Caching στον ενσύρματο ΠΙ

19 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 19 Επίδοση της CRF (1) Εξετάσαμε τη CRF σε σχέση με τις πολιτικές  Recency-based: LRU, Size, GDS, SLRU  GDS ως αντιπρόσωπος της οικογένειας που περιλαμβάνει τις GDS, GDSF  Frequency-based: LFU, LFUDA, HLRU, LNCRW3  HRLU(6) ως αντιπρόσωπος της οικογένειας HLRU  LNCRW3 υλοποιήθηκε, ώστε να βελτιστοποιεί το BHR και όχι το DSR  Recency + Frequency: LUV  LUV ρύθμιση: δοκιμάσαμε διάφορεες τιμές για την παράμετρο λ, and we επιλέξαμε την τιμή 0.01, επειδή έδωσε την καλύτερη επίδοση για μικρές caches, αλλά και την καλύτερη επίδοση στις περισσότερες περιπτώσεις Caching στον ενσύρματο ΠΙ

20 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 20 Επίδοση της CRF (2)  Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων  Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων με το εργαλείο ProWGen μοντελοποιώντας  Κατανομή μεγέθους αντικειμένων, Κατανομή δημοφιλίας, Ισχύ χρονικής τοπικότητας  Εξετάσαμε τους παράγοντες  One-timers  Κύρτωση Zipf  Χρονική τοπικότητα  κανονική  εξαιρετικά ισχυρή  Μέγεθος cache  μικρή  μεσαία  μεγάλη Caching στον ενσύρματο ΠΙ

21 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 21 Πραγματικά δεδομένα : recency-based Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio Caching στον ενσύρματο ΠΙ

22 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 22 Πραγματικά δεδομένα : frequency-based Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio Caching στον ενσύρματο ΠΙ

23 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 23 ΜΕΡΟΣ 3ο : Caching στον ασύρματο ΠΙ Κίνητρο Σχετικές εργασίες Αλγόριθμος αντικατάστασης SliCache Πειραματική αποτίμηση των μεθόδων Συμπεράσματα

24 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 24 Κίνητρο ανάπτυξης πολιτικής αντικατάστασης  Διάκριση μεταξύ αντικειμένων που είναι πιθανό να προσπελαστούν στο κοντινό μέλλον και εκείνων που έχουν μικρή τέτοια πιθανότητα  Αποφυγή χρήσης “διοικητικά” ρυθμιζόμενων παραμέτρων (εξαιτίας δυσκολίας ρύθμισης της τιμής τους, κινητικότητας πελατών)  Αντιμετώπιση του γεγονότος ότι τα αντικείμενα έχουν μεταβλητό μέγεθος  Αποφυγή υποθέσεων σχετικά με το πρόγραμμα εκπομπής (διαφορετικοί εξυπηρετητές, διαφορετικά προγράμματα εκπομπής του ίδιου εξυπηρετητή) Caching στον ασύρματο ΠΙ

25 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 25 Σχετικές εργασίες για caching (σε ασύρματα δίκτυα)  PIX: Πιθανότητα προσπέλασης προς τη συχνότητα εκπομπής  Πολιτική του Tassiula: βασίζεται σε lookahead, δηλ., γνώση του προγράμματος εκπομπής  Gray: όμοια, βασίζεται σε lookahead  Min-SAUD: γενίκευση του PIX, λαμβάνοντας υπόψη το μεταβλητό μέγεθος των αντικειμένων Caching στον ασύρματο ΠΙ

26 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 26 Η πολιτική SliCache  Περιγράψαμε νωρίτερα την CRF  Ικανοποιεί όλα τα κριτήρια που θέσαμε  Θα δείξουμε πόσο ευεργετική είναι η επίτευξη ισορροπίας σε HR και BHR σε ασύρματα περιβάλλοντα  Κατάλληλη για “διάφανη” ενοποίηση Caching στον ασύρματο ΠΙ

27 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 27 Aνάλυση επίδοσης της SliCache Εξετάστηκε η SliCache σε σχέση με τους LRU, LRU-K, PIX, Min-SAUD Caching στον ασύρματο ΠΙ ΠολιτικήRecencyΣυχνότητα Μεταβλητό μέγεθος αντικειμέν. Πρόβλεψη προγράμ. εκπομπής LRU  PIX  LRU-K  Min-SAUD  SliCache 

28 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 28 Aνάλυση επίδοσης της SliCache  Χρησιμοποιήσαμε συνθετικά ρεύματα αιτήσεων  Εξετάσαμε τις κατανομές μεγέθους/δημοφιλίας:  INCRT: τα μικρά αντικείμενα είναι πιο δημοφιλή  DECRT: τα μικρά αντικείμενα είναι πιο δημοφιλή  RAND: δεν υπάρχει συσχέτιση μεγέθους/δημοφιλίας  Μελετήσαμε την επίδραση του παράγοντα:  Μέγεθος της cache  Κύρτωση Zipf  Ομοιογένεια των πελατών  Γνώση του προγράμματος εκπομπής Caching στον ασύρματο ΠΙ

29 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 29 Επίδραση του μεγέθους της cache Κατανομή INCRT Κατανομή DECRT Caching στον ασύρματο ΠΙ

30 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 30 Επίδραση της Zipfian κύρτωσης Κατανομή INCRT Caching στον ασύρματο ΠΙ

31 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 31 Επίδραση του προγράμματος εκπομπής Caching στον ασύρματο ΠΙ Κατανομή INCRT

32 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 32 ΜΕΡΟΣ 4ο : Διατήρηση σχήματος ημιδομημένων δεδομένων Περιγραφή προβλήματος Κίνητρο Ορισμός του προβλήματος Σχετικές εργασίες Αλγόριθμος DeltaSSD Πειραματική αποτίμηση των μεθόδων Συμπεράσματα

33 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 33 Κίνητρο  Σημασιολογικό caching σε δεδομένα του ΠΙ : τα επερωτήματα των χρηστών (μαζί με τα αντίστοιχα αποτελέσματά τους) στεγάζονται στην cache για μελλοντική χρήση. Έχει δυο συνιστώσες:  Εύρεση και διατήρηση των κοινών (υπο)δομών σε συλλογές π.χ., XML εγγράφων  Υιοθέτηση/επινόηση μιας πολιτικής αντικατάστασης  Το κίνητρό μας είναι η πρώτη συνιστώσα, και ειδικότερα η διατήρηση Διατήρηση σχήματος ημιδομημένων δεδομένων

34 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 34 Το ζήτημα της διατήρησης σχήματος  Μεγάλος όγκος (π.χ., XML) δεδομένων, δηλ., δενδρικών δομών  Υποθέτουμε ότι είναι ήδη γνωστές οι κοινές (υπο)δομές της συλλογής (π.χ., με τον αλγόριθμο Wang & Liu, IEEE TKDE 2000)  Εύρεση των κοινών (υπο)δομών όταν προστίθενται νέα δεδομένα στη συλλογή Διατήρηση σχήματος ημιδομημένων δεδομένων

35 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 35 Ορισμός προβλήματος Διατήρηση σχήματος ημιδομημένων δεδομένων Είσοδος 1.Συλλογή αντικειμένων δενδρικών συναλλαγών, που συμβολίζεται με DB 2.Ελάχιστο κατώφλι υποστήριξης MINSUP 3.Οι συχνές δενδρικές δομές της DB 4.Σύνολο νέων αντικειμένων προστίθεται στη συλλογή, και συμβολίζεται με db Το πρόβλημα της αυξητικής εξόρυξης σχήματος είναι η ανακάλυψη όλων των δενδρικών δομών που έχουν υποστήριξη στη συλλογή DB  db μεγαλύτερη ή ίση από το MINSUP

36 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 36 Σχετικές εργασίες Διατήρηση σχήματος ημιδομημένων δεδομένων  WANG: Όμοιος με τον Apriori (όχι αυξητικός). Εκτελεί πολλαπλές σαρώσεις της βάσης, δημιουργεί υποψήφιες συχνές δενδρικές δομές και ελέγχει την υποστήριξή τους  ZJZT: Έλεγχος των παλιών συχνών δενδρικών, εάν εξακολουθούν να είναι ακόμα συχνές. Εκτέλεση εξόρυξης στο db και επιβεβαίωση των αποτελεσμάτων στην DB

37 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 37 Ο αλγόριθμος DeltaSSD Διατήρηση σχήματος ημιδομημένων δεδομένων  Αξιοποιεί τις υποψήφιες δενδρικές δομές που απέτυχαν να γίνουν συχνές. Αυτές αποτελούν το Αρνητικό Σύνορο  Ελέγχει εάν κάποιες δενδρικές δομές που ανήκαν στο Αρνητικό σύνορο γίνονται συχνές  Βρίσκεται το “Κλείσιμο” (closure) αυτών, και ελέγχει ποιες είναι συχνές στη συνολική βάση

38 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 38 Πειραματικά αποτελέσματα: Σαφής ανωτερότητα Διατήρηση σχήματος ημιδομημένων δεδομένων WangZJZTDeltaSSD minsup Σαρώσεις DB Σαρώσεις db Σαρώσεις DB Σαρώσεις db Σαρώσεις DB Σαρώσεις db Αριθμός σαρώσεων της βάσης

39 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 39 ΜΕΡΟΣ 5ο : Prefetching στον ενσύρματο ΠΙ  Εισαγωγή  Κίνητρο και σχετικές εργασίες  Αλγόριθμος αντικατάστασης WM o  Πειραματική αποτίμηση των μεθόδων  Συμπεράσματα

40 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 40 Το ζήτημα του prefetching Prefetching: Γνώση των μελλοντικών αιτήσεων και στέγαση των αντίστοιχων αντικειμένων στην cache, πριν ζητηθούν  Με πληροφόρηση (Informed): Ανεφάρμοστο στον ΠΙ  Προγνωστικό (Predictive) Εξετάζουμε:  Προγνωστικό predictive (αξιοποιούμε το ιστορικό των αιτήσεων)  Πρωτοβουλία του εξυπηρετητή (ο εξυπηρετητής κάνει προβλέψεις και τις γνωστοποιεί στους πελάτες) Prefetching στον ενσύρματο ΠΙ

41 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 41 Σχετικές εργασίες για prefetching Οικογένειες αλγορίθμων: (a) DG: Πρότυπα μεταξύ ζευγών αντικειμένων. (b) PPM: Πρότυπα μεταξύ συνεχόμενων ακολουθιών Prefetching στον ενσύρματο ΠΙ Ρεύματα αιτήσεων: ABCACBD και CCABCBCA

42 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 42 Κίνητρο ανάπτυξης  Η δομή του Διαδικτυακού τόπου και τα περιεχόμενα των ιστοσελίδων επιβάλλουν:  Την τάξη των εξαρτήσεων (πρώτη ή υψηλότερες) μεταξύ των αντικειμένων  Την “παρεμβολή” αντικειμένων που ανήκουν σε πρότυπα μαζί με τυχαίες επισκέψεις (θόρυβος)  Τα πρότυπα που αναζητούμε θα πρέπει να σέβονται αυτούς τους παράγοντες Prefetching στον ενσύρματο ΠΙ

43 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 43 Η πολιτική WM o  Βασίζεται στο παράδειγμα της εξόρυξης κανόνων συσχέτισης, δηλ., μέθοδο Apriori  Διαφορετικό τρόπο δημιουργίας των υποψηφίων: λαμβάνει υπόψη τη διάταξή τους Prefetching στον ενσύρματο ΠΙ Τάξη ΕξαρτήσεωνΘόρυβος DGΟΧΙΝΑΙ PPMΝΑΙΟΧΙ WM o ΝΑΙ

44 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 44 Μέτρο επίδοσης των πολιτικών  Ακρίβεια: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς το συνολικό αριθμό των εγγράφων που μεταφέρθηκαν στην cache εξαιτίας της λειτουργίας του prefetching  Χρησιμότητα: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη, αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς τον συνολικό αριθμό των εγγράφων που ζητήθηκαν  Δικτυακή κίνηση: ισούται με το κλάσμα του συνολικού αριθμού των εγγράφων που φτάνουν στην cache των πελατών (non prefeteched + prefeteched έγγραφα), προς τον αριθμό των non prefeteched εγγράφων. Caching στον ασύρματο ΠΙ

45 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 45 Αξιολόγηση επίδοσης  Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων μοντελοποιώντας: συνδεσμολογία, μεγέθη αντικειμένων  Εξετάσαμε τους παράγοντες  Θόρυβο  Τάξη εξαρτήσεων  cache  Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων  Εξετάσαμε: DG, PPM Caching στον ασύρματο ΠΙ

46 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 46 Ακρίβεια σε σχέση με το θόρυβο Prefetching στον ενσύρματο ΠΙ

47 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 47 Χρησιμότητα σε σχέση με το θόρυβο Prefetching στον ενσύρματο ΠΙ

48 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 48 Ακρίβεια σε σχέση με τις εξαρτήσεις Prefetching στον ενσύρματο ΠΙ

49 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 49 Χρησιμότητα σε σχέση με τις εξαρτήσεις Prefetching στον ενσύρματο ΠΙ

50 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 50 ΜΕΡΟΣ 6ο : Εκπομπή στον ασύρματο ΠΙ  Κίνητρο  Περιγραφή προβλήματος  Σχετικές εργασίες  Αλγόριθμος CascadedWebcasting  Πειραματική αποτίμηση των μεθόδων  Συμπεράσματα

51 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 51 Δίσκοι Εκπομπής (Broadcast Disks) Εκπομπή στον ασύρματο ΠΙ Βάση Δεδομένων Τμήματα Πρόγραμμα Εκπομπής Δίσκοι 1 Δ1Δ1 23 Δ2Δ Δ3Δ3 1 Τ 11 2 Τ 21 3 Τ Τ 31 Τ 32 Τ 33 Τ

52 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 52 Δημιουργία προγράμματος  Το ουσιαστικό ζήτημα στους Δίσκους Εκπομπής: Δεδομένου του αριθμού τους, να γίνει διαμέριση των δεδομένων στους δίσκους ανάλογα με τις συχνότητες προσπέλασής τους (είναι διαθέσιμες διάφορες στατιστικές μέθοδοι εκτίμησής τους)  Το πρόβλημα είναι ισοδύναμο με την κατανομή δεδομένων σε πολλαπλά ομοιογενή ασύρματα κανάλια εκπομπής Εκπομπή στον ασύρματο ΠΙ

53 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 53 Σχετικές εργασίες για εκπομπή δεδομένων  Bucketing: Μια σάρωση του διανύσματος των πιθανοτήτων προσπέλασης  Growing Segments: Σταδιακή αύξηση “μοναδιαίων” δίσκων. Πολλαπλές σαρώσεις  VF K : διαίρεση του δίσκου με το μεγαλύτερο κόστος. Πολλαπλές σαρώσεις  Greedy: διαίρεση του δίσκου που επιφέρει τη μεγαλύτερη ελάττωση στο κόστος. Πολλαπλές σαρώσεις  Data Based: Γενίκευση του VF K. Πολλαπλές σαρώσεις Εκπομπή στον ασύρματο ΠΙ

54 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 54 Κίνητρο ανάπτυξης νέας πολιτικής εκπομπής  Υπολογιστικά χρονοβόρες  Εστιάζουν στη βελτίωση κατά πολύ λίγες ποσοστιαίες μονάδες του μέσου χρόνου προσπέλασης του πελάτη  Δεν είναι κατάλληλες για μεγάλο όγκο δεδομένων, π.χ., Cache Satellite Distribution Systems, χιλιάδες αντικείμενα εκπέμπονται από δορυφόρο σε επίγειες caches Εκπομπή στον ασύρματο ΠΙ

55 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 55 Βασική διαίσθηση για την CascadedWebcasting Διαίσθηση  Ενας πρακτικά σταθερός αριθμός δεδομένων με μεγάλη πιθανότητα προσπέλασης  Δεδομένα που ανήκουν σε λίγες μεγάλες ομάδες  Δεδομένα που συνεισφέρουν ελάχιστα στο μέσο χρόνο προσπέλασης Εκπομπή στον ασύρματο ΠΙ

56 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 56 Ο αλγόριθμος CascadedWebcasting (Casc)  Ταξινόμηση του διανύσματος των πιθανοτήτων προσπέλασης (κοινό βήμα όλων των μεθόδων)  Διαμέρισή του σε τμήματα μεγέθους ίσου με τις δυνάμεις του 2, δηλ., 1, 2, 4, 8, 16,...  Επαναληπτική συνένωση εκείνων των δυο διαδοχικών τμημάτων που επιφέρουν τη μεγαλύτερη ελάττωση στο μέσο χρόνο προσπέλασης Εκπομπή στον ασύρματο ΠΙ

57 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 57 Επίδοση της CascadedWebcasting  Χρησιμοποιήσαμε δεδομένα αιτήσεων  συνθετικά  πραγματικά  Αξιολογήσαμε τις μεθόδους Bucketing, Growing Segments, VF K, Greedy, Data Based, δηλ., όλες τις ανταγωνιστικές  Μέτρα επίδοσης:  Μέση καθυστέρηση προσπέλασης  Χρόνος εκτέλεσης της κάθε μεθόδου  Εξετάσαμε την επίδοση ως προς τον:  Αριθμό δίσκων  Μέγεθος της βάσης  Κύρτωση Zipf Εκπομπή στον ασύρματο ΠΙ

58 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 58 Επίδραση του αριθμού των Δίσκων Εκπομπής Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης Εκπομπή στον ασύρματο ΠΙ

59 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 59 Επίδραση του μεγέθους της βάσης Εκπομπή στον ασύρματο ΠΙ Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης

60 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 60 ΜΕΡΟΣ 7ο : Συμπεράσματα της διατριβής Ιδιαιτερότητες Παγκοσμίου Ιστού  Caching: recency+frequency, μεγάλο βάθος ιεραρχίας, one-timers  Caching κινητούς πελάτες: αδύνατη η πρόβλεψη  Τεράστια ανομοιογένεια: εξόρυξη για εύρεση κοινών δομών  Prefetching: υπερκείμενο, “θόρυβος”  Εκπομπή: τεράστιος όγκος αντικειμένων

61 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 61 ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (1)  Σημασιολογικός Παγκόσμιος Ιστός (Semantic Web)  XML  Caching τμημάτων XML  Σημασιολογικά Ευρετήρια (Semantic Indexes)  Σημασιολογικές μηχανές αναζήτησης  Υπηρεσίες Παγκοσμίου Ιστού (Web services)  Caching αποτελεσμάτων  Caches ως Web services

62 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 62 ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (2)  Διάχυτα Υπολογιστικά Περιβάλλοντα (Pervasive Computing Environments)  Έξυπνες caches  Media transcoding  XML “transcoding”  Caching σε κινητά ad-hoc δίκτυα  Συνεργατικό caching  Caching διαδρομής προς αντικείμενα

63 Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 63 Ευχαριστώ για την προσοχή σας


Κατέβασμα ppt "Μάιος 18, 2004 Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1 Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google