Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες1 Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες1 Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland."— Μεταγράφημα παρουσίασης:

1 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες1 Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland

2 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες2 Διάγραμμα  Εισαγωγή –Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) –Εφαρμογές προσέγγισης τέτοιων δεδομένων –Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση  Σχετική Έρευνα –Wavelets (εκτενή περιγραφή)  Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα)  Προσέγγιση χρονοσειρών  Συμπεράσματα

3 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες3 Δεδομένα με Πολλαπλές Μετρήσιμες Ποσότητες  Συνήθως τα δεδομένα αποτελούνται από: –Διαστάσεις (dimensions) Περιγράφουν τις συλλεγόμενες ποσότητες –Μετρήσιμες ποσότητες (measures) Αριθμητικές τιμές  Δεδομένα Πωλήσεων Προϊόντων –Διαστάσεις: Προϊόν, Πελάτης, Ώρα Πώλησης –Μετρήσιμες ποσότητες: Τιμή αγοράς/πώλησης, κόστη μεταφοράς/αποθήκευσης...  Συλλογή Δικτυακών Μετρήσεων –Διάσταση: Χρόνος Συλλογής –Μετρήσιμες ποσότητες: Εισερχόμενα/εξερχόμενα πακέτα/bits, επιχειρούμενες συνδέσεις...

4 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες4 Ανάγκη Προσέγγισης Δεδομένων  Μέγεθος δεδομένων μπορεί να είναι σε GB/TB –Αργή απόκριση σε ερωτήσεις  Δεν χρειάζεται πάντα 100% ακρίβεια –Εξερευνητικές ερωτήσεις σε συστήματα εξόρυξης δεδομένων –Ερωτήσεις ομαδοποίησης (aggregate queries) σε συστήματα υποστήριξης αποφάσεων (DSS)  Προσέγγιση για λόγους συμπίεσης (εικόνες) –Συμπίεση χρήσιμη και στη μεταφορά δεδομένων (δίκτυα αισθητήρων)

5 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες5 Προσέγγισης Δεδομένων  Λύση: κατασκευή Συνόψεων Δεδομένων –Μέγεθος σύνοψης << μέγεθος δεδομένων –Γρήγορη απόκριση σε ερωτήσεις  Τύποι Συνόψεων –Ιστογράμματα, Wavelets, Δειγματοληψία, Σχέδια (sketches) SQL Ερώτηση Ακριβής Απάντηση Συστήμα Υποστήριξης Αποφάσεων GB/TB Σύνοψη Δεδομένων “Μετασχηματισμένη” Ερώτηση KB/MB Προσεγγιστική Απάντηση

6 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες6 Τι συμβαίνει στο πρόβλημα μας?  Δεδομένα είναι πλειάδες (tuples) με D+M πεδία –D διαστάσεις –M μετρήσιμες ποσότητες  Μόνη εύκολα επεκτάσιμη μέθοδος: Δειγματοληψία  Άλλες τεχνικές περισσότερο αυτόνομες –Κατανομή συνολικού χώρου σύνοψης –Κάθε μετρήσιμη ποσότητα προσεγγίζεται ξεχωριστά Διαφορετικοί κουβάδες (buckets) για τα ιστογράμματα Διαφορετικοί συντελεστές (coefficients) για τα wavelets  Λιγότερος χώρος για κάθε μετρήσιμη ποσότητα –Για T πλειάδες, και α% χώρο για σύνοψη wavelet συντελεστές για κάθε μετρήσιμη ποσότητα

7 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες7 Μπορούμε να κάνουμε κάτι καλύτερο?  Έξυπνη κατανομή χώρου –Διαφορετική δυσκολία προσέγγισης κάθε μετρήσιμης ποσότητας  Εκμετάλλευση συσχετίσεων (correlation) μεταξύ ποσοτήτων –Ολικών ή σε ορισμένες περιοχές των δεδομένων  Εκμετάλλευση εξαρτήσεων στην αποθήκευση των συνόψεων –Πχ, κοινές συντεταγμένες συντελεστών στα wavelets

8 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες8 Διάγραμμα  Εισαγωγή –Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) –Εφαρμογές προσέγγισης τέτοιων δεδομένων –Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση  Σχετική Έρευνα –Wavelets κατασκευή –Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος  Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα)  Προσέγγιση χρονοσειρών  Συμπεράσματα

9 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες9 Wavelets  Ιεραρχική ανάλυση συναρτήσεων/σημάτων  Εφαρμογές σε: –Επεξεργασία Εικόνων και Σημάτων (WALRUS: [NRS99]) –Εκτίμηση Επιλεκτικότητας (selectivity estimation) [MVW98] –Ερωτήσεις Άθροισης Περιοχών (Range-Sum) σε κύβους δεδομένων [VWI98, VW99] –Προσεγγιστική Επεξεργασία Ερωτήσεων [CGRS00]

10 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες10 Wavelets (συν.)  Διεργασία 2 βημάτων –Ανάλυση δεδομένων και παραγωγή wavelet συντελεστών –Επιλογή συντελεστών για αποθήκευση  Συντελεστές σώζονται ως πλειάδες με D+1 πεδία –D συντεταγμένες (1 για κάθε διάσταση) –“Κανονικοποιημένη” τιμή συντελεστή  Συνήθης στόχος: Ελαχιστοποίηση μέσου τετραγωνικού σφάλματος  Πιθανοτικές Wavelet Συνόψεις με Εγγυήσεις Σφάλματος [GG02]

11 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες11 Α. Ανάλυση με Haar Wavelets  Wavelets:  Wavelets: Ιεραρχική ανάλυση συναρτήσεων  Haar wavelets:  Haar wavelets: απλούστερη βάση των wavelets –Αναδρομικός υπολογισμός μέσου όρου και μέσης διαφοράς μεταξύ ζευγών από τιμές Ανάλυση Μέσοι Όροι Συντελεστές [2, 8, 3, 3] [5, ][-3, ] [4] [1] [5, 3][-3, 0] Συντεταγμένη Τιμή

12 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες12 Haar Wavelet Συντελεστές  Απεικόνιση στο Δέντρο Σφάλματος (Error Tree)  Συντελεστές συντελούν στην εκτίμηση 2 level δεδομένων  Ερωτήσεις Σημείων (point queries): –Συντελεστές σε μονοπάτι προς δεδομένο  Ερωτήσεις Εύρους (range queries): –Συντελεστές σε μονοπάτι προς κάτω και άνω όρια του εύρους Ανάλυση Μέσοι Όροι Συντελεστές [2, 8, 3, 3] [4] [1] [5, 3] [-3, 0] Data = – (-3) = 3*4 +1*(2-1) 0-3

13 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες13 Ψευδοκώδικας Ανάλυσης // Οι δείκτες start, end ορίζουν περιοχή με μέγεθος δύναμη του 2 Decompose(A, start, end) { // επιστρέφει το μέσο όρο της περιοχής if (end-start > 1) { // Αναδρομή σε 2 υποπεριοχές Avg1 = Decompose(A, start, (start+end)/2) Avg2 = Decompose(A, (start+end)/2 + 1, end) } else { Avg1 = A[start]; Αvg2 = A[end]; } πρόσθεσε το συντελεστή με τιμή: (Avg1 – Avg2) / 2; return (Avg1 + Avg2) / 2 }

14 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες14 Πολλαπλές Διαστάσεις  Ανάλυση επεκτείνεται εύκολα σε πολλαπλές διαστάσεις  Σύνολο τιμών είναι το N D (αντί για Ν σε 1-D) –N: μέγιστο πεδίο τιμών σε οποιαδήποτε διάσταση  Επεξεργασία περιοχών μεγέθους δύναμης του 2 D (αντί για 2) –Αναδρομή σε 2 D υποπεριοχές  Οι 2 D τιμές/μέσοι όροι περιοχών παράγουν: –1 μέσο όρο της περιοχής –2 D -1 συντελεστές (αντί για 2-1 = 1)  Πολλές υποπεριοχές είναι κενές (αραιά δεδομένα) –Δεν χρειάζεται αναδρομή σε αυτές  Δεδομένα χρειάζονται ταξινόμηση με βάση σειρά “επεξεργασίας” των δεδομένων

15 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες15 Δέντρο Σφάλματος  Κάθε κόμβος έχει 2 D παιδιά  Κάθε κόμβος περιέχει μέχρι 2 D -1 συντελεστές

16 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες16 Β. Επιλογή Συντελεστών για Αποθήκευση  Επιλογή εξαρτάται από σφάλμα για ελαχιστοποίηση  Ελαχιστοποίηση συνολικού τετραγωνικού (L2) σφάλματος –Κανονικοποίηση –Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών –Αποδεδειγμένα βέλτιστη λύση

17 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες17 Ελαχιστοποίηση Μέγιστου Σχετικού Σφάλματος  L2 σφάλμα ακατάλληλο για συστήματα αποφάσεων –Πόσο ακριβής είναι η απάντηση που παίρνω?  Ελαχιστοποίηση μέγιστου σχετικού σφάλματος: – d i : πραγματική τιμή δεδομένου i d i : εκτιμούμενη τιμή δεδομένου i s: λογικό όριο  Καμία γνωστή αποδοτική λύση ^

18 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες18 Πιθανοτικές Συνόψεις [GG02]  Προσπάθεια αντιμετώπισης του προβλήματος  Πιθανότητα 0  y i  1 επιλογής κάθε μη-μηδενικού συντελεστή c i  Συντελεστής γίνεται τυχαία μεταβλητή:  E[C i ] = y i  c i /y i + (1-y i )  0 = c i (αμερόληπτος εκτιμητής)  Var(i,y i ) = Var[C i ] = c i 2 (1-y i )/y i 

19 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες19 Πιθανοτικές Συνόψεις (συν.)  Κάθε δεδομένο είναι γραμμικός συνδυασμός συντελεστών  Αναμενόμενη τιμή = πραγματική  Στόχος: Δεδομένου ενός ορίου αποθήκευσης Β, βρες τα y i, ώστε να ελαχιστοποιείται το: Data = – (-3) 4

20 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες20 Πιθανοτικές Συνόψεις (συν.)  Στη βέλτιστη λύση: –max NSE μέσω δεξιού και αριστερού υποδέντρου είναι ίσα –Σε κάθε υποδέντρο, το max NSE συμβαίνει για τη μικρότερη τιμή  Λύση δυναμικού προγραμματισμού –Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου y i : στον τρέχον κόμβο b L : στο αριστερό υπόδεντρο Β-b L -y i : στο δεξί υπόδεντρο  Αναθέσεις χώρου πολ/σια 1/q (q  10) Data

21 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες21 Πιθανοτικές Συνόψεις (συν.)  Πολυπλοκότητες (1-D) για μέγεθος πεδίου τιμών N, χώρο B: –O(NqB) χώρο –Ο(Nq 2 Blog(qB)) χρόνο –O(qBlogN) ελάχιστη μνήμη  Πολυπλοκότητες (πολυδιάστατα δεδομένα) για N z κόμβους του δέντρου σφάλματος με μη μηδενικούς συντελεστές, χώρο B: –O(2 D N z qB) χώρο –Ο(2 D N z qB(qlog(qB)+D2 D )) χρόνο –O(2 D qBlogN) ελάχιστη μνήμη  Για B=Θ(Ν), πολυπλόκοτητες τουλάχιστον τετραγωνικές στο Ν

22 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες22 Διάγραμμα  Εισαγωγή  Σχετική Έρευνα  Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) –Δεδομένα με πολλαπλές μετρήσιμες ποσότητες Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος Βέλτιστοι και greedy αλγόριθμοι  Προσέγγιση χρονοσειρών  Συμπεράσματα

23 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες23 Α. Μέσο τετραγωνικό σφάλμα (1 ποσότητα)  Ελαχιστοποίση συνολικού τετραγωνικού (L2) σφάλματος –Κανονικοποίηση –Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών –Αποδεδειγμένα βέλτιστη λύση –Μέσο τετραγωνικό σφάλμα = άθροισμα τετραγώνου των συντελεστών που δεν επιλέγονται  Συντελεστές σώζονται ως πλειάδες με D+1 πεδία –D συντεταγμένες (1 για κάθε διάσταση) –“Κανονικοποιημένη” τιμή συντελεστή

24 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες24 Α. Μέσο τετραγωνικό σφάλμα (πολλές ποσότητες)  Δύο υπάρχουσες τεχνικές: –Ανεξάρτητη μέθοδος Ξεχωριστή ανάλυση για κάθε ποσότητα –Συνδυασμένη μέθοδος Αντιμετωπίζει τις ποσότητες σαν πίνακες τιμών Κρατάει τους πίνακες με τις B μεγαλύτερες L2 νόρμες

25 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες25 Μειονεκτήματα Υπάρχουσων Τεχνικών  Ακραίες υποθέσεις αποθήκευσης συντελεστών  Για κάθε συνδυασμό συντεταγμάνων –Ανεξάρτητη μέθοδος αποθηκεύει μόνο ΜΙΑ τιμή συντελεστή (μίας ποσότητας) Κάποιες συντεταγμένες συντελεστών μπορεί να αποθηκευθούν πολλές φορές –Συνδυασμένη μέθοδος αποθηκεύει ΟΛΕΣ τις τιμές (για όλες τις ποσότητες) Μπορεί να αποθηκεύσει “μη χρήσιμες” τιμές Μειωμένη Εκμετάλλευση Χώρου από τις 2 μεθόδους

26 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες26 Ο Στόχος μας  Προσαρμοζόμενη μέθοδος αποθήκευσης –Χωρίς προβλήματα Ανεξάρτητης/Συνδυασμένης μεθόδων –Βελτίωση εκμετάλλευσης χώρου –Δίκαιη κατανομή χώρου στις ποσότητες  Ιδέα: –Αποθήκευσε 1 ως M τιμές συντελεστών –Ένα bitmap μπορεί να δείξει Πόσες τιμές συντελεστών έχουν αποθηκευτεί Ποιες τιμές συντελεστών έχουν αποθηκευτεί Τιμές ΣυντελεστώνBitmapΣυντεταγμένες

27 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες27 Επεκταμένοι Wavelet Συντελεστές  Ο Επεκταμένος Wavelet Συντελεστής είναι μία τριάδα –Συντεταγμένες συντελεστή C –Bitmap β –Αποθηκευμένες τιμές συντελεστή V  Ποιές τιμές συντελεστών να αποθηκεύσουμε δεδομένου ενός ορίου αποθήκευσης B ?

28 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες28 Ορισμός Προβλήματος  Για ένα D-διάστατο σύνολο δεδομένων με M ποσότητες –Δεδομένου: Σύνολο βαρών για κάθε ποσότητα Σύνολο N αρχικούς Συνδυασμένους συντελεστές Όριο αποθήκευσης B –Ελαχιστοποίησε το σταθμισμένο άθροισμα των τετραγωνικών σφαλμάτων για όλες τις ποσότητες  Οι αλγόριθμοί μας εφαρμόζονται στο τελικό στάδιο επιλογής συντελεστών  Καμία δέσμευση στον αλγόριθμο ανάλυσης

29 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες29 Παρατηρήσεις για Λύση  Πρόβλημα παρόμοιο με το Knapsack Πρόβλημα –Όριο αποθήκευσης B –Κάθε τιμή συντελεστή έχει: Σταθμισμένο όφελος = σταθμισμένο τετράγωνο τιμής Απαιτούμενο χώρο  Πρόβλημα: Μεταβλητός χώρος για τιμές συντελεστή: –Για κάθε συντελεστή, η πρώτη αποθηκευμένη τιμή συντελεστή χρειάζεται και χώρο για την “κεφαλή” του επεκταμένου συντελεστή (bitmap + συντεταγμένες) –Δεν συμβαίνει το ίδιο για τις υπόλοιπες τιμές του συντελεστή αυτού Τιμές ΣυντελεστώνBitmapΣυντεταγμένες Τιμές ΣυντελεστώνBitmapΣυντεταγμένες

30 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες30 Προτεινόμενες Λύσεις  Αλγόριθμος Δυναμικού Προγραμματισμού –Χώρος: O(NMB), φραγμένο από O(N 2 M(D+M)) –Χρόνος: O(NMB), φραγμένο από O(N 2 M(D+M))  Greedy Αλγόριθμος (GreedyL2) –Επιλογή set τιμών για αποθήκευση με μέγιστο όφελος/χώρο –Χώρος: O(N(D+M)) : όμοια με μέγεθος εισόδου (input) –Χρόνος: O((N+Β)Mlog(NM)), φραγμένο από O(NM 2 log(NM))  Αποδεδειγμένο κλάσμα προσέγγισης 2 –Στα πειράματα, το κλάσμα των οφελών ήταν μεγαλύτερο του 99.99%

31 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες31 Μέσο Σταθμισμένο Τετραγωνικό Σφάλμα vs. Μέγεθος Σύνοψης  Σφάλματα μέχρι 29% κοντινότερου αντιπάλου  2-διάστατα συνθετικα δεδομένα.  6 Zipfian κατανομές –Διαφορετικά κέντρα, μορφές  Πυκνές περιοχές  5-10% δεδομένων σε αραιές περιοχές  Τυχαίες ερωτήσεις εύρους, έμφαση σε πυκνές περιοχές

32 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες32 Μέσα Σταθμισμένα Σφάλματα vs. Μέγεθος  Σφάλματα μέχρι 65% και 69% κοντινότερου αντιπάλου

33 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες33 Ευαισθησία στην Απόκλιση (Skew)  Οφέλη αυξάνουν για μέτρια προς μεγάλες αποκλίσεις δεδομένων –Μέχρι 3 φορές μικρότερα λάθη από τον κοντινότερο ανταγωνιστή

34 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες34 B. Μέγιστο Σχετικό Σφάλμα (1 ποσότητα)  Πιθανότητα y i επιλογής συντελεστή c i  Eλαχιστοποίηση του:  Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου –y i : στον τρέχον κόμβο –b L : στο αριστερό υπόδεντρο –Β-b L -y i : στο δεξί υπόδεντρο  Συνδυασμός λύσης με λύσεις υποδέντρων Data

35 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες35 Μέγιστο Σχετικό Σφάλμα (πολλές ποσότητες)  Στόχοι: –Ελαχιστοποίση μέγιστου σχετικού σφάλματος σε όλες τις ποσότητες –Χρήση επεκταμένων συντελεστών για καλύτερη ακρίβεια –Αλγόριθμοι πρακτικοί Χώρος Χρόνος  Greedy αλγόριθμός μας πολύ πιο αποδοτικός και για 1-Μ περίπτωση

36 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες36 Χρήση Επεκταμένων Συντελεστών  Περίπλοκη εξάρτηση χώρου  Βέλτιστη λύση:  ανάθεση χώρου B i < B σε κάθε υποδέντρο: –Κράτα σύνολο μη συγκρίσιμων διανυσμάτων R[i,B i ] –Η j συντεταγμένη είναι max NSE στο υποδέντρο του κόμβου i για την ποσότητα j, όταν αναθέτουμε χώρο B i –Αποτυγχάνει η αρχή της βελτιστοποίησης αλγορίθμων Δ.Π. Δεν μπορείς να κρατήσεις το διάνυσμα του R[i,B i ] με την ελάχιστη max τιμή

37 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες37 Βέλτιστος Αλγόριθμος  Αλγόριθμος βασίζεται σε “μερική ταξινόμηση” λύσεων –Απορίπτει μερικές λύσεις που δεν μπορεί να συμβάλουν στη βέλτιστη ολική λύση  Πολυπλοκότητα χώρου/χρόνου απαγορευτική

38 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες38 Greedy Αλγόριθμος: Σκέψεις  Αρχικοποίησε ολές τις πιθανότητες επιλογής (ΠΕ) σε 0  Σε κάθε βήμα αύξησε ΠΕ ορισμένων τιμών συντελεστών –Έχει νόημα να αυξήσουμε ΠΕ από ποσότητα που δεν έχει το max{max NSE} ? –1 ή πολλές ΠΕ μαζί? –Πώς διαλέγουμε ποιές τιμές να επιλέξουμε στο βήμα αυτό?  Σκοπός: Σε κάθε βήμα αύξησε την πιθανότητα επιλογής ενός SET τιμών συντελεστών –Συντελεστές από ποσότητα με max {max NSE} –Μεγιστοποίησε μείωση του max NSE / χώρος(SET)

39 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες39 Greedy Αλγόριθμος:  3 στάδια αλγορίθμου : –Κάθε κόμβος (για κάθε ποσότητα) εκτιμάει το max NSE δεδομένων κάτω από αυτόν –Κάθε κόμβος (για κάθε ποσότητα) υπολογίζει το SET τιμών στο υποδέντρο του με τη μέγιστη μείωση του max NSE/χώρος(SET) –Αύξηση πιθανότητας επιλογής των τιμών στο SET της ποσότητας με το max {max NSE}

40 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες40 Στάδιο 1: Εκτίμηση max NSE στο υπόδεντρο  Υπολογισμός σαν να είμασταν στη βέλτιστη λύση στην τρέχουσα ανάθεση πιθανοτήτων επιλογής  Υπολογισμός από κάτω προς τα πάνω 2i i 2i+1 G = [15,20]G = [18,19] Var(i,y i ) = [0,2] Σωστό μόνο στη βέλτιστη λύση

41 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες41 Στάδιο 2: Υπολογισμός Υποψηφίων SET  Επιλογή Set(i,j):  c ij  c ij  Set(k,j), k is index of subtree that determines P[i,j]  Set(2i,j)  Set(2i+1,j)  Χώρος για αύξηση πιθανότητας επιλογής δy ij :  Επιλογή λύσης με καλύτερο λόγο μείωσης P[i,j]/χώρου

42 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες42 Στάδιο 3: Αύξηση Πιθανοτήτων Επιλογής  Διάσχιση από πάνω προς τα κάτω  Αν επιλογή Set(i,j):  c ij, αύξησε πιθανότητα επιλογής του συντελεστή  c ij  Set(k,j), αύξησε πιθανότητα επιλογής του συντελεστή και προχώρησε στο σωστό υποδέντρο  Set(2i,j)  Set(2i+1,j), προχώρησε στα 2 υποδέντρα  Πολυπλοκότητες χαμηλές:  Χώρος: Ο(Ν z Μ)  Χρόνος: O((Ν z Μ + BMqlogN)D2 D )

43 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες43 Χρόνος Εκτέλεσης

44 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες44 Μέγιστο Σφάλμα

45 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες45 Διάγραμμα  Εισαγωγή  Σχετική Έρευνα  Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα)  Προσέγγιση χρονοσειρών –Γραμμικές Συσχετίσεις –Προσέγγιση μέσω λεξικού –Κατασκευή λεξικού  Συμπεράσματα

46 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες46 Ορισμός Προβλήματος  Εμπνευσμένο από δίκτυα αισθητήρων –Κόμβοι παρατηρούν πολλαπλές ποσότητες –Απλή εφαρμογή σε προσέγγιση πολλαπλών χρονοσειρών  Χρειάζεται να εκπέμψω NxM τιμές δεδομένων –N παρατηρούμενες ποσότητες με M τιμές η κάθε μία  Θέλω να καταναλώσω bandwidth (=συνολικές λέξεις που εκπέμπω) B << NxM Εδώ χρειάζεται η προσέγγιση  Ελαχιστοποίση ορισμένου μέτρου σφάλματος της συμπιεσμένης μορφής

47 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες47 Λογική της Λύσης μας  Πολλές συλλεγμένες τιμές μπορεί να είναι συσχετισμένες –Συσχετίσεις μεταξύ διαφορετικών ποσοτήτων Πχ: πίεση και υγρασία –Συσχετίσεις μεταξύ τιμών της ίδιας ποσότητας Πχ: περιοδικότητα, παρόμοιες τάσεις  Πώς να εκμεταλλευτούμε τις συσχετίσεις?

48 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες48 Παράδειγμα Συσχετισμένων Δεδομένων

49 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες49 Κύρια Ιδέα  Δημιούργησε ένα λεξικό με χαρακτηριστικά των δεδομένων (κύριο σήμα)  Χώρισε δεδομένα σε διαστήματα –Μεταβλητός αριθμός/μήκος διαστημάτων ανά ποσότητα –Κωδικοποίησε κάθε διάστημα μέσω του λεξικού –Χρησιμοποίησε γραμμική παλινδρόμηση για την κωδικοποίηση

50 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες50 Σκίτσο της Τεχνικής μας Total Size = B

51 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες51 Αποφάσεις Αλγορίθμου 1.Χώρος για κύριο σήμα (λεξικό) –Περισσότερος χώρος για το κύριο σήμα σημαίνει λιγότερος χώρος για την προσέγγιση! 2.Δημιούργησε/Ενημέρωσε το κύριο σήμα –Βρες χαρακτηριστικά τμήματα, αναγνώρισε μεταβολές 3.Συμπίεσε δεδομένα μέσω του κύριου σήματος –Σπάσε δεδομένα σε διαστήματα μεταβλητού μεγέθους –Κωδικοποίησε κάθε διάστημα μέσω του κύριου σήματος (εκμετάλλευση γραμμικών συσχετίσεων)

52 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες52 Κωδικοποιώντας κάθε Σήμα Δεδομένων  Κύριο Σήμα αποτελείται από διαστήματα μεγέθους W  Ολίσθησε διάστημα δεδομένων στο κύριο σήμα –Κωδικοποίησε στη θέση με το μικρότερο λάθος W W W W W W W W W W Base Signal Data Interval

53 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες53 Προσεγγίζοντας τα Σήματα  Δημιούργησε 1 διάστημα για κάθε ένα από τα N σήματα –Προσεγγισμένα διαστήματα χρειάζονται 4 τιμές  Όσο υπάρχει ακόμα χώρος –Διάσπασε το διάστημα με το μεγαλύτερο σφάλμα σε 2 κομμάτια –Κωδικοποίησε κάθε κομμάτι με τον προηγούμενο αλγόριθμο  Αλγόριθμος δίνει περισσότερο χώρο σε σήματα που είναι δυσκολότερο να προσεγγιστούνε

54 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες54 Κατασκευάζοντας το Κύριο Σήμα  Υποψήφια Διαστήματα Βάσης (ΥΔΒ)  Προσέγγισε κάθε ΥΔΒ με όλα τα άλλα –Όφελος προσέγγισης είναι μείωση λάθους σε σύγκριση με απλή γραμμική παλινδρόμηση  Διάλεξε ΥΔΒ με μεγαλύτερο όφελος –Προσάρμοσε οφέλη των άλλων ΥΔΒ & επανέλαβε  Μην εισάγεις όλα τα ΥΔΒ! –Δυαδική έρευνα για πόσα ΥΔΒ θα βάλουμε  Αντικατέστησε διαστήματα Κύριου Σήματος με LFU

55 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες55 Αποφασίζοντας το μέγεθος του κυρίου σήματος

56 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες56 Κάποια Αποτελέσματα (SSE σφάλμα) ΣυμπίεσηWeatherPhoneStockMixed 5% % % % % % Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

57 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες57 Κάποια αποτελέσματα (SSRE σφάλμα) ΣυμπίεσηPhoneMixed 5% % % % %5.211,034 30% Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

58 Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες58 Συμπεράσματα  Δεδομένα με πολλαπλές ποσότητες δίνουν ευκαιρίες για καλύτερη προσέγγιση –Συσχετίσεις –Δίκαιη κατανομή χώρου –Εξαρτήσεις στην αποθήκευση  Εκμετάλλευση παραπάνω χαρακτηριστικών –Μπορεί να γίνει αποδοτικά –Πολύ πιο ακριβείς συνόψεις από προηγούμενες τεχνικές


Κατέβασμα ppt "Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες1 Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google