Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Δρ. Παναγιώτης Συμεωνίδης – Φυσικό Επίπεδο Αποθηκών Δεδομένων 1 Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Δρ. Παναγιώτης Συμεωνίδης – Φυσικό Επίπεδο Αποθηκών Δεδομένων 1 Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής."— Μεταγράφημα παρουσίασης:

1 Δρ. Παναγιώτης Συμεωνίδης – Φυσικό Επίπεδο Αποθηκών Δεδομένων 1 Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης ΦΥΣΙΚΟ ΕΠΙΠΕΔΟ ΑΠΟΘΗΚΩΝ ΔΕΔΟΜΕΝΩΝ: ΜΕΡΟΣ Α’

2 2 3 διαφορετικοί τύποι συστημάτων OLAP:  Συστήματα ROLAP (Relational OLAP)  Συστήματα MOLAP (Multidimensional OLAP)  Συστήματα HOLAP (Hybrid OLAP) Αρχιτεκτονικές υλοποίησης αποθηκών δεδομένων

3 3 1.Χρήση Σχεσιακής Βάσης Δεδομένων για την αποθήκευση και διαχείριση του κύβου. 2.Ένας πίνακας γεγονότων & ξεχωριστοί πίνακες για διαστάσεις. 3.Μη απαραίτητη η δημιουργία κύβου. 4.Πολύ καλή κλιμάκωση (Μεγάλος όγκος δεδομένων) 5.Ενδεχομένως μειωμένη ταχύτητα απόκρισης (slow on line response). Συστήματα ROLAP (Relational OLAP)

4 Παράδειγμα σχεσιακού πίνακα γεγονότος Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 4

5 5 1.Ο πίνακας γεγονότων αποθηκεύεται σε αραιούς πολυδιάστατους πίνακες. 2.Απαιτείται συμπίεση των πινάκων. 3. Άμεση πρόσβαση στα κελιά (μη ύπαρξη κλειδιών). 4. Mεγάλος χρόνος δημιουργίας κύβου (slow off-line part). 5. Πολύ γρήγορη εκτέλεση πράξεων (fast on-line response). Συστήματα MOLAP (Multidimensional OLAP)

6 6 Παράδειγμα πίνακα Συστήματος MOLAP Προϊόντα Υποκαταστήματα Μετρική κύβου : Τεμάχια

7 7 1.Παρουσιάζει μεγαλύτερη ευελιξία. 2.Σε χαμηλό επίπεδο χρησιμοποιεί σχεσιακούς πίνακες. 3.Σε υψηλότερο επίπεδο χρησιμοποιεί απλούς πολυδιάστατους πίνακες. 4.Συνδυασμός γρήγορης εκτέλεσης και κλιμάκωσης. Συστήματα HOLAP (Hybrid OLAP)

8 Κύβος Πωλήσεων Βιβλιοπωλείου Μετρική (measure) Τεμάχια Δεν υπάρχουν Ιεραρχίες στις διαστάσεις

9 Πλέγμα Κυβοειδών Κύβου Πωλήσεων Βιβλιοπωλείου  Αν k διαστάσεις και ΔΕΝ ΥΠΑΡΧΟΥΝ ΙΕΡΑΡΧΙΕΣ, τότε υπάρχουν συνολικά 2 k κυβοειδή.  Στο παράδειγμα του βιβλιοπωλείου έχουμε 3 διαστάσεις. Άρα 2 3 = 8 κυβοειδή.

10 Δημιουργία των κυβοειδών με SQL Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 10  Είναι δυνατόν να δημιουργηθούν τόσα ερωτήματα SQL όσο είναι το πλήθος των υποσυνόλων που μπορούν να σχηματιστούν από τις διαστάσεις του κύβου.  Με k διαστάσεις έχουμε 2 k ερωτήματα SQL.

11 Δημιουργία Κυβοειδών με τον τελεστή CUBE. SELECT Κωδ_Ημερομηνίας, Κωδ_Προϊόντος, Κωδ_Υποκαταστήματος, sum (Τεμάχια) FROM Κύβο Πωλήσεων CUBE BY Κωδ_Ημερομηνίας, Κωδ_Προϊόντος, Κωδ_Υποκαταστήματος Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 11 Για την αποφυγή πολλών παρόμοιων ερωτημάτων SQL καθιερώθηκε ο τελεστής CUBE.

12 Αριθμός Κυβοειδών για διαστάσεις με ιεραρχίες Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 12 Ιεραρχίες Διαστάσεων Βιβλιοπωλείου  Πολλοί πίνακες διαστάσεων έχουν ιεραρχίες: π.χ. όπου L i είναι ο αριθμός των επιπέδων ιεραρχία της διάστασης i.  Για ένα κύβο με n διαστάσεις ο συνολικός αριθμός των κυβοειδών είναι: *Για το βιβλιοπωλείο δημιουργούνται 4*5*6 = 120 κυβοειδή

13 Κύβος Πωλήσεων Βιβλιοπωλείου Σύνολο πωλήσεων χαρτιού στη χώρα Σύνολο πωλήσεων χρονιάς για όλα τα προϊόντα σε όλη τη χώρα

14 Υλοποίηση Κυβοειδών (3 επιλογές) Υλοποίηση όλων των κυβοειδών  Καλύτερος χρόνος απόκρισης.  Μη ρεαλιστική λύση για μεγάλους κύβους λόγω των πολύ υψηλού κόστους χώρου, δημιουργίας κύβου, συντήρησης. Καθόλου υλοποίηση των κυβοειδών  Για κάθε ερώτημα, προσπέλαση στα βασικά (raw) δεδομένα για τον υπολογισμό κάθε κυβοειδούς (cuboid).  Χαμηλός χρόνος απόκρισης  Δίνει μεγάλη σημασία στο σύστημα που βασίζεται (RDBMS σε ROLAP) Υλοποίηση μέρους του κυβοειδών  Οι τιμές πολλών κελιών είναι υπολογίσιμες από άλλα κελιά του κύβου (dependent cells).  Ο αριθμός των υλοποιημένων κελιών εξαρτάται από τους περιορισμούς χώρου. Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 14

15 Γιατί επιλέγουμε την υλοποίηση μέρους των κυβοειδών? Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 15 Χωρικό Χρονικό Αριθμός Υλοποιημένων κυβοειδών Το Χωρικό Κόστος αντανακλά το κόστος κατασκευής του κύβου και ενημέρωσης του. (offline part) Το Χρονικό Κόστος αντανακλά την ταχύτητα εκτέλεσης ερωτημάτων στο κύβο. (online part)

16 Σχεδιαστικά Ερωτήματα για την υλοποίηση κυβοειδών  Πόσα κυβοειδή πρέπει να υλοποιηθούν προκειμένου να έχουμε ανεκτή χρονική απόκριση στην υποβολή ερωτημάτων στον κύβο;  Δεδομένου του χώρου που διαθέτουμε για την κατασκευή ενός κύβου, ποια κυβοειδή πρέπει να υλοποιηθούν ώστε να ελαχιστοποιηθεί το μέσο χρονικό κόστος ερωτημάτων;  Αν δεχτούμε ένα ποσοστό X% υποβάθμισης του μέσου χρονικού κόστους ερωτημάτων, πόσο χώρο μπορούμε να γλιτώσουμε;  Σύγκριση με την περίπτωση ολικής υλοποίησης Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 16

17 Επιλογή κυβοειδών προς υλοποίηση Στόχος Επιλογή κατάλληλων κυβοειδών βάσει (1) κάποιου κριτηρίου, (2) ενός περιορισμού βάσει του μέγιστου διαθέσιμου μεγέθους αποθηκευτικού χώρου. Για λόγους απλούστευσης ως περιορισμό χώρου ορίζουμε το μέγιστο πλήθος κυβοειδών που μπορούν να υλοποιηθούν σε δεδομένο αποθηκευτικό χώρο. Δρ. Παναγιώτης Συμεωνίδης – Προηγμένη Εξόρυξη Δεδομένων 17

18 18 Motivating Example Parts (p) are bought from suppliers (s) and then sold to customers (c) at a sale price (sales in $). Schema: part, supplier, customer i.e., p, s, c CREATE VIEW as psc { SELECT p, s, c, sum(sales) FROM Cube_sales GROUP BY p, s, c

19 19 Parts are bought from suppliers and then sold to customers at a sale price SP partsuppliercustomerSP p1s1c14$4$ p3s1c23$3$ p2s3c17$7$ ………… Table T

20 20 Parts are bought from suppliers and then sold to customers at a sale price SP partsuppliercustomerSP p1s1c14$4$ p3s1c23$3$ p2s3c17$7$ ………… Table T part p1p2p3p4p5 supplier s1 s2 s3 s4 customer c1 c2 c3 c4 4$4$ 3$3$ Data cube

21 21 Parts are bought from suppliers and then sold to customers at a sale price SP e.g., select part, customer, SUM(SP) from table T group by part, customer partcustomerSUM(SP) p1c14 p3c23 p2c17 e.g., select customer, SUM(SP) from table T group by customer customerSUM(SP) c111 c23 Group by part customer (pc) has 3 rows More storage requirements Group by customer (c) has 2 rows Less storage requirements partsuppliercustomerSP p1s1c14 p3s1c23 p2s3c17 ………… Table T

22 22 psc 6MB pc 4MBps 0.8MBsc 2MB p 0.2MBs 0.01MB c 0.1MB Suppose we materialize all views. (total space cost 13.11Mb + total time cost 0 MB =13.11 MB).

23 23 psc 6MB pc 4MBps 0.8MBsc 2MB p 0.2MBs 0.01MB c 0.1MB Cost for accessing pc = 6MB (not 4MB) Cost for accessing ps = 6MB (not 0.8MB) Cost for accessing sc = 6MB (not 2MB) Cost for accessing p = 6MB (not 0.2MB) Cost for accessing c = 6MB (not 0.1MB) Cost for accessing s = 6MB (not 0.01MB) Suppose we materialize the view “psc” space (total space cost 6MB + total time cost 36 MB = 42 MB).

24 24 psc 6MB pc 4MBps 0.8MBsc 2MB p 0.2MBs 0.01MB c 0.1MB Cost for accessing pc = 6MB (still 6MB) Cost for accessing sc = 6MB (still 6MB) Cost for accessing p = 0.8MB (not 6MB previously) Cost for accessing ps = 0.8MB (not 6MB previously) Cost for accessing c = 6MB (still 6MB) Cost for accessing s = 0.8MB (not 6MB previously) Suppose we materialize both the view “psc” and the view for “ps”. (space cost 6.8MB + total time cost 19.6 MB = 26.4 MB).

25 25 psc 6MB pc 4MBps 0.8MBsc 2MB p 0.2MBs 0.01MB c 0.1MB Cost for accessing pc = 6MB (still 6Mb) Cost for accessing sc = 6MB (still 6MB) Cost for accessing p = 0.8MB (not 6M previously) Cost for accessing ps = 0.8MB (not 6MB previously) Cost for accessing c = 6MB (still 6MB) Cost for accessing s = 0.8MB (not 6M previously) Gain = 0 Gain = 5.2Mb Gain = 0 Gain = 5.2MB Gain = 0 Gain ({view for “psc”}, {view for “psc”, view for “ps”} = 5.2*3 = 15.6 MB Comparing {view for “psc”, view for “ps”} with {view for “psc”} (Total Gain = 42MB -26.4MB = 15.6MB).


Κατέβασμα ppt "Δρ. Παναγιώτης Συμεωνίδης – Φυσικό Επίπεδο Αποθηκών Δεδομένων 1 Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google