Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Data Warehousing στον SQL Server 2005 Γεράσιμος Μαρκέτος Ομάδα Διαχείρισης Δεδομένων, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς (http://isl.cs.unipi.gr/db)http://isl.cs.unipi.gr/db.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Data Warehousing στον SQL Server 2005 Γεράσιμος Μαρκέτος Ομάδα Διαχείρισης Δεδομένων, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς (http://isl.cs.unipi.gr/db)http://isl.cs.unipi.gr/db."— Μεταγράφημα παρουσίασης:

1 Data Warehousing στον SQL Server 2005 Γεράσιμος Μαρκέτος Ομάδα Διαχείρισης Δεδομένων, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς (http://isl.cs.unipi.gr/db)http://isl.cs.unipi.gr/db

2 2  Μεθοδολογία διαχείρισης της πληροφορίας για μεγάλα συστήματα πληροφοριών (μεγάλοι οργανισμοί).  Παρέχει αρχιτεκτονικές και εργαλεία για τη συστηματική οργάνωση, κατανόηση και χρήση των δεδομένων μιας επιχείρησης με απώτερο στόχο τη λήψη στρατηγικών αποφάσεων.  Χαρακτηριστικά μιας αποθήκης δεδομένων:  θεματο - κεντρική (subject oriented)  Είναι οργανωμένη γύρω από ένα συγκεκριμένο θέμα  ολοκληρωμένη (integrated)  Ενοποιεί πληροφορία από διαφορετικές πηγές  με χρονική διάσταση (time-variant)  Περιέχει ιστορική πληροφορία  μη ευμετάβλητη (non-volatile)  Νέα δεδομένα μπορεί να προστεθούν αλλά δεν υπάρχει η έννοια της διαγραφής Αποθήκες Δεδομένων (Data Warehouse )

3 3 Ο κύβος  Τα data warehouses στηρίζονται στο πολυδιάστατο μοντέλο δεδομένων (κύβο).  Διαστάσεις (dimensions)  οι παράμετροι του προβλήματος ή οι άξονες για τη μοντελοποίηση του προβλήματος  π.χ. προϊόντα, περιοχές, ημερομηνία  Μια διάσταση μπορεί να είναι οργανωμένη με τη μορφή ιεραρχίας  π.χ. πόλη  περιοχή  χώρα  ήπειρος κ.ο.κ.  Μέτρα (measures):  μετρήσιμα μεγέθη με βάση τα οποία θέλουμε να αναλύσουμε τις σχέσεις μεταξύ των διαστάσεων  π.χ. πλήθος προϊόντων, σύνολο χρημάτων  Κύβος (data cube):  καθορίζει ένα πολυδιάστατο χώρο διαστάσεων, με τα μέτρα να είναι σημεία του χώρου αυτού

4 4 Ιεραρχίες Διαστάσεων

5 5 Πίνακες διαστάσεων - γεγονότων  Πίνακας διάστασης (dimension table)  Αποτελείται από πλειάδες γνωρισμάτων της διάστασης  Πίνακας γεγονότων (fact table)  Αποτελείται από πλειάδες, μία για κάθε καταγεγραμμένο γεγονός  Το γεγονός περιέχει μετρήσεις ή μεταβλητές παρατηρήσεων (δείκτες σε πίνακες διαστάσεων)  Υπάρχει ένα FK για κάθε διάσταση και μία στήλη για κάθε μέτρο.  Κάθε εγγραφή του αντιστοιχεί σε ένα κελί του κύβου.

6 6 REGION N S W PRODUCT Juice Cola Soap MONTH Jan Ένα απλό παράδειγμα κύβου Dimensions Measures

7 7 Λογικό σχήμα ΑΔ  Σχήμα αστέρα (star) :  αποτελείται από  έναν πίνακα γεγονότων  έναν απο-κανονικοποιημένο πίνακα για κάθε διάσταση  ο πίνακας αυτός περιέχει όλα τα επίπεδα συνάθροισης  Σχήμα χιονονιφάδας (snowflake) :  αποτελεί παραλλαγή του αστεροειδούς – η οργάνωση πινάκων διαστάσεων ακολουθεί μία ιεραρχία με κανονικοποίηση  αποτελείται από  έναν πίνακα γεγονότων  για κάθε επίπεδο της ιεραρχίας των διαστάσεων εισάγουμε και ένα δικό του πίνακα

8 8 Σχήμα αστέρα (Star) time_key day day_of_the_week month quarter year time location_key street city province_or_street country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_type item branch_key branch_name branch_type branch Measures Dimensions

9 9 Σχήμα Χιονονιφάδας (Snowflake) time_key day day_of_the_week month quarter year time location_key street city_key location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key city province_or_street country city Measures Dimensions

10 10 Αρχιτεκτονικές αποθήκευσης ΑΔ  Δύο βασικές αρχιτεκτονικές για την αποθήκευση των δεδομένων σε μία ΑΔ  ROLAP (Relational OLAP)  Στηρίζεται στο σχεσιακό μοντέλο  Ένα RDBMS χρησιμοποιείται ως µέσο αποθήκευσης και επερώτησης  MOLAP (Multidimensional OLAP)  Στηρίζεται σε «καθαρά» Multidimensional Databases  Τα δεδομένα αποθηκεύονται σε multidimensional arrays που είναι συμπιεσμένα και δεικτοδοτούμενα (indexed), για λόγους απόδοσης και αποθήκευσης

11 11 Στην πράξη Ποια είναι τα βήματα που πρέπει να ακολουθήσουμε;  Κατανόηση του προβλήματος  Επιλογή δεδομένων  Καθορισμός διαστάσεων κύβου  Ιεραρχία διαστάσεων  Καθορισμός μέτρων κύβου  Δημιουργία πίνακα γεγονότων πάνω στον οποίο θα «χτιστεί» ο κύβος

12 12 SQL Server 2005  SQL Server Database Engine  Ενσωμάτωση του.NET  Web Services  Πλήρης υποστήριξη XML  SQL Server Business Intelligence  OLAP  Data Mining (προσθήκη αλγορίθμων)  BI Development (ASSL, AMO, ADOMD.NET)

13 13 Το πρόβλημά μας – El Nino  Περιλαμβάνει δεδομένα (ωκεανογραφικά, ατμοσφαιρικά) για την κατανόηση του φαινομένου El Nino.  Τα δεδομένα προέρχονται από σημαδούρες που είναι τοποθετημένες στον Ειρηνικό Ωκεανό.

14 14 Το πρόβλημά μας – El Nino  Χαρακτηριστικά του dataset:  Γνωρίσματα (Attributes)Attributes  Κωδικός παρατήρησης (Obs)  Ημερομηνία παρατήρησης (year, month, day, date)  Γεωγραφικό πλάτος (latitude)  Γεωγραφικό μήκος (longitude)  Παράλληλοι??? άνεμοι (zonal winds)  west 0  Μεσημβρινοί ??? άνεμοι (meridional winds)  south 0  Υγρασία (relative humidity)  Θερμοκρασία αέρα (air temperature)  Θερμοκρασία στην επιφάνεια της θάλασσας (sea surface temperature)  Αρχικά δεδομένα (data)data  εγγραφές  UCI KDD Archive:

15 15 Τα πραγματικά δεδομένα obsdatelatitudelognitudezonWindsmerWindshumidityairTemperaturessTemperature 40609/5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /5/ /6/ /6/

16 16 Προεπεξεργασία  Ελλιπείς τιμές  Εντοπισμός ελλιπών τιμών  εγγραφές  Κατάλληλη επεξεργασία, π.χ. συμπλήρωμα ελλιπών τιμών με τη μέση τιμή του γνωρίσματος  Συνεχή γνωρίσματα  Διακριτοποίηση ορισμάτων, δηλ. ορισμός περιοχών τιμών  Γνωρίσματα: άνεμοι, θερμοκρασίες, υγρασία  Πως ορίζουμε τις περιοχές?  Ο απλούστερος τρόπος: γνωρίζω εκ των προτέρων τις κατηγορίες, π.χ. για τον μισθό, την ηλικία κ.ο.κ.  Ένας άλλος τρόπος: ομοιόμορφη κατανομή εγγραφών σε κάθε περιοχή, δηλαδή προσπαθούμε να φτιάξουμε περιοχές με παρόμοιο φόρτο όσον αφορά στο πόσες εγγραφές τους αντιστοιχούν.  Σε κάθε περίπτωση πρέπει μετά την διακριτοποίηση να αντιστοιχίσουμε τις «πραγματικές» τιμές των παρατηρήσεων στην διακριτή κατηγορία πού ορίσαμε.

17 17 Lat, Long διακριτοποίηση  Ορισμός 6 κατηγοριών με βάση το γεωγραφικό μήκος και πλάτος

18 18 Διακριτοποίηση ανέμων  Ορισμός κατηγοριών με βάση τους ανέμους για τους παράλληλους ανέμους  zonal Winds (west 0)  (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία  Ορισμός κατηγοριών με βάση τους μεσημβρινούς ανέμους  meridian Winds (south 0)  (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία

19 19 Διακριτοποίηση θερμοκρασίας  6 κατηγορίες θερμοκρασίας με βάση τον αριθμό των παρατηρήσεων σε κάθε κατηγορία  (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία  Οι κατηγορίες αυτές ισχύουν τόσο για την θερμοκρασία αέρα όσο και για την θερμοκρασία στην επιφάνεια της θάλασσας

20 20 Διακριτοποίηση υγρασίας  5 κατηγορίες υγρασίας με βάση τον αριθμό των παρατηρήσεων σε κάθε κατηγορία  (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία

21 21 Αντιστοίχιση τιμών στις διακριτές τιμές  Ενημερώνουμε τις διακριτές τιμές των γνωρισμάτων των μετρήσεων με τις τιμές των κατηγοριών των γνωρισμάτων έτσι όπως τις ορίσαμε πριν

22 22 Η ΑΔ (σχεσιακή μορφή)

23 23 Ορισμός κύβου  Διαστάσεις (διακριτοποιημένες τιμές)  Ημερομηνία  Τοποθεσία  Θερμοκρασία αέρα  Θερμοκρασία στην επιφάνεια της θάλασσας  Μεσημβρινοί άνεμοι  Παράλληλοι άνεμοι  Υγρασία  Πεδία (πάνω στα οποία θα ορίσω μέτρα)  Τιμή θερμοκρασίας αέρα  Τιμή θερμοκρασίας στην επιφάνεια της θάλασσας  Τιμή παράλληλων ανέμων  Τιμή μεσημβρινών ανέμων  Υγρασία  # μετρήσεων

24 24 Το μοντέλο του κύβου

25 25 Οι διαστάσεις – τα μέτρα του κύβου

26 26 Λειτουργίες κύβου (1) all region country city Roll up Roll down  Roll Up (Συσσώρευση)  Πλοήγηση από τα χαμηλότερα στα υψηλότερα επίπεδα της ιεραρχίας  Drill Down (Εμβάθυνση)  Πλοήγηση από τα υψηλότερα στα χαμηλότερα επίπεδα της ιεραρχίας

27 27 Λειτουργίες κύβου (2)  Slice (Τεμαχισμός)  Εφαρμογή ενός κριτηρίου επιλογής σε 1 διάσταση του κύβου  υποκύβος  Π.χ. Time = Q1  Dice (Κομμάτιασμα)  Εφαρμογή ενός κριτηρίου επιλογής σε >=2 διαστάσεις του κύβου  υποκύβος  Π.χ. Time= Q1 & Location = Athens  Pivot (Περιστροφή)  Εναλλαγή των γραμμών και των στηλών του κύβου με στόχο καλύτερη απεικόνιση

28 28 DEMO

29 29 Ευχαριστώ. Ερωτήσεις ?


Κατέβασμα ppt "Data Warehousing στον SQL Server 2005 Γεράσιμος Μαρκέτος Ομάδα Διαχείρισης Δεδομένων, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς (http://isl.cs.unipi.gr/db)http://isl.cs.unipi.gr/db."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google