Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Data Warehousing στον SQL Server 2005

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Data Warehousing στον SQL Server 2005"— Μεταγράφημα παρουσίασης:

1 Data Warehousing στον SQL Server 2005
Γεράσιμος Μαρκέτος Ομάδα Διαχείρισης Δεδομένων, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς (http://isl.cs.unipi.gr/db)

2 Αποθήκες Δεδομένων (Data Warehouse)
Μεθοδολογία διαχείρισης της πληροφορίας για μεγάλα συστήματα πληροφοριών (μεγάλοι οργανισμοί). Παρέχει αρχιτεκτονικές και εργαλεία για τη συστηματική οργάνωση, κατανόηση και χρήση των δεδομένων μιας επιχείρησης με απώτερο στόχο τη λήψη στρατηγικών αποφάσεων. Χαρακτηριστικά μιας αποθήκης δεδομένων: θεματο - κεντρική (subject oriented) Είναι οργανωμένη γύρω από ένα συγκεκριμένο θέμα ολοκληρωμένη (integrated) Ενοποιεί πληροφορία από διαφορετικές πηγές με χρονική διάσταση (time-variant) Περιέχει ιστορική πληροφορία μη ευμετάβλητη (non-volatile) Νέα δεδομένα μπορεί να προστεθούν αλλά δεν υπάρχει η έννοια της διαγραφής Subject Oriented Data warehouses are designed to help you analyze data. For example, to learn more about your company's sales data, you can build a warehouse that concentrates on sales. Using this warehouse, you can answer questions like "Who was our best customer for this item last year?" This ability to define a data warehouse by subject matter, sales in this case, makes the data warehouse subject oriented. Integrated Integration is closely related to subject orientation. Data warehouses must put data from disparate sources into a consistent format. They must resolve such problems as naming conflicts and inconsistencies among units of measure. When they achieve this, they are said to be integrated. Nonvolatile Nonvolatile means that, once entered into the warehouse, data should not change. This is logical because the purpose of a warehouse is to enable you to analyze what has occurred. Time Variant In order to discover trends in business, analysts need large amounts of data. This is very much in contrast to online transaction processing (OLTP) systems, where performance requirements demand that historical data be moved to an archive. A data warehouse's focus on change over time is what is meant by the term time variant.

3 Ο κύβος Τα data warehouses στηρίζονται στο πολυδιάστατο μοντέλο δεδομένων (κύβο). Διαστάσεις (dimensions) οι παράμετροι του προβλήματος ή οι άξονες για τη μοντελοποίηση του προβλήματος π.χ. προϊόντα, περιοχές, ημερομηνία Μια διάσταση μπορεί να είναι οργανωμένη με τη μορφή ιεραρχίας π.χ. πόλη  περιοχή  χώρα  ήπειρος κ.ο.κ. Μέτρα (measures): μετρήσιμα μεγέθη με βάση τα οποία θέλουμε να αναλύσουμε τις σχέσεις μεταξύ των διαστάσεων π.χ. πλήθος προϊόντων, σύνολο χρημάτων Κύβος (data cube): καθορίζει ένα πολυδιάστατο χώρο διαστάσεων, με τα μέτρα να είναι σημεία του χώρου αυτού

4 Ιεραρχίες Διαστάσεων

5 Πίνακες διαστάσεων - γεγονότων
Πίνακας διάστασης (dimension table) Αποτελείται από πλειάδες γνωρισμάτων της διάστασης Πίνακας γεγονότων (fact table) Αποτελείται από πλειάδες, μία για κάθε καταγεγραμμένο γεγονός Το γεγονός περιέχει μετρήσεις ή μεταβλητές παρατηρήσεων (δείκτες σε πίνακες διαστάσεων) Υπάρχει ένα FK για κάθε διάσταση και μία στήλη για κάθε μέτρο. Κάθε εγγραφή του αντιστοιχεί σε ένα κελί του κύβου.

6 Ένα απλό παράδειγμα κύβου
Measures REGION N S W PRODUCT Juice Cola Soap MONTH Jan 10 13 Dimensions

7 Λογικό σχήμα ΑΔ Σχήμα αστέρα (star) : Σχήμα χιονονιφάδας (snowflake) :
αποτελείται από έναν πίνακα γεγονότων έναν απο-κανονικοποιημένο πίνακα για κάθε διάσταση ο πίνακας αυτός περιέχει όλα τα επίπεδα συνάθροισης Σχήμα χιονονιφάδας (snowflake) : αποτελεί παραλλαγή του αστεροειδούς – η οργάνωση πινάκων διαστάσεων ακολουθεί μία ιεραρχία με κανονικοποίηση για κάθε επίπεδο της ιεραρχίας των διαστάσεων εισάγουμε και ένα δικό του πίνακα

8 Σχήμα αστέρα (Star) item branch time Sales Fact Table Dimensions
time_key day day_of_the_week month quarter year time item_key item_name brand type supplier_type item Sales Fact Table Dimensions time_key item_key branch_key branch location_key street city province_or_street country location location_key branch_key branch_name branch_type Measures units_sold dollars_sold avg_sales

9 Σχήμα Χιονονιφάδας (Snowflake)
time_key day day_of_the_week month quarter year time item_key item_name brand type supplier_key item supplier_key supplier_type supplier Sales Fact Table Dimensions time_key item_key branch_key location_key street city_key location branch_key branch_name branch_type branch location_key Measures units_sold city_key city province_or_street country dollars_sold avg_sales

10 Αρχιτεκτονικές αποθήκευσης ΑΔ
Δύο βασικές αρχιτεκτονικές για την αποθήκευση των δεδομένων σε μία ΑΔ ROLAP (Relational OLAP) Στηρίζεται στο σχεσιακό μοντέλο Ένα RDBMS χρησιμοποιείται ως µέσο αποθήκευσης και επερώτησης MOLAP (Multidimensional OLAP) Στηρίζεται σε «καθαρά» Multidimensional Databases Τα δεδομένα αποθηκεύονται σε multidimensional arrays που είναι συμπιεσμένα και δεικτοδοτούμενα (indexed), για λόγους απόδοσης και αποθήκευσης

11 Στην πράξη Ποια είναι τα βήματα που πρέπει να ακολουθήσουμε;
Κατανόηση του προβλήματος Επιλογή δεδομένων Καθορισμός διαστάσεων κύβου Ιεραρχία διαστάσεων Καθορισμός μέτρων κύβου Δημιουργία πίνακα γεγονότων πάνω στον οποίο θα «χτιστεί» ο κύβος

12 SQL Server 2005 SQL Server Database Engine
Ενσωμάτωση του .NET Web Services Πλήρης υποστήριξη XML SQL Server Business Intelligence OLAP Data Mining (προσθήκη αλγορίθμων) BI Development (ASSL, AMO, ADOMD.NET)

13 Το πρόβλημά μας – El Nino
Τα δεδομένα προέρχονται από σημαδούρες που είναι τοποθετημένες στον Ειρηνικό Ωκεανό.

14 Το πρόβλημά μας – El Nino
Χαρακτηριστικά του dataset: Γνωρίσματα (Attributes) Κωδικός παρατήρησης (Obs) Ημερομηνία παρατήρησης (year, month, day, date) Γεωγραφικό πλάτος (latitude) Γεωγραφικό μήκος (longitude) Παράλληλοι??? άνεμοι (zonal winds) west<0, east>0 Μεσημβρινοί ??? άνεμοι (meridional winds) south<0, north>0 Υγρασία (relative humidity) Θερμοκρασία αέρα (air temperature) Θερμοκρασία στην επιφάνεια της θάλασσας (sea surface temperature) Αρχικά δεδομένα (data) εγγραφές UCI KDD Archive:

15 Τα πραγματικά δεδομένα
obs date latitude lognitude zonWinds merWinds humidity airTemperature ssTemperature 4060 9/5/1993 -0.02 -2.1 2.1 81.2 26.8 27.02 4061 10/5/1993 -3.4 1.4 84.2 26.95 26.91 4062 11/5/1993 -3.8 2.2 84.9 26.98 26.78 4064 13/5/1993 -4.5 1.9 87.6 27.01 26.82 4066 15/5/1993 0.3 83.4 26.89 4068 17/5/1993 -0.8 4.3 85.1 27.33 4071 20/5/1993 -3.3 3.5 83.5 27.09 26.88 4073 22/5/1993 -4.4 2.6 86.5 27.03 26.71 4074 23/5/1993 -0.03 -0.4 88.3 26.65 26.58 4075 24/5/1993 2.7 88.5 26.53 26.25 4076 25/5/1993 -3.5 3.2 88.6 26.74 26.39 4077 26/5/1993 -2.4 4.9 86.7 26.85 26.51 4078 27/5/1993 -1.7 5.5 82.3 26.59 4079 28/5/1993 -1.6 5.2 83.2 26.76 26.61 4080 29/5/1993 -3.9 4.8 80.5 26.6 26.57 4083 1/6/1993 -5.7 85.8 26.55 4084 2/6/1993 -6.1 2.8 85.3 26.56

16 Προεπεξεργασία Ελλιπείς τιμές Συνεχή γνωρίσματα
Εντοπισμός ελλιπών τιμών  εγγραφές Κατάλληλη επεξεργασία, π.χ. συμπλήρωμα ελλιπών τιμών με τη μέση τιμή του γνωρίσματος Συνεχή γνωρίσματα Διακριτοποίηση ορισμάτων, δηλ. ορισμός περιοχών τιμών Γνωρίσματα: άνεμοι, θερμοκρασίες, υγρασία Πως ορίζουμε τις περιοχές? Ο απλούστερος τρόπος: γνωρίζω εκ των προτέρων τις κατηγορίες, π.χ. για τον μισθό, την ηλικία κ.ο.κ. Ένας άλλος τρόπος: ομοιόμορφη κατανομή εγγραφών σε κάθε περιοχή, δηλαδή προσπαθούμε να φτιάξουμε περιοχές με παρόμοιο φόρτο όσον αφορά στο πόσες εγγραφές τους αντιστοιχούν. Σε κάθε περίπτωση πρέπει μετά την διακριτοποίηση να αντιστοιχίσουμε τις «πραγματικές» τιμές των παρατηρήσεων στην διακριτή κατηγορία πού ορίσαμε.

17 Lat, Long διακριτοποίηση
Ορισμός 6 κατηγοριών με βάση το γεωγραφικό μήκος και πλάτος

18 Διακριτοποίηση ανέμων
Ορισμός κατηγοριών με βάση τους ανέμους για τους παράλληλους ανέμους zonal Winds (west<0, east>0) (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία Ορισμός κατηγοριών με βάση τους μεσημβρινούς ανέμους meridian Winds (south<0, north>0) (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία

19 Διακριτοποίηση θερμοκρασίας
6 κατηγορίες θερμοκρασίας με βάση τον αριθμό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία Οι κατηγορίες αυτές ισχύουν τόσο για την θερμοκρασία αέρα όσο και για την θερμοκρασία στην επιφάνεια της θάλασσας

20 Διακριτοποίηση υγρασίας
5 κατηγορίες υγρασίας με βάση τον αριθμό των παρατηρήσεων σε κάθε κατηγορία (Περίπου) Ισομερής κατανομή παρατηρήσεων σε κάθε κατηγορία

21 Αντιστοίχιση τιμών στις διακριτές τιμές
Αντιστοίχιση τιμών στις διακριτές τιμές Ενημερώνουμε τις διακριτές τιμές των γνωρισμάτων των μετρήσεων με τις τιμές των κατηγοριών των γνωρισμάτων έτσι όπως τις ορίσαμε πριν

22 Η ΑΔ (σχεσιακή μορφή)

23 Ορισμός κύβου Διαστάσεις (διακριτοποιημένες τιμές)
Ημερομηνία Τοποθεσία Θερμοκρασία αέρα Θερμοκρασία στην επιφάνεια της θάλασσας Μεσημβρινοί άνεμοι Παράλληλοι άνεμοι Υγρασία Πεδία (πάνω στα οποία θα ορίσω μέτρα) Τιμή θερμοκρασίας αέρα Τιμή θερμοκρασίας στην επιφάνεια της θάλασσας Τιμή παράλληλων ανέμων Τιμή μεσημβρινών ανέμων # μετρήσεων

24 Το μοντέλο του κύβου

25 Οι διαστάσεις – τα μέτρα του κύβου

26 Λειτουργίες κύβου (1) Roll Up (Συσσώρευση) Drill Down (Εμβάθυνση)
Πλοήγηση από τα χαμηλότερα στα υψηλότερα επίπεδα της ιεραρχίας Drill Down (Εμβάθυνση) Πλοήγηση από τα υψηλότερα στα χαμηλότερα επίπεδα της ιεραρχίας all region country city Roll up Roll down

27 Λειτουργίες κύβου (2) Slice (Τεμαχισμός) Dice (Κομμάτιασμα)
Εφαρμογή ενός κριτηρίου επιλογής σε 1 διάσταση του κύβου  υποκύβος Π.χ. Time = Q1 Dice (Κομμάτιασμα) Εφαρμογή ενός κριτηρίου επιλογής σε >=2 διαστάσεις του κύβου  υποκύβος Π.χ. Time= Q1 & Location = Athens Pivot (Περιστροφή) Εναλλαγή των γραμμών και των στηλών του κύβου με στόχο καλύτερη απεικόνιση

28 DEMO

29 Ευχαριστώ. Ερωτήσεις ?


Κατέβασμα ppt "Data Warehousing στον SQL Server 2005"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google