Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP"— Μεταγράφημα παρουσίασης:

1 1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

2 Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP Α. Νανόπουλος & Γ. Μανωλόπουλος Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

3 Προβλήματα σχεσιακών ΒΔ Τα δεδομένα στις Επιχειρησιακές Βάσεις, τις περισσότερες φορές, δεν έχουν καλή ποιότητα (ελλιπή στοιχεία, θόρυβος, και ασυνέπειες) Οι Επιχειρησιακές Βάσεις Δεδομένων είναι συνήθως ανεξάρτητες, με αποτέλεσμα τα δεδομένα τους να είναι ετερογενή (συνωνυμίες ή αμφισημίες) Π.χ., πελάτης καταχωρισμένος με διαφορετικά στοιχεία στη βάσης του τμήματος πωλήσεων από ότι στη βάση του τμήματος μάρκετινγκ. Οι Επιχειρησιακές Βάσεις, μέσω διαδικασιών ενημέρωσης (εισαγωγές/διαγραφές), διατηρούν δεδομένα μόνο για την τρέχουσα κατάσταση. Π.χ., στη βάση του τμήματος προμηθειών διατηρούνται μόνο όσοι προμηθευτές συνεργάζονται αυτή τη στιγμή, ενώ μπορεί να χρειασθούν δεδομένα και για προμηθευτές που συνεργαζόταν στο παρελθόν (να συγκριθούν οι τιμές τους) Η ανάλυση των δεδομένων δεν είναι εύκολο να επιτευχθεί με εργαλεία όπως η SQL. Προκύπτουν περίπλοκα ερωτήματα που δεν είναι εύκολο να συνταχθούν. Επιπλέον, τα Σχεσιακά ΣΔΒΔ στο φυσικό επίπεδο δεν είναι σχεδιασμένα για να ανταποκρίνονται στις απαιτήσεις τέτοιων περίπλοκων ερωτημάτων. Τα δεδομένα οργανώνονται με Διάγραμμα Οντοτήτων-Συσχετίσεων (ΔΟΣ) και αρχών όπως η κανονικοποίηση, που παράγουν περίπλοκες βάσεις στο νοητικό επίπεδο 3 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

4 Αποθήκες δεδομένων Η τεχνολογία των αποθηκών δεδομένων προσφέρει ολοκλήρωση ετερογενών πηγών δεδομένων και πλατφόρμα για αποδοτική ανάλυση ιστορικών δεδομένων Μία αποθήκη δεδομένων αποτελεί μία συλλογή δεδομένων που επιλέγονται από τις Επιχειρησιακές Βάσεις, ολοκληρώνονται, ενώ στη συνέχεια τα συλλεγμένα δεδομένα αναλύονται με διαδικασίες, όπως η On-line Analytical Processing (OLAP) ή η εξόρυξη δεδομένων. 4 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

5 Αποθήκες δεδομένων 5 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

6 Επιτυχία αποθηκών δεδομένων Προσέλκυσε γρήγορα το επιχειρηματικό ενδιαφέρον. Πρώτες προσπάθειες στα μέσα της δεκαετίας του 1990, οπότε οι αποθήκες δεδομένων εξελίχθηκαν σε αγορά της τάξης των 2 δισ $ Οι πρώτες προσπάθειες είχαν ποσοστό επιτυχίας μόλις 20\% Στα τέλη της δεκαετίας του 1990, το 95% των 1000 επιχειρήσεων του Fortune ανέπτυσσαν αποθήκες δεδομένων, οπότε η αγορά των αποθηκών δεδομένων ανήρθε οικονομικά στο ύψος των 7 δισ $ Εκτιμήθηκε ότι σε 3 χρόνια από την ανάπτυξη μίας αποθήκης δεδομένων, η απόσβεση γίνεται σε ποσοστό 400% Επιτυχημένες περιπτώσεις εφαρμογής-παράδειγμα: αλυσίδα υπεραγορών Walmart με 2000 υποκαταστήματα βοήθησε τη Walmart να βελτιστοποιήσει τις διαδικασίες προμήθειας προϊόντων και να μειώσει το κόστος αγοράς τους κατά 20% ο όγκος των δεδομένων στην αποθήκη δεδομένων της Walmart ανέρχεται στα 24 ΤΒ, σε ένα σύστημα 96 κόμβων με 900 επεξεργαστές και 2700 δίσκους 6 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

7 Ορισμός αποθήκης δεδομένων Σύμφωνα με τον Inmon (1996) ορίζουμε μία προσανατολισμένη προς το θέμα (subject- oriented), ολοκληρωμένη (integrated), χρονικά μεταβαλλόμενη (time-variant), και μη πτητική συλλογή δεδομένων με σκοπό την υποστήριξη λήψης αποφάσεων. 7 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

8 Διαφορές ΑΔ και ΒΔ 8 Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων ΧαρακτηριστικόΣχεσιακό ΣΔΒΔΑποθήκη Δεδομένων Σκοπός«τρέξιμο» καθημερινών διεργασιώνΥποστήριξη αποφάσεων ΛειτουργίαΔιεκπεραίωση συναλλαγώνΕξαγωγή πληροφορίας ΧρήστεςΚατώτεροι εργαζόμενοι, DBAsΥψηλόβαθμα στελέχη, αναλυτές Αριθμός Χρηστών(μέχρι) χιλιάδες(μέχρι) εκατοντάδες ΔεδομέναΤρέχοντα, απομονωμέναΙστορικά, ολοκληρωμένα Ενδεικτικό Μέγεθος<100GΒ10s-100s TB ΣχεδιασμόςΟΣ – κανονικοποίησηΜοντελ/ση διαστάσεων, αποκαν/ση ΧρήσηΕπαναληπτικήAd-hoc ΠροσπέλασηΑνάγνωση/εγγραφή(κυρίως) ανάγνωση ΕνημέρωσηΣυνεχήςΠεριοδική Μονάδα εργασίαςΣύντομες, απλές συναλλαγέςΠερίπλοκα ερωτήματα Χρόνοι διεκπαιρέωσης

9 Αρχιτεκτονική αποθηκών δεδομένων +διαδικασίες ενημέρωσης (triggers, log sniff) bottom-up vs. top-down 9 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

10 Κύβος δεδομένων Διαστάσεις, Μέτρα Ιεραρχίες 10 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

11 Σχήμα αστέρα 11 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

12 OLAP Εύκολη διατύπωση αναλυτικών ερωτήσεων επί κύβων και γρήγορη εκτέλεσή τους Roll-up: Παράγει κύβο δεδομένων με μειωμένο επίπεδο λεπτομέρειας όταν (α) σε κάποιες διαστάσεις επιλέγουμε ανώτερο επίπεδο στην ιεραρχία τους ή (β) αφαιρούμε κάποιες διαστάσεις Drill-down: Παράγει κύβο δεδομένων με αυξημένο επίπεδο λεπτομέρειας όταν (α) σε κάποιες διαστάσεις επιλέγουμε κατώτερο επίπεδο στην ιεραρχία τους ή (β) προσθέτουμε κάποιες διαστάσεις Slice: Παράγει κύβο εφαρμόζοντας επιλογή σε μία μόνο διάσταση (αντιστοιχεί στις πράξεις επιλογής και προβολής) Dice: Παράγει κύβο εφαρμόζοντας επιλογή σε μία περισσότερες διαστάσεις Pivot: Παράγει κύβο με άλλη διάταξη των διαστάσεων 12 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

13 OLAP 13 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

14 OLAP και συνάθροιση Για την εφαρμογή OLAP πράξεων απαιτείται ο ορισμός του τρόπου παραγωγής των κύβων-αποτελεσμάτων, μέσω μίας συναθροιστικής συνάρτησης Οι βασικές συναθροιστικές συναρτήσεις είναι αθροίσματος (sum), πλήθους (count), μέσου όρου (avg), μεγίστου (max), και ελαχίστου (min). 14 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

15 OLAP και συνάθροιση 15 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων


Κατέβασμα ppt "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google