Ειδικά Θέματα Βάσεων Δεδομένων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Galaxy platform : υψηλή τεχνολογία  Ανάπτυξη σε.Νet 4.0 / 3.5 της Microsoft  Αξιοποίηση των εργαλείων.Net 4.0 / 3.5  WPF για σύγχρονο περιβάλλον εργασίας.
Advertisements

Διάγραμμα Παρουσίασης
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
ΠΜΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Κατεύθυνση ΤΕΔΑ Τεχνολογίες Διαχείρισης Ασφάλειας Security Management Engineering Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ.
ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΤΕ 21,23/2/2005Πληροφοριακή σχεδίαση για πολιτισμική τεκμηρίωση και διαλειτουργικότητα1 Τεκμηρίωση.
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 3: Αποθήκες Δεδομένων και OLAP
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Καλώς ήρθατε ! Ετοιμάζεστε να παρακολουθήσετε την παρουσίαση της εφαρμογής Copyright © iBS LTD, all rights reserved.
Βάσεις Δεδομένων (ΚΒΔ)
Εισαγωγή στις Αποθήκες Δεδομένων
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων.
Τι είναι Ανάλυση Τι είναι Συστήματα Πληροφορικής
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
ΕΙΣΑΓΩΓΗ ΜΑΘΗΜΑ 1.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Βλάσσης Νικόλαος Α.Μ Γεωργακόπουλος Παναγιώτης Α.Μ Δεπάστα Χαρίκλεια Α.Μ Κουτσιώρα Τριανταφυλλιά Α.Μ
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ημέρα 1η.
Εξόρυξη Δεδομένων: Ακ. Έτος Αποθήκες Δεδομένων1 Εισαγωγή στις Αποθήκες Δεδομένων Διαφάνειες βασισμένες σε σχετικές διαφάνειες του Πάνου Βασιλειάδη.
Ιφιγένειας Γεωργάκη. Βαθμολογία Πρωταθλήματος ΟΠΑΠ.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Σχεσιακή Άλγεβρα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή Σχεδιασμός μιας ΒΔ ανάλυση ποιας πληροφορίας και της σχέσης ανάμεσα στα στοιχεία της περιγραφή.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή Σχεδιασμός μιας ΒΔ ανάλυση ποιας πληροφορίας και της σχέσης ανάμεσα στα στοιχεία της περιγραφή.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων II Εισαγωγικά του μαθήματος Πάνος Βασιλειάδης Σεπτέμβρης 2002
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Βάσεις Δεδομένων Αρχιτεκτονική.
Μπόλαρη Αγγελικη(1451) Επιβλέπων Βολογιαννίδης Σταύρος ΑΤΕΙ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Σέρρες 2013.
 Κύριο αντικείμενο της μελέτης είναι ο καθορισμός της μεθοδολογίας, των προτύπων (standards) και των διαδικασιών (procedures) για τις πρώτες και πιο.
ΕΝΟΤΗΤΑ 8η ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ - ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ - ΣΑΒΒΑΣ ΚΑΤΕΡΕΛΟΣ.
Ταξινόμηση Πληροφοριακών Συστημάτων. Μοντέλο Μελέτης των ΠΣ Επιχειρηματικά Θέματα Τεχνολογικά Θέματα Κοινωνικά Θέματα Πληροφοριακά Συστήματα.
Διάλεξη 10 η ΣΥΣΤΗΜΑ ΠΛΗΡΟΦΟΡΗΣΗΣ ΜΑΡΚΕΤΙΝΓΚ (MIS) TEI Κρήτης Σχολή Διοίκησης και Οικονομίας Τμήμα Διοίκησης Επιχειρήσεων Δρ. Αλέξανδρος Αποστολάκης
Επίσημος ορισμός Ποιότητας (πρότυπο ISO 8402) Σύνολο χαρακτηριστικών μιας οντότητας για την ικανοποίηση εκφρασμένων και συνεπαγόμενων αναγκών. Αντικείμενο.
Βάσεις Δεδομένων Κεφ. 1 Πλεονεκτήματα Β.Δ. έναντι αρχείων Βασικές λειτουργίες Β.Δ. Εφαρμογές Β.Δ. στην καθημερινή ζωή.
Ανάπτυξη ΣΥΑ.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΤΕΧΝΙΚΩΝ ΕΡΓΩΝ
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Cloud Computing Το cloud computing παρέχει υπηρεσίες υπολογισμού, λογισμικού, πρόσβασης σε δεδομένα και αποθήκευσης που δεν απαιτούν ο τελικός χρήστης.
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Επιχειρηματικός Σχεδιασμός
Βάσεις Δεδομένων Ι Εισαγωγή
Εισαγωγή στις βάσεις δεδομένων ISBN
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Αρχές Διοίκησης και Διαχείρισης Έργων
Βάσεις Δεδομένων & Έμπειρα Συστήματα
Πληροφοριακά Συστήματα Ανώτατης Διοίκησης (EIS) Συστήματα Υποστήριξης Ανώτατης Διοίκησης (ESS) Συστήματα Υποστήριξης Αποφάσεων στο Διαδίκτυο (Web-based.
Ανάλυση και σχεδιασμόσ πληροφοριακών συστημάτων
ΣΥΣΤΗΜΑ ΠΟΙΟΤΗΤΑΣ ΛΟΓΙΣΜΙΚΟΥ (QUALITY SYSTEM)
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΔΙΟΙΚΗΣΗ ΟΛΙΚΗΣ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΒΑΛΛΟΝΤΟΣ
Σχεσιακεσ βασεισ δεδομενων
Πληροφοριακά Συστήματα
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Αλέξανδρος Σαχινίδης, ΜΒΑ, Ph.D. ΙΟΥΝΙΟΣ 2009
Διαχρονικές Δομές Δεδομένων
Μεταγράφημα παρουσίασης:

Ειδικά Θέματα Βάσεων Δεδομένων Μάθημα: Αποθήκες Δεδομένων Αναλυτική Επεξεργασία Δεδομένων Αντζουλάτος Γεράσιμος (mail: antzoulatos@upatras.gr)

Το Φαινόμενο των «Αποθηκών Δεδομένων» Συνήθη παράπονα: Υπάρχουν τόνοι από δεδομένα αλλά δεν μπορούμε να έχουμε πρόσβαση σε αυτά! Πως μπορούν οι χρήστες παίζοντας τον ίδιο ρόλο να παράγουν σημαντικά διαφορετικά αποτελέσματα; Θέλουμε να επικεντρώσουμε (slice and dice) στα δεδομένα με οποιονδήποτε δυνατό τρόπο! Δείξε μου μόνο τι είναι σημαντικό! Όλοι γνωρίζουν ότι ορισμένα δεδομένα δεν είναι σωστά…. (R. Kimball, “The Data Warehouse Toolkit”, John Willey 1996)

Ορισμοί Αποθήκης Δεδομένων (Data Warehouse) Μια συλλογή δεδομένων που χρησιμοποιείται κυρίως για την λήψη αποφάσεων σε έναν οργανισμό, και είναι θεματικά προσανατολισμένη, έχουσα «ολοκληρωμένα» δεδομένα, τα οποία κρατούνται σε βάθος χρόνου χωρίς να διαγράφονται. [W.H. Inmon, “Building the Data Warehouse”, 1992 (ο εμπνευστής του όρου)] Υποστήριξη: αναλυτών (analysts), εξειδικευμένων στη γνώση εργαζόμενων (knowledge workers) καθώς και διευθυντών (executives, managers) στην ανάλυση δεδομένων στοχεύοντας στη λήψη αποφάσεων και στη βελτίωση της διαχείρισης γνώσης στους οργανισμούς εφαρμογών όπως OLAP, Data Mining, Decision Support Systems (DSS)

Χαρακτηριστικά Αποθηκών Δεδομένων Το Data Warehouse είναι ένας χώρος αποθήκευσης δεδομένων που: Περιέχει ολοκληρωμένες ομάδες ιστορικών δεδομένων Περιέχει μια συλλογή από θεματικά (subject-oriented), ενοποιημένα (consolidated), σταθερά (consistent) δεδομένα Αποθηκεύει δομημένα δεδομένα για κατανεμημένα queries Η λύση Data Warehousing είναι μια διαδικασία που Ανακτά, συλλέγει, και μετατρέπει δεδομένα Περιλαμβάνει δεδομένα από πολλαπλές βάσεις δεδομένων Περιλαμβάνει εργαλεία για σχεδιασμό, υλοποίηση, και χρήση του data warehouse

Προτερήματα/Ιδιότητες Αποθηκών Δεδομένων Εννοιολογική εναρμόνιση Οι διαφορετικές πηγές δεδομένων του ίδιου οργανισμού, μοντελοποιούν τις ίδιες οντότητες με διαφορετικούς τρόπους Η Αποθήκη Δεδομένων περιλαμβάνει το σύνολο αυτών των δεδομένων κάτω από ένα εναρμονισμένο σχήμα βάσης Ποιότητα Δεδομένων Η ποιότητα των δεδομένων στις πηγές είναι συχνά προβληματική (τα δεδομένα μπορεί να μην είναι πλήρη, να έχουν ασυνέπειες, να είναι παλιά, να παραβιάζουν τους λογικούς και δομικούς κανόνες αξιοπιστίας, κλπ) Έχει βρεθεί ότι τουλάχιστο 10% των δεδομένων είναι προβληματικά στις πηγές, με αποτέλεσμα οικονoμικές απώλειες του 25-40% Πριν την εισαγωγή στις αποθήκες δεδομένων καθαρισμός, επίσης λειτουργεί και ως ένα ενδιάμεσο σύστημα στον οποίο καθαρίζουμε τα δεδομένα

Προτερήματα/Ιδιότητες Αποθηκών Δεδομένων Απόδοση Οι εφαρμογές OLAP επιταχύνονται αν τα δεδομένα οργανωθούν με μη παραδοσιακούς τρόπους (π.χ., απο-κανονικοποιημένα) ΣΔΒΔ για OLTP (ευρετήρια, επεξεργασία δοσοληψιών) Οι σύνθετες OLAP ερωτήσεις θα συγκρούονταν με τις παραδοσιακές OLTP δοσοληψίες, με αποτέλεσμα την υπερφόρτωση του συστήματος Θεματικά προσανατολισμένη: Διατήρηση μόνο των σχετικών δεδομένων Διαθεσιμότητα Όσο περισσότερα αντίγραφα των δεδομένων, τόσο πιο πολύ το σύστημα είναι διαθέσιμο*, αφενός στην Αποθήκη Δεδομένων και αφετέρου στις πηγές *Διαθεσιμότητα: το ποσοστό του χρόνου που το σύστημα είναι σε λειτουργία και προσβάσιμο στις εφαρμογές. 24x7: Οι OLTP εφαρμογές, σε πολλούς οργανισμούς πρέπει να είναι διαθέσιμες 24 ώρες Χ 7 μέρες τη βδομάδα (π.χ., τράπεζες, αεροπορικές εταιρείες,...)

Προτερήματα/Ιδιότητες Αποθηκών Δεδομένων Ιστορικά Δεδομένα Ο χρονικός ορίζοντας μια αποθήκης δεδομένων είναι πολύ μεγαλύτερος από ότι ενός συστήματος σε λειτουργία Η ΒΔ έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια) Τροποποιήσεις Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα στις αποθήκες δεδομένων, συνήθως περιοδικά Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων (loading) και προσπέλαση δεδομένων (access)

Αρχιτεκτονική τυπικού συστήματος Data Warehouse

Αρχιτεκτονική τυπικού συστήματος Data Warehouse Data Sources (Πηγές): Κάθε πηγή από την οποία η Αποθήκη Δεδομένων αντλεί δεδομένα. ETL (Extract-Transform-Load) εφαρμογές: Εφαρμογές που εκτελούν τις διαδικασίες εξαγωγής, μεταφοράς, μετασχηματισμού, καθαρισμού και φόρτωσης των δεδομένων από τις πηγές στην Αποθήκη ∆εδομένων. Data Staging Area: Μια Β∆ στην οποία εκτελούνται οι μετασχηματισμοί και ο καθαρισμός των δεδομένων πριν την φόρτωση στην Αποθήκη Δεδομένων. Αποθήκη Δεδομένων (DW), Συλλογές Δεδομένων (Data Marts): Τα συστήματα που αποθηκεύονται τα δεδομένα που παρέχονται προς τους χρήστες. Βάση Μετα-Δεδομένων (Metadata Repository): Το υποσύστημα αποθήκευσης πληροφορίας σχετικά µε τη δομή και λειτουργία όλου του συστήματος. Εφαρμογές Ανάλυσης: Εφαρμογές παραγωγής αναφορών, OLAP, DSS, Data Mining

Αρχιτεκτονική τυπικού συστήματος Data Warehouse Μετα-Δεδομένα: είναι τα δεδομένα που ορίζουν τα αντικείμενα της αποθήκης δεδομένων. Περιέχουν: Περιγραφή της δομής της αποθήκης δεδομένων Σχήμα, όψεις, διαστάσεις, ιεραρχίες, την τοποθεσία των data mart και το περιεχόμενο τους, κλπ Λειτουργικά μεταδεδομένα data lineage (την ιστορία των δεδομένων που μεταφέρθηκαν και ποιοι μετασχηματισμοί χρησιμοποιήθηκαν), στοιχεία για το πόσο ενημερωμένα/πρόσφατα είναι, πληροφορίες επίβλεψης (monitoring) για τη λειτουργία της αποθήκης (στατιστικά στοιχεία λειτουργίας, error reports, audit trails) Τους αλγορίθμους που χρησιμοποιηθήκαν για τις περιλήψεις Την απεικόνιση του λειτουργικού περιβάλλοντος στην ΑΔ Δεδομένα σχετικά με την απόδοση του συστήματος Business data Πολιτικές χρέωσης, ιδιοκτησίας δεδομένων, κλπ

Αρχιτεκτονική τυπικού συστήματος Data Warehouse Back-End Εργαλεία ETL (Extract-Transform-Load) εφαρμογές: Εφαρμογές που εκτελούν τις διαδικασίες Εξαγωγής, μεταφοράς, μετασχηματισμού, καθαρισμού και φόρτωσης των δεδομένων από τις πηγές στην Αποθήκη Δεδομένων. Front-End Εργαλεία Εφαρμογές Ανάλυσης: Εφαρμογές παραγωγής αναφορών, OLAP , DSS, Data Mining

Αρχιτεκτονική τυπικού συστήματος Data Warehouse Back-End Εργαλεία Data extraction Φέρε δεδομένα από πολλαπλές, ετερογενείς και εξωτερικές πηγές Data cleaning Εντοπισμός λαθών στα δεδομένα και διόρθωση τους όταν είναι δυνατόν Παραδείγματα: Δεδομένα που παραβιάζουν τους κανόνες της βάσης: διπλοεγγραφές, παραβιάσεις πρωτεύοντος ή ξένου κλειδιού, τιμές εκτός ορίων, παραβιάσεις λογικών κανόνων, κλπ Συνώνυμα και συγκρούσεις Ελλιπή δεδομένα Ομογενοποίηση κλειδιού Data transformation Μετατροπή των δεδομένων από το τοπικό format στο format της αποθήκης

Αρχιτεκτονική τυπικού συστήματος Data Warehouse Load Ταξινόμηση, δημιουργία περίληψης, ενοποίηση (consolidate), υπολογισμός όψεων, έλεγχος ακεραιότητας (integrity), δημιουργία ευρετηρίων και διαμερίσεων Η ενημέρωση / εισαγωγή δεδομένων στην πράξη δε γίνεται μέσω SQL, συνήθως μέσω εργαλείων batch loading που διαθέτουν όλα τα ΣΔΒΔ Refresh Μετέφερε τις τροποποιήσεις από τις πηγές δεδομένων στην ΑΔ

On-Line Transaction Processing (OLTP) Μια τέτοια εφαρμογή πρέπει να δουλεύει συνεχώς, να αντεπεξέρχεται αποτυχιών, εξελίσσεται συνεχώς, είναι συνήθως κατανεμημένη και περιλαμβάνει: Βάση Δεδομένων Δίκτυο Προγράμματα εφαρμογής Εξαιρετικά κρίσιμη για τη λειτουργία κάθε οργανισμού

On-Line Transaction Processing (OLTP) Ελάχιστος χρόνος εκτέλεσης κάθε δοσοληψίας. Λιγότερες από 10 προσβάσεις δίσκου. Περιορισμένος αριθμός υπολογισμών. Κάτω όριο λειτουργικών απαιτήσεων: 100 on-line Transactions Per Second (TPS) σε μια ΒΔ μικρότερη του 1 GB Άνω όριο λειτουργικών απαιτήσεων: 50.000 TPS σε μια ΒΔ μεγαλύτερη του 1 ΤB.

OLTP – αεροπορικής εταιρίας

OLTP – τράπεζας

Λειτουργικά Χαρακτηριστικά OLAP On-line Analytical Processing (OLAP) είναι ένας όρος που χρησιμοποιείται για να περιγραφεί η Πολυδιάστατη Ανάλυση Δεδομένων από την Αποθήκη Δεδομένων. Ευέλικτη, υψηλής απόδοσης πρόσβαση και ανάλυση πολύ μεγάλου όγκου σύνθετων δεδομένων από διαφορετικές εφαρμογές. Ανάλυση των συσχετίσεων μεταξύ πολλών τύπων επιχειρησιακών στοιχείων. Συμμετοχή αθροιστικών και ιστορικών δεδομένων σε πολύπλοκες ερωτήσεις. Παρουσίαση δεδομένων από διαφορετικές οπτικές γωνίες (π.χ. πωλήσεις ανά περιοχή, πωλήσεις ανά τμήμα κλπ.) – πολυδιάστατη ανάλυση δεδομένων. Συμμετοχή πολύπλοκων υπολογισμών (π.χ. στατιστικές συναρτήσεις). Γρήγορη απάντηση οποιαδήποτε στιγμή τεθεί μια απαίτηση (εξ’ ου και “On-line”).

Παραδείγματα ερωτήσεων OLAP εφαρμογών Ποιός ήταν ο όγκος πωλήσεων ανά περιοχή και κατηγορία προϊόντος την περασμένη χρονιά; Πόσο σχετίζονται οι αυξήσεις τιμών των υπολογιστών με τα κερδών των πωλήσεων τα 10 τελευταία χρόνια; Ποια ήταν τα δέκα πρώτα καταστήματα σε πωλήσεις CD; Πόσους δίσκους πουλήσαμε στην Δυτική Ελλάδα το τελευταίο τέταρτο της περσινής χρονιάς σε καταστήματα με κατανάλωση μεγαλύτερη από 100 δίσκους μηνιαίως, και ποιό το κέρδος μας από αυτές τις πωλήσεις; Πόσο ποσοστό από τους πελάτες που αγοράζουν αναψυκτικά αγοράζουν και πατατάκια;

OLAP - OLTP Ομοιότητες / Διαφορές Δομή RDBMS Πρόσβαση SQL SQL + επεκτάσεις Ανάγκες που καλύπτουν Αυτοματισμός καθημερινών εργασιών Άντληση και επεξεργασία πληροφοριών για λήψη αποφάσεων Τύπος Δεδομένων Λεπτομερή, λειτουργικά δεδομένα Συνοπτικά – Επιχειρηματικές πληροφορίες Όγκος Δεδομένων >100 GB > 1 TB Φύση Δεδομένων Δυναμικά, τρέχοντα Στατιστικά, Ιστορικά Ι/Ο Τύποι Περιορισμένο Ι/Οs Εκτεταμένο Ι/Οs

OLAP - OLTP Ομοιότητες / Διαφορές Τροποποιήσεις Συνεχείς (Transactions) Περιοδικές ενημερώσεις (Batch refresh) Φόρτος Δοσοληψίες με πρόσβαση λίγων εγγραφών Ερωτήσεις που σαρώνουν εκατομμύρια εγγραφών Τυπικοί χρήστες Χαμηλόβαθμοι Υπάλληλοι Υψηλόβαθμα στελέχη Αλληλεπίδραση Προγεγραμμένη Εξειδικευμένη (ad-hoc) Αριθμός χρηστών Χιλιάδες Δεκάδες Εστίαση Εισαγωγή δεδομένων Εξαγωγή πληροφοριών Σχεδίαση ΒΔ Κατευθυνόμενη από Εφαρμογή Κατευθυνόμενη από Περιεχόμενο

Εννοιολογικό Σχήμα Αποθήκης Δεδομένων Τα ER διαγράμματα Οντοτήτων - Συσχετίσεων των OLTP συστημάτων αποδεικνύονται ακατάλληλα για τη σχεδίαση των Αποθηκών Δεδομένων. Μοντέλο ∆ιαστάσεων (Dimensional Modeling): τεχνική ειδικά για Αποθήκες ∆εδοµένων Βασίζεται στην θεώρηση των δεδοµένων µέσω ενός πολυδιάστατου µοντέλου δεδοµένων µε βασικά στοιχεία πίνακες πολυδιάστατων δεδοµένων και πίνακες διαστάσεων.

Πολυδιάστατο Μοντέλο Δεδομένων Αφορά στην ανάλυση κάποιων μετρήσιµων µεγεθών, που καλούνται µέτρα, όπως είναι οι πωλήσεις, απόθεµα, κέρδος,... ∆ιαστάσεις: παράµετροι που καθορίζουν το περιβάλλον (context) των µέτρων ηµεροµηνία, προϊόν, τοποθεσία, πωλητής, … Διαφορετικά επίπεδα λεπτοµέρειας ανά διάσταση (ιεραρχία διάστασης): µέρα, µήνας, χρόνος,... Κύβοι: συνδυασµοί διαστάσεων που καθορίζουν κάποια µέτρα Ο κύβος είναι µια οµάδα από κελιά δεδοµένων (data cells). Κάθε κελί χαρακτηρίζεται µονοσήµαντα από τις αντίστοιχες τιµές των διαστάσεων (dimensions) του κύβου.

Κύβοι και Ιεραρχίες Διαστάσεων Κάθε διάσταση παίρνει τιμές από διαφορετικά επίπεδα, μπορεί να εκφραστεί σε διαφορετικά επίπεδα λεπτομέρειας

Παράδειγμα: Εννοιολογική Ιεραρχία για τη Διάσταση Location

Το εννοιολογικό σχήµα της Αποθήκης ∆εδοµένων στο Μοντέλο ∆ιαστάσεων Πίνακας ∆ιάστασης (Dimension table) : Ο πίνακας που περιέχει πληροφορία σχετική µε µια διάσταση. Περιέχει ένα τεχνητό κλειδί και από µία πλειάδα χαρακτηριστικών της διάστασης. Πίνακας ∆εδοµένων (Fact table): Ο πίνακας που υλοποιεί τον υπό µοντελοποίηση κύβο. Κάθε εγγραφή του πίνακα αντιστοιχεί σε ένα κελί του κύβου. Το πρωτεύον κλειδί είναι η σύνθεση των κλειδιών των υπολοίπων πινάκων, οι οποίοι λειτουργούν ως διαστάσεις του fact table (time, product, κτλ).

Παράδειγμα σχήματος στο Μοντέλο Διαστάσεων

Σχεδίαση Αποθηκών Δεδομένων Αστεροειδές Σχήμα (Star Schema) αποτελείται από έναν πίνακα γεγονότων με έναν πίνακα για κάθε διάσταση. Σχήματα Χιονονιφάδας (Snowflakes Schema) αποτελεί παραλλαγή του αστεροειδούς σχήματος στο οποίο η οργάνωση των πινάκων διαστάσεων ενός αστερειοδούς σχήματος ακολουθεί μια ιεραρχία με κανονικοποίηση. Αστερισμοί Γεγονότων (Fact constellations) αποτελούνται από: Πολλαπλούς Πίνακες Γεγονότων που μοιράζονται τους Πίνακες Διαστάσεων, μπορούμε να τους δούμε ως συλλογή από αστέρια και άρα ως Αστερισμό Γεγονότων ή Σχήμα Γαλαξία (galaxy schema)

Star Schema

Snowflakes Schema

Fact Constellation Schema

Τεχνολογικές λύσεις DW & OLAP Αποθήκες Δεδομένων: Σχεσιακά και επεκτεταμένα σχεσιακά Συστήματα Διαχείρισης Βάσεων Δεδομένων (Database Management Systems - DBMS) OLAP: Relational OLAP (ROLAP) Multidimensional OLAP (MOLAP)

ΣΔΒΔ & Αποθήκες Δεδομένων Εξειδικευμένες τεχνικές δεικτοδότησης (indexing) Εξειδικευμένες τεχνικές συνένωσης (join) Διαμοίραση των δεδομένων (data partitioning) και χρήση παράλληλων τεχνικών Εξειδικευμένες τεχνικές αποθήκευσης και επεξεργασίας ερωτήσεων για συναθροίσεις δεδομένων (aggregates) Επεκτάσεις της SQL και της επεξεργασίας των σχετικών ερωτήσεων

ROLAP Βασική ιδέα: χρήση ενός Σχεσιακών Συστημάτων Διαχείρισης Βάσεων Δεδομένων (RDBMS) ως μέσου αποθήκευσης και επερώτησης (με όλα τα σχετικά πλεονεκτήματα) Επιπλέον λειτουργικότητα των client εργαλείων: Δυνατότητα επαναχρησιμοποίησης συναθροίσεων Χρήση multi statement SQL Βελτιστοποίηση των ερωτήσεων ανά RDBMS Αργά ως συστήματα (μέχρι στιγμής τουλάχιστον) Δυνατότητα υποβολής οποιασδήποτε ερώτησης Εύκολη χρήση από τους administrators που γνώριζαν τη σχεσιακή τεχνολογία

MOLAP Η αποθήκευση γίνεται σε πολυδιάστατους πίνακες (multi-dimensional arrays) «πίνακες» με την έννοια της άλγεβρας / γλωσσών προγραμματισμού /..., και όχι του σχεσιακού μοντέλου Χρήση τεχνικών συμπιέσεως (οι πίνακες είναι αραιοί σε βαθμό ως και 80%) Στις αρχές του 2002 είχαν το 98% της αγοράς στο πεδίο των client tools + Πολύ γρήγοροι υπολογισμοί των λειτουργιών OLAP - Κανονικά απαιτούν τον προϋπολογισμό των απαραίτητων συναθροίσεων

Παράδειγμα: Δημιουργία 2D-Υπερκύβου

Παράδειγμα: Δημιουργία 3D-Υπερκύβου

Αναπαράσταση 3D-Υπερκύβου

Αναπαράσταση 3D-Υπερκύβου Υπόθεση: κάθε διάσταση έχει 10 τιμές 10 x 10 x 10 κύβο 3D 1000 εγγραφές στον σχεσιακό πίνακα

Προσθέτοντας μια διάσταση

Ακαταλληλότητα Πολυδιάστατης Ανάλυσης

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Aggregation (Consolidate ή Roll-up) - Αθροίζοντας Δεδομένα Η άθροιση περιλαμβάνει τον υπολογισμό μίας συνολικής τιμής για μία θέση στην ιεραρχία μίας διάστασης δεδομένων. Για παράδειγμα οι πωλήσεις των τοπικών γραφείων με τη roll-up παράγουν τις συνολικές πωλήσεις ανά πόλη και αυτές με τη σειρά τους με ένα ακόμα roll-up παράγουν τις πωλήσεις ανά περιοχή.

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Παράδειγμα Roll-up

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Roll down (or Drill down, or Drill through) ROLL-DOWN: Ο χρήστης περνά από ενά ανώτερο επίπεδο μίας διάστασης που έχει συγκεντρωτικά δεδομένα σε ένα χαμηλώτερο που έχει πιο λεπτομερή. Πρόκειται για την αντίστροφη πράξη του roll-up. Για παράδειγμα κατά το drill down αρχίζοντας από τις πωλήσεις ανά περιοχή εμφανίζονται οι πωλήσεις ανά πόλη και μετά οι πωλήσεις ανά γραφείο.

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Παράδειγμα Roll down

Οριζόντιος και Κάθετος Τεμαχισμός - Slicing and Dicing Μετρήσεις - Συναθροίσεις στους Υπερκύβους Οριζόντιος και Κάθετος Τεμαχισμός - Slicing and Dicing Slice: επιλογή δεδομένων που ικανοποιούν μία συνθήκη ορισμένη σε μία συγκεκριμένη διάσταση Dice: σβήσιμο μιας ολόκληρης διάστασης

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Παράδειγμα Slice & Dice Διαγραφή Store2 καθώς και των κατηγοριών προϊόντων Clothing, Cosmetics

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Pivot (Rotate): Η αλλαγή της διάταξης των διαστάσεων του υπερκύβου.

Μετρήσεις - Συναθροίσεις στους Υπερκύβους Παράδειγμα Pivot

Πράξεις στους Υπερκύβους

Βιβλιογραφία Kenneth C. Laudon, Jane P. Laudon, “Πληροφοριακά Συστήματα Διοίκησης – Διοίκηση της ψηφιακής επιχείρησης”, 6η έκδοση, Prentice Hall, 2005. Michael Brydon, “Building Business Systems”, mjbrydon@sfu.ca, 2001. R. Elmasri, S.B. Navathe, Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων, Τόμος Β’, 3η έκδοση, μετάφραση – επιμέλεια Μ. Χατζόπουλος, Δίαυλος, 2001. Β. Βουτσινάς, Θέματα Επιχειρηματικής Νοημοσύνης – Θεωρητική Θεμελίωση & Εφαρμογές, εκδόσεις Κωσταράκη, 2003. Kenan Technologies, “An Introduction to Multidimensional Database Technology” 1993-1995 Kenan Systems Corporation. Immon W.H. “Building the Data Warehouse”, John Willey, 1992. S. Chaudhuri, U. Dayal, “An Overview of Data Warehousing and OLAP Technology”. Nigel Pendse, “The OLAP Report – What is OLAP?”, http://www.olapcouncil.org Nigel Pendse, “The OLAP Report – OLAP Architecture”, http://www.olapcouncil.org Ευαγγελία Πιτουρά, “Εξόρυξη Δεδομένων” (διαλέξεις) http://www.cs.uoi.gr/ pitoura/courses/dm/index.html