OLTP System Online Transaction Processing (Operational System) OLAP System Online Analytical Processing (Data Warehouse) Προέλευση Δεδομένων Επιχειρησιακά Δεδομένα; OLTP συστήματα συλλέγουν δεδομένα. Συγκεντρωτικά Δεδομένα; OLAP συστήματα αποθηκεύουν δεδομένα από πολλά OLTP συστήματα. Χρησιμότητα Δεδομένων Η διεκπεραίωση καθημερινών επιχειρησιακών απαιτήσεων. Η υποστήριξη λήψης αποφάσεων σε στρατηγικό επίπεδο Είδος Δεδομένων Υποσύνολο του συνολικού όγκου δεδομένων Πολυδιάστατες όψεις όλου του συνόλου των δεδομένων Καταχωρήσεις & Αλλαγές δεδομένων Συχνές, μικρές και γρήγορες καταχωρήσεις από τους χρήστες Περιοδικές καταχωρήσεις μεγάλου όγκου δεδομένων Ερωτήματα Απλά, καθημερινά ερωτήματα μικρού φόρτου. Περίπλοκα ερωτήματα με απαιτητικούς υπολογισμούς Απαιτήσεις Αποθηκευτικού Χώρου Σχετικά μικρό, τα δεδομένα αρχειοθετούνται. Τεράστιος Αποθηκευτικός Χώρος λόγω της ιστορικότητας και του όγκου των υπολογισμών Σχήμα Βάσης Κανονικοποιημένες βάσεις με πολλά τραπέζια. Μη Κανονικοποιημένες βάσεις, Σχήμα αστεριού ή νιφάδας. Backup and Recovery Τακτικά Backup δεδομένων, σοβαρές συνέπιες σε περίπτωση απώλειας δεδομένων Δεν απαιτείται Backup, συνέπειες μόνο στη λήψη αποφάσεων. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Metadata Repository Data Marts ETL ETL 4o Επίπεδο: Presentation Layer ETL 3o Επίπεδο: Storage Layer 2o Επίπεδο: Staging Layer 1o Επίπεδο: Landing Layer Sources (Πηγές) – OLTP Συστήματα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Αρχιτεκτονικές Μονάδες 0. Sources (Πηγές): Κάθε πηγή από την οποία η Αποθήκη Δεδομένων αντλεί δεδομένα, OLTP Συστήματα. 1. Data Landing Layer: 1:1 Αντίγραφα των Πηγών για backup. 2. Data Staging Layer: Μια ΣΒΔ στην οποία εκτελούνται ο καθαρισμός/εμπλουτισμός, οι μετασχηματισμοί και η ομογενοποίηση των δεδομένων. 3. Storage Layer: Τα ομογενοποιημένα και διασυνδεδεμένα δεδομένα αποθηκεύονται σε σχεσιακό σχήμα. 4. Presentation Layer: Τα δεδομένα αποθηκεύονται σε σχήμα αστεριού για γρήγορη ανάγνωση. Βάση Μετα-Δεδομένων (Metadata Repository): Το υποσύστημα αποθήκευσης πληροφορίας σχετικά με τη δομή και λειτουργία όλου του συστήματος. 5. Data Marts: Υποδιαιρέσεις των συνολικών δεδομένων με συγκεκριμένο περιεχόμενο. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Το Amazon Redshift είναι μια γρήγορη, καλά διαχειριζόμενη αποθήκη δεδομένων που αναλύει τα δεδομένα χρησιμοποιώντας τα υπάρχοντα εργαλεία SQL και BI. Είναι ένα απλό και οικονομικό εργαλείο που επιτρέπει την εκτέλεση πολύπλοκων αναλυτικών ερωτημάτων χρησιμοποιώντας έξυπνα χαρακτηριστικά βελτιστοποίησης ερωτημάτων. Χειρίζεται το φόρτο εργασίας αναλυτικών δεδομένων που αφορά μεγάλα σύνολα δεδομένων χρησιμοποιώντας την αποθήκευση σε στήλες σε δίσκους υψηλής απόδοσης και μαζικά παράλληλες επεξεργασίες. Ένα πολύ δυνατό χαρακτηριστικό είναι το Redshift φάσμα, το οποίο επιτρέπει στο χρήστη να εκτελεί ερωτήματα ενάντια στα μη δομημένα δεδομένα απευθείας στο Amazon S3. Εξαλείφει την ανάγκη φόρτωσης και μετασχηματισμού. Αυξάνει αυτόματα την ικανότητα υπολογισμού ερωτήματος ανάλογα με τα δεδομένα. Εξ ου και τα ερωτήματα τρέχουν γρήγορα. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Το Teradata DWH είναι ένα σύστημα διαχείρισης σχεσιακών βάσεων δεδομένων που διατίθεται στο εμπόριο από την οργάνωση Teradata. Διαθέτει δύο τμήματα, συγκεκριμένα, αναλύσεις δεδομένων και εφαρμογές μάρκετινγκ. Το Teradata DWH εργάζεται για την έννοια της παράλληλης επεξεργασίας. Επιτρέπει στους χρήστες να αναλύουν δεδομένα με έναν απλό αλλά αποτελεσματικό τρόπο. Ένα ενδιαφέρον χαρακτηριστικό αυτής της αποθήκης δεδομένων είναι ο διαχωρισμός των δεδομένων σε ζεστά και κρύα δεδομένα. Εδώ τα κρύα δεδομένα αναφέρονται σε λιγότερο συχνά χρησιμοποιούμενα δεδομένα. Είναι ένα εργαλείο στην αγορά αυτές τις μέρες Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Προηγμένες αναλύσεις και βελτιωμένα σύνολα δεδομένων Το Oracle 12c αποτελεί πρότυπο όσον αφορά την επεκτασιμότητα, την υψηλή απόδοση και τη βελτιστοποίηση της αποθήκευσης δεδομένων. Στόχος είναι η αύξηση της λειτουργικής αποτελεσματικότητας και η βελτιστοποίηση της εμπειρίας των τελικών χρηστών. Τα βασικά χαρακτηριστικά του μπορούν να ταξινομηθούν ως εξής: Προηγμένες αναλύσεις και βελτιωμένα σύνολα δεδομένων Αυξημένη καινοτομία και γνώση συγκεκριμένης βιομηχανίας Μέγιστη μεγάλη τιμή δεδομένων Κερδοφορία Εξαιρετική απόδοση & ενοποίηση Επιπλέον, το Oracle 12c συνοδεύεται από προηγμένες λειτουργίες όπως η αποθήκευση Flash και το HCC (Hybrid Columnar Compression) που επιτρέπει τη συμπίεση δεδομένων υψηλού επιπέδου. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Το κέντρο δύναμης Informatica αποτελείται από τρία βασικά στοιχεία: Ιδρύθηκε το 1993, η Informatica διαθέτει ένα πολύ καλό χαρτοφυλάκιο στην ενσωμάτωση δεδομένων, ETL, ενσωμάτωση δεδομένων B2B, εικονικοποίηση της διαχείρισης των δεδομένων και του κύκλου ζωής των πληροφοριών. Το κέντρο δύναμης Informatica αποτελείται από τρία βασικά στοιχεία: 1. Εργαλεία πελάτη: εγκατεστημένα σε μηχανές ανάπτυξης. 2. Αποθηκευτικό κέντρο Power Center: θέση αποθήκευσης μεταδεδομένων για μια εφαρμογή 3. Διακομιστή Power Center: διακομιστής για την εκτέλεση εκτελέσεων δεδομένων Με την αύξηση της πελατειακής βάσης, η Informatica προσπαθεί συνεχώς να αξιοποιεί τις λύσεις ενσωμάτωσης δεδομένων της. Αυτό το εργαλείο έχει ενσωματωμένα ισχυρά πρότυπα χαρτογράφησης για να βοηθήσει στη διαχείριση των δεδομένων με αποτελεσματικό τρόπο. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Το IBM Infosphere είναι ένα εξαιρετικό εργαλείο ETL που χρησιμοποιεί γραφικές σημειώσεις για την εκτέλεση δραστηριοτήτων ενσωμάτωσης δεδομένων. Παρέχει όλα τα βασικά δομικά στοιχεία της ολοκλήρωσης δεδομένων και της αποθήκευσης δεδομένων μαζί με τη διαχείριση δεδομένων και τη διακυβέρνηση. Η ίδρυση αυτής της αρχιτεκτονικής αποθήκευσης είναι η Hybrid Data Warehouse (HDW) και η Logical Data Warehouse (Logical Data Warehouse). Πολλαπλές τεχνολογίες αποθήκευσης δεδομένων περιλαμβάνονται σε μια υβριδική αποθήκη δεδομένων, προκειμένου να διασφαλιστεί ότι το σωστό φόρτο εργασίας γίνεται στη σωστή πλατφόρμα. Βοηθά στην ενεργό λήψη αποφάσεων και στην εξορθολογισμό των διαδικασιών. Μειώνει το κόστος και αποτελεί ένα πολύ αποτελεσματικό εργαλείο από την άποψη της ευελιξίας των επιχειρήσεων. Αυτό το εργαλείο βοηθά στην παροχή εντατικών έργων παρέχοντας αξιοπιστία, κλιμάκωση, βελτιωμένη απόδοση. Εξασφαλίζει την παροχή αξιόπιστων πληροφοριών στους τελικούς χρήστες. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Η εταιρία Ab Initio κατέχει ειδικότητα στην επεξεργασία και ολοκλήρωση δεδομένων μεγάλου όγκου. Ιδρύθηκε το 1995, η Ab Initio παρέχει φιλικά προς το χρήστη προϊόντα αποθήκευσης δεδομένων για εφαρμογές παράλληλης επεξεργασίας δεδομένων. Στόχος είναι να βοηθήσει τους οργανισμούς να εκτελούν δραστηριότητες ανάλυσης δεδομένων τέταρτης γενιάς, χειρισμούς δεδομένων, επεξεργασία παρτίδων, ποσοτική και ποιοτική επεξεργασία δεδομένων. Πρόκειται για ένα λογισμικό βασισμένο σε GUI που στοχεύει στη χαλάρωση του εκχυλίσματος, μετασχηματισμού και φόρτωσης εργασιών. Το λογισμικό Ab Initio είναι προϊόν με άδεια χρήσης καθώς η εταιρεία προτιμά να διατηρεί υψηλό επίπεδο προστασίας της ιδιωτικής ζωής όσον αφορά τα προϊόντα της. Οι άνθρωποι που εργάζονται σε αυτό το προϊόν λειτουργούν βάσει συμφωνίας μη αποκάλυψης, η οποία ονομάζεται NDA (Συμφωνία μη γνωστοποίησης). Αυτό τους εμποδίζει να αποκαλύψουν δημοσίως τις τεχνικές πληροφορίες του Ab Initio Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Μια εταιρεία λογισμικού με έδρα τις ΗΠΑ Cloudera παρέχει υπηρεσίες και λογισμικό που βασίζονται στην Apache-Hadoop. Η Cloudera ανακοινώθηκε για διάθεση το 2009, συμπεριλαμβανομένου του Apache Hadoop σε συνεργασία. Το CDH (Cloudera Distribution συμπεριλαμβανομένου του Apache Hadoop) είναι μια επιχειρηματική έκδοση που έχει τρεις εκδόσεις: Βασικός, Flex & Data hub. Μπορεί να τηλεφορτωθεί δωρεάν από τον ιστότοπο της Cloudera. Ο περιορισμός με την δωρεάν έκδοση είναι ότι δεν συνοδεύεται από τεχνική υποστήριξη. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Ιδρύθηκε το 2001, η MarkLogic είναι μια εταιρία λογισμικού που προσφέρει πλατφόρμα βάσης δεδομένων NoSQL. Η MarkLogic είχε μια μεγάλη μετατόπιση στην αγορά αποθήκευσης δεδομένων το 2014, όταν συμπεριλήφθηκε στο μαγικό τεταρτημόριο της Gartner στο DWH. Έφερε μια επανάσταση στην αγορά αποθήκευσης δεδομένων, καθώς άλλοι οργανισμοί ενδιαφέρονται επίσης για τη μορφή επεξεργασίας και αποθήκευσης δεδομένων NoSQL. Θεωρείται ως νέα πραγματικότητα στην αρχιτεκτονική του κέντρου δεδομένων και αναμένεται να μειώσει την πολυπλοκότητα των δεδομένων. Το 2013, η MarkLogic εισήγαγε τεχνολογίες βασισμένες στη σημασιολογία που αντιπροσωπεύουν το επόμενο επίπεδο καινοτομίας όσον αφορά τις αυξανόμενες ανάγκες τεχνολογίας. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων
Το Talend είναι ένα εργαλείο ανοιχτού κώδικα για την αποθήκευση δεδομένων που ανήκει στην οργάνωση Talend. Είναι ένα πολύ ισχυρό εργαλείο ενοποίησης δεδομένων και εργαλείων ETL. Τα προηγμένα χαρακτηριστικά του καθιστούν εύκολη τη χρήση που έχει προσελκύσει πολλούς χρήστες. Το Talend παρέχει προοδευτικές επιχειρηματικές λύσεις ενώ διαθέτει συγκριτικά χαμηλότερο κόστος. Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 Αποθήκες Δεδομένων