Data Warehouse Refreshment via ETL tools

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Χαρακτηριστικά Απλό & Φιλικό περιβάλλον εργασίας
Advertisements

Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων
Data Warehousing στον SQL Server 2005
Εισαγωγή στις Αποθήκες Δεδομένων
δφσδφ ΦΥΣΙΚΟ ΕΠΙΠΕΔΟ ΑΠΟΘΗΚΩΝ ΔΕΔΟΜΕΝΩΝ: ΜΕΡΟΣ Α’ 4/6/2017
ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ (Data Warehouses)
Πληροφοριακά Συστήματα και Βάσεις Δεδομένων
JAVA και SQL Δαμιανός Χατζηαντωνίου
Β2Β eBusiness Παρουσίαση στα ΤΕΙ Δυτικής Μακεδονίας Παράρτημα Καστοριάς Αθ. Στουρνάρας Διευθυντής Υπηρεσιών
Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων.
Entity-Relationship Παραδείγματα Πληροφοριακά Συστήματα και Βάσεις Δεδομένων Φροντιστήριο 1 Δαμιανός Χατζηαντωνίου.
Microsoft ASP.NET Browser Web 2.0 CSS JavaScript Server Client Clients Κατσιώτης Ιωάννης Οικονομικό Πανεπιστήμιο Αθηνών
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Επεξεργασία και βελτιστοποίηση ερωτήσεων Πάνος Βασιλειάδης Σεπτέμβρης 2005.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Π.Μ.Σ. ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
Εξόρυξη Δεδομένων: Ακ. Έτος Αποθήκες Δεδομένων1 Εισαγωγή στις Αποθήκες Δεδομένων Διαφάνειες βασισμένες σε σχετικές διαφάνειες του Πάνου Βασιλειάδη.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Distance Functions on Hierarchies Eftychia Baikousi.
Εξόρυξη Δεδομένων: Ακ. Έτος Αποθήκες Δεδομένων1 Εισαγωγή στις Αποθήκες Δεδομένων Διαφάνειες βασισμένες σε σχετικές διαφάνειες του Πάνου Βασιλειάδη.
Web Site Traffic Analysis Tools Θάνος Κουκουλής M.I.S. Μάιος 2002.
Προηγμένες υπηρεσίες προς τους Πολίτες Σταύρος Αλεξάκης Public Sector Lead– Microsoft Hellas.
Πανεπιστήμιο Κύπρου – Τμήμα Πληροφορικής ΕΠΛ446-Προχωρημένες Βάσεις Δεδομένων Ζωγραφάκης Ιωάννης.
ΕΠΛ 342 – Βάσεις Δεδομένων Εργαστήριο 4 ο SQL - Queries Ιωάννα Συρίμη
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ “Preparing Europe for Global Competition” THE NETWORK : The Patent and Trademark Offices.
Βελτιστοποίηση Συστημάτων Άμεσης Αναλυτικής Επεξεργασίας: Εννοιολογική Μοντελοποίηση και Τεχνικές Επεξεργασίας Επερωτήσεων Διδακτορική Διατριβή Άρης Ν.
ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΣΚΟΠΟΣ, ΑΝΑΛΥΣΗ, ΧΡΗΣΙΜΟΤΗΤΑ
Ειδικά Θέματα Βάσεων Δεδομένων
Demographics Δημογραφικά χαρακτηριστικά. Demographics Δημογραφικά Χαρακτηριστικά Population characteristics Χαρακτηριστικά Πληθυσμού Population Growth.
ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΑΡΚΕΤΙΝΓΚ Ενότητα 13 : ΠΡΟΪΟΝ IV Θεοφανίδης Φαίδων Σχολή Κοινωνικών Επιστημών Τμήμα Διοίκησης Επιχειρήσεων.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων - Θ Ενότητα 10: (Spatial) Data Warehouse. (Spatial) Data Mining Δήμος Πανταζής Dr, MSc, Αγρ.Τοπ.Μηχ.
ΑΣΦΑΛΕΙΑ ΑΣΘΕΝΩΝ (PATIENT SAFETY) ωφελέειν ή μη βλάπτειν ωφελέειν = θεραπευτική παρέμβαση μη βλάπτειν = ασφάλεια ασθενών.
2 Μικρές Επιχειρήσεις Μεσαίες Επιχειρήσεις Μεγάλες Επιχειρήσεις Καταναλωτές Κατηγορία Πελατών Ολοκληρωμένες Λύσεις Servers Γενικής Χρήσης Αριθμός Χρηστών.
Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ Πρόγραμμα Μεταπτυχιακών Σπουδών "Λογιστική και Ελεγκτική" ΛΟΓΙΣΤΙΚΗ ΚΟΣΤΟΥΣ Εισαγωγική.
1 Αποτελέσματα κλάδου – ‘Α τρίμηνο 2015 Το α’ τρίμηνο του 2015 ο κλάδος παρουσιάζει τάσεις σταθεροποίησης στα έσοδα του ενώ οι επενδύσεις αυξάνονται με.
2-1 Αγορές και Στρατηγικές Ταίριασμα αναγκών και ωφελειών από το προϊόν Καθορισμός και ανάλυση προϊόντων - αγορών Περιγραφή και Ανάλυση των τελικών χρηστών.
Guide to Business Planning The Value Chain © Guide to Business Planning A principal use of value chain analysis is to identify a strategy mismatch between.
Guide to Business Planning The Value System © Guide to Business Planning The “value system” is also referred to as the “industry value chain”. In contrast.
Κύκλος Πληροφορίας Δεδομένα: Δεδομένα Πληροφορία Γνώση Παραγωγή
3nd Training Workshop 12th of October 8:30 -16:30
Βασικές Έννοιες της Πληροφορικής
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Περιγραφή Ενότητας Σκοπός του μαθήματος αυτού και κεντρικός σκοπός του μαθήματος των Βάσεων Δεδομένων Ι είναι η παρουσίαση των απαραίτητων εννοιών ώστε.
ΤΕΧΝΙΚΕΣ Αντικειμενοστραφουσ προγραμματισμου
Επανασχεδιασμός του Ευρωπαϊκού Συστήματος Ενδοκοινοτικών Συναλλαγών (Revised Intrastat) Η συγκεκριμένη παρουσίαση συνοψίζει την ανάλυση των αποτελεσμάτων.
Εισαγωγή στο λογισμικό & αρχική περιήγηση
Project για την κολύμβηση για όλες τις ηλικίες και κατηγορίες ατόμων
ΧΡΟΝΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΩΝ
ΧΠΕ - ΟΙ ΠΟΡΟΙ ΣΤΟ MS PROJECT
Μέτρηση αντικτύπου του έργου Αποτελέσματα Ερευνών
Διοίκηση Απόδοσης Επιχειρηματικών Διαδικασιών
Chemicals: The first link in many value chains ENΕΡΓΟUMΕ ΜΕ TO NOMO
Βάσεις Δεδομένων ΙΙ Triggers
Time Value of Money 5/7/2018 ΧΡΟΝΙΚΗ ΑΞΙΑ ΧΡΗΜΑΤΟΣ Dr. Fred Barbee.
ESA 2010 vs ESA 95 Τμήμα Εσωτερικής Οικονομίας Τμήμα Οικονομετρικών Προβλέψεων (Γιάννης Παπαδογεώργης και Ζαχαρίας Μπραγουδάκης) Διεύθυνση Οικονομικής.
Σήμερα στην πόλη του Δαβίδ κι αυτός είναι ο Χριστός ο Κύριος
Διαθεματικό Ενιαίο Πλαίσιο Προγραμμάτων Σπουδών (ΔΕΠΠΣ) & Αναλυτικά Προγράμματα Σπουδών (ΑΠΣ) Τρύφων Μαυροπαλιάς.
Αρχες διοικησησ & διαχειρισησ εργων
Ανάλυση Γεωργικού Οικογενειακού Εισήματος (ΓΟΕ)
Εργαστήριο Διαχείρισης Έργων (MS Project)
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων
ΔΙΟΙΚΗΣΗ & ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΩΝ
Ανακάλυψη Γνώσης (Knowledge Discovery)
ΟΙ ΚΙΝΗΤΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ ΚΑΙ Η ΚΙΝΗΤΗ ΕΥΡΥΖΩΝΙΚΟΤΗΤΑ
OLTP System Online Transaction Processing (Operational System)
ΕΠΙΜΕΡΙΣΜΟΣ ΚΟΣΤΟΥΣ ΒΟΗΘΗΤΙΚΩΝ ΤΜΗΜΑΤΩΝ
ΟΜΟΙΟΠΤΩΤΟΙ ΟΝΟΜΑΤΙΚΟΙ ΠΡΟΣΔΙΟΡΙΣΜΟΙ
Εισαγωγή στην Open PM2 Κλεάνθης Συρακούλης
Μεταβλητή Κοστολόγηση: Εργαλείο Διοίκησης
Κόστους –Όγκου – Κέρδους
Μεταγράφημα παρουσίασης:

Data Warehouse Refreshment via ETL tools Panos Vassiliadis

Data Warehouse Environment

Extract-Transform-Load (ETL)

Importance ETL market has a steady increase rate of approximately 20.1% each year, while it becomes a $667 million market in 2001 (Giga’02) ETL and Data Cleaning tools cost 30% of effort and expenses in the budget of the DW (Enterprise Information Portals) 55% of the total costs of DW runtime (Inmon) 80% of the development time in a DW project (Demarest) ETL tools will not be replaced by EAI (Enterprise Application Integration) tools in near future (Giga’02) ETL tools will be used in other areas beyond DWs (Gartner’04)

ETL workflows DSA Sources DW DS.PS1.PKEY, LOOKUP_PS.SKEY, SUPPKEY DS.PS_NEW1 DS.PS_NEW1.PKEY, DS.PS_OLD1.PKEY SUPPKEY=1 COST DATE DS.PS1 DIFF1 SK1 $2€ A2EDate DS.PS_OLD1 Add_SPK1 U rejected rejected rejected Log Log Log DS.PS_NEW2 DS.PS_NEW2.PKEY, DS.PS_OLD2.PKEY DS.PS2.PKEY, LOOKUP_PS.SKEY, SUPPKEY SUPPKEY=2 COST DATE=SYSDATE QTY>0 DS.PS2 DIFF2 Add_SPK2 SK2 NotNULL AddDate CheckQTY DS.PS_OLD2 rejected rejected Log Log DSA PKEY, DAY MIN(COST) S1_PARTSUPP DW.PARTSUPP V1 FTP1 Aggregate1 PKEY, MONTH AVG(COST) DW.PARTSUPP.DATE, DAY S2_PARTSUPP TIME V2 FTP2  Aggregate2 Sources DW

Value Incompatibility (example of surrogate keys) ID Descr 10 Coke 20 Pepsi DW.R ID Descr ?? R1 ? ID Descr 10 Pepsi 20 Fanta R2

Data mappings ? DW EMP ID Name DoB Salary Total Income DeptID 110 Kostas 1/1/72 1500 1200 132 … Source 1: Personnel (Cobol) ? DW.EMP EMP INCOME Source 2: Accounting (DB2) EMP ID IL_ID Amount 110 10 1500 30 300 EMP ID Name Age 110 Kostas 30 120 Mitsos 48 130 Roula 29 EMP IL_ID Descr 10 Salary 20 Bonus 1 30 Tax ... DW Income Lookup

MS SSIS SQL Server Integration Services

Talend Open Studio for Data Integration www. talend. com/download_form Talend Open Studio for Data Integration www.talend.com/download_form.php?cont=gen&src=HomePage

Pentaho’s Kettle http://kettle.pentaho.com/

OLAP & data cubes Panos Vassiliadis

OLAP Αφορά την ανάλυση κάποιων μετρήσιμων μεγεθών (μέτρων) πωλήσεις, απόθεμα, κέρδος,... Διαστάσεις: παράμετροι που καθορίζουν το περιβάλλον (context) των μέτρων ημερομηνία, προϊόν, τοποθεσία, πωλητής, … Κύβοι: συνδυασμοί διαστάσεων που καθορίζουν κάποια μέτρα Ο κύβος καθορίζει ένα πολυδιάστατο χώρο διαστάσεων, με τα μέτρα να είναι σημεία του χώρου αυτού

Κύβοι για OLAP REGION N S W PRODUCT Juice Cola Soap MONTH Jan 10 13

Κύβοι για OLAP

Βασικές Έννοιες OLAP Τα δεδομένα θεωρούνται αποθηκευμένα σε ένα πολυδιάστατο πίνακα (multi-dimensional array), ο οποίος αποκαλείται και κύβος ή υπερκύβος (Cube και HyperCube αντίστοιχα). Ο κύβος είναι μια ομάδα από κελιά δεδομένων (data cells). Κάθε κελί χαρακτηρίζεται μονοσήμαντα από τις αντίστοιχες τιμές των διαστάσεων (dimensions) του κύβου. Τα περιεχόμενα του κελιού ονομάζονται μέτρα (measures) και αναπαριστούν τις αποτιμώμενες αξίες του πραγματικού κόσμου.

Ιεραρχίες επιπέδων για OLAP Μια διάσταση μοντελοποιεί όλους τους τρόπους με τους οποίους τα δεδομένα μπορούν να συναθροιστούν σε σχέση με μια συγκεκριμένη παράμετρο του περιεχομένου τους. Ημερομηνία, Προϊόν, Τοποθεσία, Πωλητής, … Κάθε διάσταση έχει μια σχετική ιεραρχία επιπέδων συνάθροισης των δεδομένων (hierarchy of levels). Αυτό σημαίνει, ότι η διάσταση μπορεί να θεωρηθεί από πολλά επίπεδα αδρομέρειας. Ημερομηνία: μέρα, εβδομάδα, μήνας, χρόνος, …

Ιεραρχίες Επιπέδων Ιεραρχίες Επιπέδων: κάθε διάσταση οργανώνεται σε διαφορετικά επίπεδα αδρομέρειας Ο χρήστης μπορεί να πλοηγηθεί από το ένα επίπεδο στο άλλο, δημιουργώντας νέους κύβους κάθε φορά Αδρομέρεια: το αντίθετο της λεπτομέρειας -- ο σωστός όρος είναι αδρομέρεια...

Κύβοι & ιεραρχίες διαστάσεων για OLAP Month Region Product Sales volume Διαστάσεις: Product, Region, Date Ιεραρχίες διαστάσεων: Industry Country Year Category Region Quarter Product City Month Week Store Day

Εργασίες που κάνει ο χρήστης Συνήθεις πράξεις που κάνουμε σε κύβους Συναθροίσεις (total sales, percent-to-total) Συγκρίσεις (budget vs. expense) Ταξινόμηση - κατάταξη (top 10) Πρόσβαση σε πιο αναλυτική πληροφορία Οπτικοποίηση με διαφορετικούς τρόπους

Roll up Sales volume Sales volume Industry Category Product Country Region City Store Year Quarter Month Week Day Sales volume Electronics Toys Clothing Cosmetics Q1 $5,2 $1,9 $2,3 $1,1 Q2 $8,9 $0,75 $4,6 $1,5 Products Store1 Store2 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Sales volume Electronics Toys Clothing Cosmetics Year 1996 $14,1 $2,65 $6,9 $2,6 Products Store1 Store2 $12,8 $1,8 $7,2 $1,6 Χρόνος: Επίπεδο Quarter Χρόνος: Επίπεδο Year SUM(Sales volumes)