Εναρκτήρια συνάντηση Στην πρώτη συνάντηση γίνεται παρουσίαση του μαθήματος και μία σύντομη και περιεκτική συζήτηση κάποιων βασικών εννοιών του. Γίνεται.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Επιχειρηματική ηθική Υπέρβαση της ανθρώπινης ομορφίας. Προς τη θέωση…
Advertisements

Τέλος Ενότητας.
Βασικές αρχές ευρετηρίασης
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 1: Εισαγωγή (α μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης Το περιεχόμενο.
Η ανοσοαποτύπωση ως επιβεβαιωτική μέθοδος
Τριφασικά συμμετρικά δίκτυα σε συνδεσμολογία Υ (1/2)
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 4: Αρχιτεκτονική της Ευρετηρίασης (β μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης.
Αυτοματοποιημένη ευρετηρίαση
Διαμόρφωση πεδίων Περιγραφικά πεδία Διαχειριστικά πεδία Δομικά πεδία.
Έλεγχος Ροής με την Εντολή Επανάληψης FOR 1/9
Καμπυλότητα Φακού P c
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 1: Εισαγωγή σε θέματα διαχείρισης γνώσης, εξόρυξης δεδομένων, αποθηκών δεδομένων και.
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 5: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Correlation Χ. Σκουρλάς Ανοικτά.
Τεχνολογία οφθαλμικών φακών Ι (Ε) Ενότητα 5: Έγχρωμοι φακοί Θεμιστοκλής Γιαλελής, Οπτικός, MSc, PhD candidate ΕΔΙΠ του τμήματος Οπτικής και Οπτομετρίας.
Συμπλήρωση Προτύπου Διδακτικού Σχεδιασμού
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων
Κανόνες Ασφαλείας Εργοταξίων
ΟΙΚΟΝΟΜΙΚΑ ΤΟΥ ΕΛΕΓΧΟΥ ΤΗΣ ΡΥΠΑΝΣΗΣ
Επικοινωνιακός Προγραμματισμός Ι
Εκτίμηση Φυσικής Κατάστασης
Άλλες μορφές νευρώσεων
Διαχείριση παραγωγής εντύπων 1/2
Επικοινωνιακός Προγραμματισμός Ι
Άσκηση 8 (1 από 3) Προβολές 1. Να επιλέξετε ένα θέμα βασισμένο σε κάποια παράγραφο / υποπαράγραφο του κεφαλαίου 6 των σημειώσεων και να κάνετε μια εργασία.
Υπολογιστική Γεωμετρία και Εφαρμογές στις ΒΧΔ
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Correlations μεταξύ attributes ενός data set.
Η ανάγκη χρήσης μεταβλητών
Βασικά δεδομένα Το σύστημα υγείας δεν αποτελεί απλά άθροισμα επιμέρους μερών. Τα επιμέρους στοιχεία του συστήματος βρίσκονται σε συνεχή αλληλεξάρτηση.
Ενότητα 10: Καμπύλες κόστους
Βάρος Το απόλυτο βάρος του αντικειμένου, που διαχειρίζεται το άτομο είναι σημαντικό. Οι παράγοντες, που καθορίζουν την ροπή που πρέπει να υπερνικηθεί.
Άρθρο Συγγραφείς: Marcus Plescia, MD, MPH, Martha Groblewski, PhD, RD, LDN. Τίτλος: A Community Oriented Primary care Demonstration Project Refining.
Ταυτότητα και περίγραμμα μαθήματος
Παραδείγματα προσβάσιμων προτύπων
ΠΡΟΤΥΠΟ ΕΛΟΤ EN ISO 3251 Ζύγιση μάζας υγρού μελανιού (m1 g)
Ενότητα 13 Αξιολόγηση μαθήματος και διδάσκοντος από την εφαρμογή της Μονάδας Ολικής Ποιότητας (ΜΟΔΙΠ) του ΤΕΙ Αθήνας Αξιολόγηση του μαθήματος Αξιολόγηση.
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων
Πληροφοριακή Συμπεριφορά
Περιγραφή Ενότητας Σκοπός του μαθήματος είναι η παρουσίαση δηλώσεων SQL που περιλαμβάνουν EXIST, ANY, ALL. Χ. Σκουρλάς.
Άσκηση 9 (1 από 2) Ανακαλύψτε στο χάρτη σας μερικά χαρτογραφικά αντικείμενα που να ανήκουν στις παρακάτω κατηγορίες : φυσικά, τεχνητές κατασκευές, αφηρημένα.
Τοπολογικές σχέσεις 1/3 Βρείτε και περιγράψτε τις τοπολογικές σχέσεις σύμφωνα με τους (Pantazis, Donnay 1996) για τα παρακάτω γεω-γραφικά αντικείμενα:
Επιλογή φλέβας για λήψη φλεβικού αίματος 1/7
Κανονικοποίηση ΤΙ ΕΙΝΑΙ ; Τεχνική Διαδικασία
Προετοιμασία εργασίας
Επικοινωνιακός Προγραμματισμός Ι
Εικαστικές συνθέσεις - Χρώμα στο χώρο
Οργάνωση και Διοίκηση Πρωτοβάθμιας (Θ)
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργάνωση και Διοίκηση Πρωτοβάθμιας (Θ)
Εισαγωγή στις εικαστικές τέχνες
Λιθογραφία – Όφσετ (Θ) Ενότητα 8.2: Εκτυπωτική Διαδικασία Μηχανής
Επικοινωνιακός Προγραμματισμός Ι
Ενότητα 9: Συστήματα Υγείας στην Ευρώπη: Σουηδία
Διδακτική της Πληροφορικής
Τηλεοπτική και Ραδιοφωνική Παραγωγή
Αισθητική Σώματος Ι (Ε)
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας
Ειδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -E
Γενική και Μαθηματική Χαρτογραφία (Ε)
Αισθητική Σώματος Ι (Ε)
Μυθος και Τελετουργία στην Αρχαία Ελλάδα
Ενότητα 8: Συστήματα Υγείας στην Ευρώπη: Γαλλία
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -Θ
Συστήματα Θεματικής Πρόσβασης (Θ)
Ψυχιατρική Ενότητα 7: Συνέχεια σταδίων
Γενικὴ Ἐκκλησιαστικὴ Ἱστορία Α´
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργανική Χημεία (Ε) Ενότητα 2: Προσδιορισμός σημείου τήξης
Ενότητα 1: ……………….. Όνομα Επώνυμο Τμήμα __
Σύσταση και Ανάλυση Γλευκών και Οίνων (Θ)
Επικοινωνιακός Προγραμματισμός Ι
Μεταγράφημα παρουσίασης:

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 1: Εισαγωγή σε θέματα διαχείρισης γνώσης, εξόρυξης δεδομένων, αποθηκών δεδομένων και επιχειρηματικής ευφυΐας Χ. Σκουρλάς Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

Εναρκτήρια συνάντηση Στην πρώτη συνάντηση γίνεται παρουσίαση του μαθήματος και μία σύντομη και περιεκτική συζήτηση κάποιων βασικών εννοιών του. Γίνεται αναφορά σε σημαντικές έννοιες διαχείρισης γνώσης (knowledge management), επιχειρηματικής ευφυΐας (business intelligence), αποθηκών δεδομένων (data warehouses) και εξόρυξης δεδομένων (data mining). Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά σε εργαλεία που θα χρησιμοποιηθούν στο μάθημα, όπως το εργαλείο Rapid Miner Μπορείτε να παρακολουθήσετε μαγνητοσκοπημένη τη σχετική διάλεξη του Χ. Σκουρλά (δείτε σημείωμα αναφοράς)

Περιγραφή Μαθήματος Σκοπός του μαθήματος «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας» είναι η παρουσίαση τεχνικών διαχείρισης δεδομένων μεγάλης κλίμακας και προηγμένων θεμάτων Εξόρυξης Δεδομένων καθώς και των εφαρμογών τους. Το μάθημα δίνει τη δυνατότητα στους σπουδαστές να: - Κατανοήσουν τα θέματα που αφορούν τα αποθετήρια δεδομένων μεγάλης κλίμακας. - Εμβαθύνουν σε μεθόδους και πρακτικές που αφορούν την Εξόρυξη Δεδομένων μεγάλης κλίμακας στον Παγκόσμιο Ιστό - Εξοικειωθούν με ερευνητικές προσεγγίσεις και νέες λύσεις στα προβλήματα που προκύπτουν. - Εξοικειωθούν με εφαρμογές της θεωρίας σε πραγματικά προβλήματα

Περίγραμμα ύλης µαθήµατος (Syllabus) Συλλογή και προεπεξεργασία δεδομένων. Αποθήκες Δεδομένων. Άμεση Αναλυτική Επεξεργασία. Επισκόπηση Τεχνικών Εξόρυξης Δεδομένων.   Μηχανές Διανυσμάτων  Υποστήριξης.  Εξόρυξη Γνώσης από το περιεχόμενο του Παγκόσμιου Ιστού, Εξόρυξη Γνώσης από τη Δομή  του Παγκόσμιου Ιστού, Εξόρυξη  Γνώσης από τη Χρήση του Παγκόσμιου Ιστού. Διαχείριση Δεδομένων Μεγάλης Κλίμακας στον Παγκόσμιο Ιστό. Διαφήμιση στον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων από Γράφους Κοινωνικών Δικτύων. Συστήματα Συστάσεων.  Σημασιολογικός Ιστός και  Δεδομένα Μεγάλης Κλίμακας.  Εξόρυξη Δεδομένων και Επιχειρησιακή Νοημοσύνη.

Ενδεικτική Βιβλιογραφία M. d’Aquin, G. Kronberger,  M. Suárez-Figueroa,  “Combining Data Mining and Ontology Engineering to enrich Ontologies and Linked Data”, in: J. Volker, H. Paulheim, J. Lehmann, M. Niepert (eds.): Proceedings of the 1st International Workshop “Knowledge Discovery and Data Mining Meets Linked Open Data”, Heraklion, 2012, (http://ceur-ws.org/Vol-868/) P. Cimiano, O. Corcho, V. Presutti, L. Hollink, S. Rudolph (eds.), The Semantic Web: Semantics and Big Data, Proceedings of the 10th  International Conference, ESWC 2013, Montpellier, LNCS 7882, Springer, 2013. H.  Chen, R. H. L. Chiang, V. C. Storey, “Business Intelligence and Analytics: From Big Data to Big Impact”, MIS Quarterly, vol. 36, issue 4, Dec. 2012, p1165-1188 W.  Fan, A. Bifet,  “Mining Big Data: Current Status, and Forecast to the Future”, SIGKDD Explorations vol.14, issue 2, ACM Press A. R. Ganguly and A. Gupta, Data Mining Technologies and Decision Support Systems for Business and Scientific Applications, Encyclopedia of Data Warehousing and Mining, 2005     (http://www.inf.uni-konstanz.de/dbis/teaching/ws0607/busintelligence/papers/DMDW)

Ενδεικτική Βιβλιογραφία T. Heath, C. Bizer, Linked Data: Evolving the Web into a Global Data Space, Morgan & Claypool, 2011 (http://linkeddatabook.com/editions/1.0/) R. Kohavi, N. J. Rothleder, E. Simoudis, “Emerging trends in business analytics”, Communications of the ACM – Evolving data mining into solutions for insights, vol. 45, issue 8, August 2002, pp 45-48  (http://www.inf.unikonstanz.de/dbis/teaching/ws0607/busintelligence/papers/TrendsBA.pdf H. Paulheim, “Exploiting Linked Open Data as Background Knowledge in Data Mining”, in: C. d’ Amato, P. Berka, V. Svátek, K. Wecel (eds.): Proceedings of the International Workshop on Data Mining on Linked Data (DMoLD), Prague, 2013, (http://ceur-ws.org/Vol-1082/) A., Rajaraman, J., Leskovec, J.D., Ullman, Εξόρυξη από Μεγάλα Σύνολα Δεδομένων, Εκδόσεις νέων Τεχνολογιών, 2013 (Mining of Massive Datasets, CUP, 2012) J.P. Shim, M. Warkentin, J.F. Courtney, D.J. Power, R. Sharda, Ch. Carlsson, “Past, Present and Future of Decision Support Technology”, Decision Support Systems: Directions for the Next Decade, vol.33, issue 2, June 2002, pp. 111-126 (http://www.sciencedirect.com/science/article/pii/S0167923601001397)

Ενδεικτική Βιβλιογραφία Y. Sun, J. Han, Mining Heterogeneous Information Networks: Principles and Methodologies, Morgan & Claypool, 2012 P.-N. Tan, M. Steinbach, V. Kumar, Εισαγωγή στην Εξόρυξη Δεδομένων (μετ.), Εκδόσεις Τζιόλα, 2009. E. Turban, R. Sharda, D. Delen, D. King, Business Intelligence: A Managerial Approach (2nd Edition), Prentice Hall, 2011 H.J. Watson, B. H. Wixom, “The Current State of Business Intelligence”. IEEE Computer, vol. 40, issue 9, Sept. 2007, pp 96-99 (http://student.bus.olemiss.edu/files/conlon/others/Others/BusinessIntelligence/CurrentState%20of%20BI%20_IEEE.pdf) Ειδική μνεία για το βιβλίο: M. North, Data Mining for the Masses, 2012, ISBN: 978-0615684376 This book is licensed under a Creative Commons Attribution 3.0 License

A producer wants to know…. πελάτες, προϊόντα, προώθηση προϊόντος και έσοδα, περιθώρια κέρδους κ.λπ. A producer wants to know…. Which are our lowest/highest margin customers ? Who are my customers and what products are they buying? What is the most effective distribution channel? What product prom- -otions have the biggest impact on revenue? Which customers are most likely to go to the competition ? What impact will new products/services have on revenue and margins? Jiawei Han

Knowledge Management πρακτική προσέγγιση (a practitioner’s approach) Διαχείριση της γνώσης (Knowledge management), στο επίπεδο ενός οργανισμού, είναι η συστηματική προσπάθεια συντονισμού των ανθρώπων, της τεχνολογίας, των διαδικασιών και της οργανωτική δομής (people, technology, processes, and organizational structure), προκειμένου να προστεθεί αξία μέσω της επαναχρησιμοποίησης και της καινοτομίας. Ο συντονισμός επιτυγχάνεται μέσω της δημιουργίας, ανταλλαγής, και εφαρμογής της γνώσης (creating, sharing, and applying knowledge), καθώς και μέσα από την «τροφοδοσία» της εταιρικής μνήμης του οργανισμού (corporate memory) με πολύτιμα διδάγματα και βέλτιστες πρακτικές, ώστε να προωθηθεί η συνεχής οργανωτική μάθηση (organizational learning)

Knowledge Management πρακτική προσέγγιση (a practitioner’s approach) Learn, remember, and act Information, knowledge, know-how Μαθαίνουμε από τα λάθη του παρελθόντος Δεν ανακαλύπτουμε εκ νέου τον τροχό

Τύποι γνώσης - Types of Knowledge Tacit knowledge - άρρητη γνώση: awareness, expertise, Judgment, corporate memory ευαισθητοποίηση, εμπειρία, κρίση, εταιρική μνήμη The Thinker (Rodin) Explicit knowledge – ρητή γνώση: e.g. publications, books, reports, photos, diagrams, illustrations, presentations, speeches, lectures, lessons learned, recordings, procedures, policies

Nonaka and Takeuchi: SECI model of knowledge dimensions - Wikipedia

Nonaka and Takeuchi: SECI Model Model of knowledge conversion Individual (i) Group (g) Organization (o) http://www.comindwork.com/weekly/2015-04-27/productivity/SECI-model-of-knowledge-dimensions-Ikujiro-Nonaka

Nonaka and Takeuchi: SECI Model Model of knowledge conversion https://samirshira.wordpress.com/2013/08/30/topic-knowledge-transfer-seci-model/

Nonaka’s four models of knowledge conversion explanation Socialisation (tacit to tacit) : διαδικασία μάθησης (process of learning) με ανταλλαγή («μοίρασμα») εμπειριών (through sharing experiences) που δημιουργεί άρρητη γνώση με τη μορφή κοινών νοητικών μοντέλων και επαγγελματικών δεξιοτήτων (as shared mental models and professional skills) πχ. συναίνεση ειδικών που επιτυγχάνεται κατά τη διάρκεια ιατρικών συναντήσεων Externalization (tacit to explicit): διαδικασία μετατροπής (process of conversion) άρρητης σε ρητή γνώση πχ. τα αποτελέσματα κλινικής δοκιμής (clinical trial) «μεταφράζονται» σε σύσταση για την κλινική πρακτική (recommendation for clinical practice) Internalization (explicit to tacit): διαδικασία μάθησης κατά την οποία το άτομο μαθαίνει μέσα από την επαναληπτική εκτέλεσης μιας δραστηριότητας εφαρμόζοντας κάποιο είδος ρητής γνώσης, πχ. η σχέση δράσεων (actions) και αποτελεσμάτων γίνεται κτήμα ως νέα ατομική άρρητη γνώση Combination (explicit to explicit): διαδικασία εμπλουτισμού της διαθέσιμης ρητής γνώσης για την παραγωγή γνώσης πχ. Συνδυάζοντας ιατρική και οργανωτική γνώση σε ένα σύστημα υποστήριξης αποφάσεων

Αρχή με παράδειγμα: BI, DM and RapidMiner Θα μελετήσουμε μια εταιρεία που προμηθεύει πετρέλαιο θέρμανσης για το σπίτι σε πανεθνική κλίμακα. Ένας περιφερειακός διευθυντής πωλήσεων αισθάνεται την ανάγκη να κατανοήσει τα είδη των συμπεριφορών και άλλους παράγοντες που μπορεί να επηρεάσουν τη ζήτηση για πετρέλαιο θέρμανσης στην εγχώρια αγορά. Προβληματίζεται κυρίως λόγω της μεταβλητότητας των τιμών της αγοράς πετρελαίου θέρμανσης, σε συνδυασμό με τη μεγάλη μεταβλητότητα στο μέγεθος των παραγγελιών για το σπίτι του πετρελαίου θέρμανσης. (M. North, Data Mining for the Masses, 2012)

BI and RapidMiner Το κύριο ερώτημα μπορεί να διατυπωθεί ως εξής: Ποιοι παράγοντες σχετίζονται με τη χρήση του πετρελαίου θέρμανσης, και πώς η εταιρεία θα μπορούσε να χρησιμοποιήσει τη γνώση αυτών των παραγόντων για την καλύτερη διαχείριση των αποθεμάτων της, καθώς και την πρόβλεψη της ζήτησης;

BI and RapidMiner Υπάρχουν πολλοί παράγοντες που επηρεάζουν την κατανάλωση πετρελαίου θέρμανσης. Πιστεύουμε ότι η διερεύνηση της σχέσης μεταξύ ορισμένων από τους παράγοντες αυτούς, θα βοηθήσει την εταιρεία να παρακολουθεί καλύτερα και να ανταποκριθεί στη ζήτηση του πετρελαίου θέρμανσης. Στην έρευνά μας έχει επιλεγεί η συσχέτιση (correlation) ως ένας απλός τρόπος μοντελοποίησης της σχέσης μεταξύ των παραγόντων που η εταιρεία επιθυμεί να διερευνήσει.

BI and RapidMiner Η συσχέτιση - correlation είναι ένα στατιστικό μέτρο που περιγράφει πόσο ισχυρές είναι οι σχέσεις μεταξύ των ιδιοτήτων σε ένα σύνολο δεδομένων (“Correlation is a statistical measure of how strong the relationships are between attributes in a data set”). Ακολουθεί η δημιουργία ενός πίνακα συσχέτισης έξι χαρακτηριστικών. Τα δεδομένα που χρησιμοποιούνται αντλούνται κυρίως από το σύστημα τιμολόγησης πελατών (billing) της εταιρείας.

BI and RapidMiner Insulation: Είναι μια εκτίμηση που κυμαίνονται από ένα έως δέκα και αναφέρεται στη μόνωση κάθε σπιτιού. Ένα σπίτι με βαθμολογία ένα δεν είναι καλά μονωμένο, ενώ ένα σπίτι με μια βαθμολογία των δέκα βαθμών έχει εξαιρετική μόνωση. Temperature: Μέση εξωτερική θερμοκρασία περιβάλλοντος σε κάθε σπίτι για το προηγούμενο έτος. Μετράται σε βαθμούς Fahrenheit. Heating_Oil: Συνολικός αριθμός λίτρων πετρελαίου θέρμανσης που αγοράστηκαν από τον ιδιοκτήτη του σπιτιού το προηγούμενο έτος. Num_Occupants: Συνολικός αριθμός των ενοίκων σε κάθε σπίτι. Avg_Age: Μέση ηλικία ενοίκων. Home_Size: Βαθμολογία, σε μια κλίμακα από ένα έως οκτώ του που αναφέρεται στο συνολικό μέγεθος του σπιτιού. Όσο μεγαλύτερος ο αριθμός τόσο μεγαλύτερο το σπίτι.

https://sites.google.com/site/dataminingforthemasses/ Insulation,Temperature,Heating_Oil,Num_Occupants,Avg_Age,Home_Size 6,74,132,4,23.8,4 10,43,263,4,56.7,4 3,81,145,2,28.0,6 9,50,196,4,45.1,3 2,80,131,5,20.8,2 5,76,129,3,21.5,3 5,72,131,4,23.5,3 6,88,161,2,38.2,6 5,77,184,3,42.5,3 10,42,225,3,51.1,1 6,90,178,2,42.1,2 3,83,121,1,19.8,2 10,43,186,5,45.1,6 8,59,206,2,50.1,8

Ορολογία εργαλείου Rapid Miner

A new data mining project in RapidMiner The RapidMiner start screen

Τα αποτελέσματα σε Correlation Matrix

Οι συντελεστές συσχέτισης (correlation coefficients) μεταξύ 0 και 1 αντιπροσωπεύουν θετικές συσχετίσεις (positive correlations) και οι συντελεστές μεταξύ 0 και -1 αρνητικές (negative correlations). Εξετάζουμε τη σχέση (relationship) μεταξύ των ιδιοτήτων (attributes) Heating_Oil και Insulation.

positive correlations: Όσον η τιμή ενός χαρακτηριστικού (attribute) αυξάνεται, η τιμή του άλλου χαρακτηριστικού αυξάνεται επίσης Όσον η τιμή ενός χαρακτηριστικού μειώνεται, η τιμή του άλλου χαρακτηριστικού μειώνεται επίσης

The relationship between the Temperature attribute and the Insulation rating attribute.

the correlation strength along the continuum from -1 to 1

Data Warehouse vs. Operational DBMS. So, what’s different? Jiawei Han

Τι είναι Data Warehouse Η Αποθήκη Δεδομένων ορίζεται με πολλούς διαφορετικούς τρόπους, συχνά όχι αυστηρά. Απλουστεύοντας λίγο είναι μια βάση δεδομένων υποστήριξης αποφάσεων που διατηρείται χωριστά από την επιχειρησιακή βάση δεδομένων του οργανισμού και υποστηρίζει την παραπέρα επεξεργασία των πληροφοριών, παρέχοντας μια σταθερή πλατφόρμα ανάλυσης ενοποιημένων ιστορικών στοιχείων. “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon

To summarize ... OLTP Systems are used to “run” a business The Data Warehouse helps to “optimize” the business Jiawei Han

Πολυδιάστατα δεδομένα Multidimensional Data Όγκος πωλήσεων ως συνάρτηση τριώ διαστάσεων (product, month, region) Region Διαστάσεις (Dimensions): Product, Location, Time Product Month

Data Cube Date Product Country sum

Τι είναι Data Mining Η εξόρυξη δεδομένων είναι η εξαγωγή: Σε μία πρώτη προσέγγιση: Η εξόρυξη δεδομένων είναι η εξαγωγή: - ενδιαφέρουσας μη τετριμμένης, έμμεσης (υποκρυπτόμενης), προηγουμένως άγνωστης και δυνητικά χρήσιμης πληροφορίας - προτύπων από δεδομένα σε μεγάλες βάσεις δεδομένων Παρατίθενται οι αγγλικοί όροι: Data mining - Interesting, non-trivial, implicit, previously unknown and potentially useful information - patterns from data in large databases Ακουλουθεί αναφορά στο CRISP DM Cross Industry Standard Process for Data Mining, commonly known by its acronym CRISP-DM,[1] was a data mining process model that describes commonly used approaches that data mining experts use to tackle problems. Polls conducted at one and the same website (KDNuggests) in 2002, 2004, 2007 and 2014 show that it was the leading methodology used by industry data miners who decided to respond to the survey. https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining

CRISP-DM Conceptual Model Data Mining for the Masses

CRISP-DM Step 1: Business (Organizational) Understanding Πώς μπορούμε να αυξήσουμε το περιθώριο κέρδους ανά μονάδα προϊόντος; Πώς μπορούμε να προβλέψουμε και να διορθώσουμε ατέλειες κατασκευής έτσι ώστε να αποφύγουμε την αποστολή ενός ελαττωματικού προϊόντος; Από εκεί, μπορείτε να αρχίσετε και να αναπτύξετε πιο συγκεκριμένες ερωτήσεις που θέλετε να απαντήσετε, και αυτό θα σας δώσει τη δυνατότητα να προχωρήσετε σε ...

CRISP-DM Step 2: Data Understanding Από πού προέρχονται τα δεδομένα; Από ποιόν συλλέγονται; Χρησιμοποιήθηκε μια τυποποιημένη μέθοδος συλλογής (a standard method of collection); Τι σημαίνουν οι διάφορες στήλες και οι γραμμές των δεδομένων; Υπάρχουν ακρωνύμια ή συντομογραφίες που είναι άγνωστα ή ασαφή;

CRISP-DM Step 3: Data Preparation (Data Mining for the Masses) Μπορεί να ενώνει δύο ή περισσότερα σύνολα δεδομένων, να περιορίζει σύνολα δεδομένων μόνον σε εκείνες τις μεταβλητές που έχουν ενδιαφέρον σε μια συγκεκριμένη περίπτωση εξόρυξης δεδομένων, να καθαρίζει δεδομένα από «ακραίες» παρατηρήσεις, να συμπληρώνει – διαχειρίζεται ελλείποντα δεδομένα, να μορφοποιεί εκ νέου δεδομένα για λόγους συνέπειας κ.λπ.

CRISP-DM Step 4: Modeling (Data Mining for the Masses) Απλουστεύοντας, ένα μοντέλο, στην εξόρυξη δεδομένων, είναι μια ηλεκτρονική αναπαράσταση παρατηρήσεων – μετρήσεων (observations) του πραγματικού κόσμου. Τα μοντέλα προκύπτουν από την εφαρμογή αλγορίθμων που «αναλαμβάνουν» την αναζήτηση, τον εντοπισμό, και την εμφάνιση προτύπων ή μηνυμάτων στα δεδομένα. Υπάρχουν δύο βασικά είδη μοντέλων εξόρυξης: εκείνα που ταξινομούν (classify) και εκείνα που προβλέπουν (predict).

CRISP-DM Step 4: Modeling

CRISP-DM Step 5: Evaluation Η φάση αξιολόγησης σας βοηθά να προσδιορίσετε πόσο χρήσιμο είναι το μοντέλο σας και τι μπορεί να κάνετε με αυτό Όλες οι αναλύσεις μπορούν να οδηγήσουν και σε λανθασμένα αποτελέσματα. Ένα μοντέλο μπορεί να μη βρίσκει ενδιαφέροντα πρότυπα (interesting patterns) στα δεδομένα σας επειδή χρησιμοποιήσατε λανθασμένη τεχνική ή επειδή δεν υπάρχει τίποτε για ανακάλυψη.

CRISP-DM Step 6: Deployment Δραστηριότες (Activities) - Αυτοματοποίηση του μοντέλου (automating the model) Συναντήσεις με ενδιαφερόμενους χρήστες και συζήτηση Ενσωμάτωση σε IS/MIS (integrating with existing management or operational information systems) Ανατροφοδότηση με νέα δεδομένα και εκ νέου αξιολόγηση του μοντέλου κ.λπ.

GIGO, or Garbage In, Garbage Out

Το Επιχειρηματικό Περιβάλλον Το περιβάλλον στο οποίο οι οργανισμοί λειτουργούν σήμερα γίνεται όλο και πιο πολύπλοκο, δημιουργώντας ευκαιρίες και προβλήματα. Παράδειγμα: η παγκοσμιοποίηση (globalization). Κατηγορίες παραγόντων επιχειρηματικού περιβάλλοντος : αγορές, απαιτήσεις καταναλωτών, τεχνολογία, και κοινωνία (markets, consumer demands, technology, societal)

Ορισμός BI (Turban et al.) BI is an umbrella term that combines architectures, tools, databases, analytical tools, applications, and methodologies. BI a content-free expression, so it means different things to different people. BI's major objective is to enable easy access to data (and models) to provide business managers with the ability to conduct analysis. BI helps transform data, to information (and knowledge), to decisions and finally to action.

Ορισμός Επιχειρηματικής Ευφυίας (Turban et al.) ΕΕ είναι ένας γενικός όρος που συνδυάζει αρχιτεκτονικές, εργαλεία, βάσεις δεδομένων, αναλυτικά εργαλεία, εφαρμογές και μεθοδολογίες. ΕΕ μια έκφραση ελεύθερη περιεχομένου (content-free expression), έτσι ώστε να σημαίνει διαφορετικά πράγματα σε διαφορετικούς ανθρώπους. Κύριος στόχος της ΕΕ είναι να επιτρέπει την εύκολη πρόσβαση στα δεδομένα (και μοντέλα) για να παρέχει στους managers των επιχειρήσεων την ικανότητα να διεξάγουν ανάλυση. ΕΕ βοηθά τη μετατροπή των δεδομένων, σε πληροφορίες (και γνώσεις), για την υποστήριξη αποφάσεων και τελικά στήριξη της επιχειρηματικής δράσης.

Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2016. Χ. Σκουρλάς. «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας. Ενότητα 1: «Εισαγωγή σε θέματα διαχείρισης γνώσης, εξόρυξης δεδομένων, αποθηκών δεδομένων και επιχειρηματικής ευφυΐας». Έκδοση: 2.0. Αθήνα 2016. Διαθέσιμο από τη δικτυακή διεύθυνση: pyles.teiath.gr. Μπορείτε να παρακολουθήσετε μία σχετική μαγνητοσκοπημένη διάλεξη: https://ocp.teiath.gr/courses/CS_UNDER117/ https://ocp.teiath.gr/modules/units/?course=CS_UNDER117&id=2555

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αρχική αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.