Big Data + Data Analytics

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία
Advertisements

Δημιουργία Ιστοσελίδων σε HTML και FrontPage Πρόγραμμα Αναμόρφωσης Προπτυχιακών Σπουδών Κεντρικό Γραφείο Υποστήριξης Εκπαιδευτικού Έργου Αλέξανδρος Λεκατσάς.
Κατηγοριοποίηση του Ιατρού, ως πελάτη της Φαρμακευτικής Εταιρείας. Η εφαρμογή της τεχνολογίας "Predictive Analytics" στο Φαρμακευτικό χώρο Βλάσης Παπαπαναγής.
Διάγραμμα Παρουσίασης
ΕΙΣΑΓΩΓΗ ΣΤΗΝ PHP. Τι θα μάθουμε;  Να καταλάβουμε τι είναι η PHP και πώς δουλεύουν τα PHP scripts  Τι χρειάζεται για να ξεκινήσουμε με την PHP  Να.
Jetspeed Open Source Εργαλείο για την Δημιουργία Information Portals Πανεπιστήμιο Αιγαίου Βιορρές Νίκος.
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Νέα σειρά εκδόσεων 4.5. Νέα χαρακτηριστικά  Επιφάνεια εργασίας  On Line ενημέρωση Λογιστικής  Διαχείριση σχετικών εγγράφων  Data Center  Γεωγραφικές.
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εισαγωγή στις Βάσεις Δεδομένων για Μαθητές Λυκείων και Τεχνικών Σχολών Δημήτρης Ζεϊναλιπούρ Λέκτορας Τμήμα Πληροφορικής,
BLOGS ΚΑΙ WIKIS Εργαλεία WEB 2.0. Blogs  Το Βlog λέξη είναι η συντομευμένη εκδοχή του weblog.  Blog είναι το είδος της ιστοσελίδας, που συνήθως συντηρείται.
Γεωγραφικά Συστήματα Πληροφοριών Ελεύθερου και Ανοικτού Κώδικα (Open Source Software GIS / OSS-GIS) 23 Νοεμβρίου 2007 Χαροκόπειο Πανεπιστήμιο Γιώργος Χάλαρης.
Συστήματα Διαχείρισης Βάσεων Δεδομένων Τίμος Σελλής, Καθηγητής ΕΜΠ, Διευθυντής ΙΠΣΥΠ, Ε.K. “Αθηνά”
HAMSTER Κώστα Κωνσταντίνος Ματθαίου Γιώργος Σκιττίδου Ελένη Τορτούρη Κατερίνα Advance p2p network 1/7/20141ΕΠΛ Θεμελιώσεις Τεχνολογιών Διαδικτύου.
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
Βάσεις Δεδομένων 1 T.Manavis– N.Kyritsis.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Πανεπιστημιακό κέντρο εκπαίδευσης επιμορφωτών Δυτικής Ελλάδας Πανεπιστήμιο Πατρών, ΤΕΕΑΠΗ - Πανεπιστήμιο Πελοποννήσου, ΤΚΕΠ Εκπαίδευση Επιμορφωτών Β΄Επιπέδου.
ΤΕΧΝΙΚΕΣ Αντικειμενοστραφουσ προγραμματισμου
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Πανεπιστήμιο Ιωαννίνων Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής Ακαδημαϊκό Έτος MapReduce: Simplified Data processing on Large Clusters Φώτης.
Resource Description Framework
Σελίδα 1 ΕΚΠΑ. «Διαμόρφωση υπηρεσίας καταλόγου Active Directory σε Windows 2003» Τηλέμαχος Ράπτης Εθνικό και Καποδιστριακό.
Βάσεις Δεδομένων (ΚΒΔ)
1/6/2011 Προσαρμοστικοί Αλγόριθμοι Εξισορρόπησης Φόρτου σε Κατανεμημένα Περιβάλλοντα (Δίκτυα Ομοτίμων και Υπολογιστικά Νέφη)
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Λειτουργικά συστήματα ΙΙ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
Τι είναι Ανάλυση Τι είναι Συστήματα Πληροφορικής
Η ΓΛΩΣΣΑ C ΜΑΘΗΜΑ 2.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Π.Μ.Σ. ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΗΥ302 Διδακτική της Πληροφορικής Η γλώσσα προγραμματισμού LOGO Writer Ομάδα Εργασία: Αλεβίζου Βασιλική (Α.Μ.:1029) Κοφφινά Ιωάννα (Α.Μ.:1035) Τριανταφυλλίδου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Δομές Δεδομένων (Data Structures) 3o Εξάμηνο Σπουδών Διδάσκων: Απόστολος Παπαδόπουλος και
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ημέρα 1η.
An Implementation and Evaluation of WiFi Positioning Algorithms in Android Πανεπιστήμιο Κύπρου 2011 Προγραμματισμός Συστημάτων ΕΠΛ371 Γιώργος Κωνσταντίνου.
Επικοινωνία Ανθρώπου Μηχανής HTML CGI JAVASCRIPT Κουμπούλης Χρήστος Α.Μ. 921 Χαλαβαζής Βασίλης Α.Μ. 988.
ΣΥΓΚΟΜΙΔΗ ΜΕΤΑΔΕΔΟΜΕΝΩΝ (METADATA HARVESTING) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Διαχείριση Εκπαιδευτικού Περιεχομένου
Προηγμένες υπηρεσίες προς τους Πολίτες Σταύρος Αλεξάκης Public Sector Lead– Microsoft Hellas.
University of Crete HY566-Semantic Web CS566 – Semantic Web Computer Science Department - UoC Heraklion 1 April, 2003 Παπαγγελής Μάνος, Κοφφινά Ιωάννα,
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Ε.Κ.Π.Α 1 Διάθεση αρχείων βίντεο στο Διαδίκτυο Δρ. Μιχάλης Γκατζώνης Κέντρο Λειτουργίας και Διαχείρισης Δικτύου Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών.
Β’ Γυμναςιου ΕΙΣΑΓΩΓΗ.
FEDORA ARCHITECTURE1 Αρχιτεκτονικές Ψηφιακών Βιβλιοθηκών FEDORA.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
X-FTL: Transactional Flash Translation Layer for SQLite Databases WOON-HAK KAN, GY SANG-WON LEE, GI-HWAN OH, CHANGWOO MIN COLLEGE OF INFO. AND COMM. ENGR.,
 Κύριο αντικείμενο της μελέτης είναι ο καθορισμός της μεθοδολογίας, των προτύπων (standards) και των διαδικασιών (procedures) για τις πρώτες και πιο.
ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΑΛΛΑΣ ΑΝΑΣΤΑΣΙΟΣ / ΦΕΒΡ ΚΕΦΑΛΑΙΟ 2 ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ.
Προγραμματισμός και Διαχείριση Επιχειρηματικών Πόρων - ERP Μάθημα 4: Τεχνολογική Υποδομή ERP.
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
Βάσεις Δεδομένων ΙΙ 9η διάλεξη
Θερινό Σχολείο, 14 – 20 Ιουλίου 2014
Βάσεις Δεδομένων Ι 10η διάλεξη
Γνωριμία με το Λογισμικό του Υπολογιστή
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Νέα σειρά εκδόσεων 4.5.
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Σκοπός Η συνοπτική παρουσίαση
Μεταγράφημα παρουσίασης:

Big Data + Data Analytics 07/11/2013 Big Data + Data Analytics Εργαστήριο Συστημάτων Υπολογιστών (Computer Systems Laboratory) Πανεπιστήμιο Πατρών – Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Δρ. Γκόγκος Χρήστος CSL ECE University of Patras

Θέματα παρουσίασης Big Data Analytics Map Reduce Hadoop NoSQL Descriptive Predictive Prescriptive Map Reduce Hadoop NoSQL Data Mining – Machine Learning CSL ECE University of Patras

BIG DATA CSL ECE University of Patras

Bytes 1KB = 210 bytes 1MB = 220 bytes 1GB = 230 bytes 1TB = 240 bytes 1PB = 250 bytes 1EB = 260 bytes 1ZB = 270 bytes 1YB = 280 bytes http://en.wikipedia.org/wiki/Yottabyte 1YottaByte CSL ECE University of Patras

Πώς ορίζονται τα Big Data; Τεράστιες ποσότητες δομημένων, ημι-δομημένων και αδόμητων δεδομένων Τα Big Data είναι ο συνδυασμός εξελίξεων στην τεχνολογία που συνέβησαν τα τελευταία 50 έτη CSL ECE University of Patras

Μορφές δεδομένων Δομημένα Σχεσιακές βάσεις δεδομένων XML JSON Ημι-δομημένα CSV Emails Tweets Facebook status Σχόλια σε Blogs Αδόμητα Κείμενο Εικόνα Ήχος Βίντεο CSL ECE University of Patras

Τεχνολογίες που προηγήθηκαν των Big Data Σχεσιακές βάσεις δεδομένων Data warehouses και data marts (ημερήσια ή εβδομαδιαία ενημέρωση) Object Oriented βάσεις δεδομένων BLOB = Binary Large Objects CSL ECE University of Patras

Αλλαγές τελευταίων ετών Μείωση τιμών αισθητήρων Μείωση κόστους για αποθήκευση – επεξεργασία Αλλαγή συμπεριφοράς χρηστών – αποδοχή διάθεσης προσωπικών πληροφοριών Σημαντική πρόοδος σε αλγορίθμους μηχανικής μάθησης CSL ECE University of Patras

Σημείο καμπής Το κόστος της υπολογιστικής επεξεργασίας και αποθήκευσης έφτασε σε κομβικό σημείο κάποια στιγμή ανάμεσα στο 2008 και το 2010 Περισσότερες επιχειρήσεις έχουν πλέον την δυνατότητα να διαχειρίζονται Big Data CSL ECE University of Patras

The 3 Vs of Big Data CSL ECE University of Patras

Volume (όγκος – ποσότητα δεδομένων) Terabytes έως Petabytes δεδομένων Η ποσότητα των δεδομένων που συλλέγονται αυξάνεται συνεχώς Ότι θεωρείται σήμερα ως μεγάλα δεδομένα στο μέλλον θα είναι ακόμα μεγαλύτερο CSL ECE University of Patras

Variety (ποικιλομορφία) Συγκέντρωση δεδομένων από διάφορες πηγές εντός και εκτός της επιχείρησης Αισθητήρες Έξυπνες συσκευές Μορφές δεδομένων Κείμενο Δεδομένα πλοήγησης στο διαδίκτυο tweets Δεδομένα αισθητήρων Ήχος Βίντεο Αρχεία καταγραφής (logs) … CSL ECE University of Patras

Velocity (ταχύτητα) Η ταχύτητα με την οποία δημιουργούνται τα δεδομένα συνεχώς αυξάνεται Ορισμένες εφαρμογές απαιτούν λήψη αποφάσεων σε real time ανίχνευση απάτης (credit card fraud detection) recommendation systems CSL ECE University of Patras

2012 Big Data @ Work Study ΙΒΜ Institute of Business Value + University of Oxford Said Business School 1144 επιχειρήσεις σε 95 χώρες http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-work.html CSL ECE University of Patras

Συμπεράσματα έρευνας 2012 Big Data @ Work Study *IBM’s 2010 New Intelligence Enterprise Global Executive Study and Research Collaboration CSL ECE University of Patras

Διαχείριση των Big Data Αποθήκευση Καταγραφή και αποθήκευση των δεδομένων Επεξεργασία Καθάρισμα και ανάλυση των δεδομένων (analytics) Πρόσβαση Ανάκληση και οπτικοποίηση των δεδομένων CSL ECE University of Patras

Analytics CSL ECE University of Patras

Analytics (Αναλυτική) Descriptive Analytics Τι έχει συμβεί; Predictive Analytics Τι θα συμβεί; Ποια είναι η καλύτερη δράση; Prescriptive Analytics CSL ECE University of Patras

Descriptive Analytics (Περιγραφική Αναλυτική) Περιγραφή των δεδομένων με στόχο την κατανόησή τους Δημιουργία διαίσθησης για τα δεδομένα Δημιουργία αναφορών (reports) Εντοπισμός καταστάσεων που χρήζουν προσοχής Ομαδοποίηση αντικειμένων με παρόμοια χαρακτηριστικά (clustering) http://www.tableausoftware.com/learn/gallery CSL ECE University of Patras

Predictive Analytics (Προγνωστική Αναλυτική) Χρήση των δεδομένων που διαθέτουμε για ορισμένα αντικείμενα προκειμένου να προβλέψουμε τις τιμές άλλων αντικειμένων Υπάρχουν πολλά μοντέλα πρόβλεψης με καλύτερες και χειρότερες επιδόσεις ανά πρόβλημα It is difficult to make predictions, especially about the future (Niels Bohr) http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/ CSL ECE University of Patras

Prescriptive Analytics (Καθοδηγητική Αναλυτική) Πως οι προβλέψεις για το μέλλον μπορούν να αλλάξουν τις αποφάσεις που παίρνουμε έτσι ώστε να αποκτήσουμε πλεονέκτημα στο μέλλον; Τι παρενέργειες θα έχουν οι αποφάσεις που θα λάβουμε για το ευρύτερο σύστημα; CSL ECE University of Patras

Netflix CSL ECE University of Patras http://www.huffingtonpost.com/2013/08/21/netflix-my-list_n_3790472.html CSL ECE University of Patras

Map REDUCE & HADOOP CSL ECE University of Patras

MapReduce To MapReduce είναι ένα υπολογιστικό μοντέλο που χρησιμοποιείται ευρύτατα για αποδοτική κατανεμημένη επεξεργασία πάνω σε μεγάλα σύνολα δεδομένων Εκτελείται σε clusters υπολογιστών Ο προγραμματιστής χρειάζεται να γράψει 2 συναρτήσεις την συνάρτηση map και την συνάρτηση reduce Περιγράφηκε αρχικά σε άρθρο του 2003 (Google) Το Hadoop είναι open source υλοποίηση του MapReduce CSL ECE University of Patras

MapReduce functions Τα προβλήματα «σπάνε» σε 2 φάσεις Τα προβλήματα «σπάνε» σε 2 φάσεις Map: τα δεδομένα του προβλήματος διαχωρίζονται σε μη επικαλυπτόμενα τμήματα της μορφής <key, value> και ανατίθενται σε διεργασίες που παράγουν αποτελέσματα επίσης της μορφής <key, value> Reduce: τα αποτελέσματα της Map φάσης τροφοδοτούνται σε διεργασίες που τα συνοψίζουν σε μικρότερο αριθμό εγγραφών Η συνάρτηση reduce εκτελείται μετά την συνάρτηση map https://developers.google.com/appengine/docs/python/dataprocessing/ CSL ECE University of Patras

Παράδειγμα Map-Reduce: Μέτρηση λέξεων Πρόβλημα: Υπολογισμός της συχνότητας εμφάνισης λέξεων σε ένα σύνολο πολλών κειμένων Θα πρέπει να γραφεί μια map συνάρτηση και μια reduce συνάρτηση // key: όνομα του εγγράφου // value: περιεχόμενο του εγγράφου map(String key, String value) for each w in value emitIntermediate(w,1) // key: μια λέξη // value: μια λίστα από μετρήσεις reduce(key, values) c = 0 for each v in values c += v emit(c) CSL ECE University of Patras

Word Count Example http://xiaochongzhang.me/blog/?p=338 CSL ECE University of Patras

Hadoop Έχει γραφεί σε java Αποτελείται από 2 υποσυστήματα HDFS MapReduce Έχει μεγάλη αποδοχή (Yahoo!, Twitter, Amazon, Facebook κ.α.) http://hadoop.apache.org/ CSL ECE University of Patras

Ρόλοι JobTracker: αναθέτει εργασίες (map ή reduce) στα υπόλοιπα μηχανήματα TaskTracker: εκτελεί ένα αντίγραφο του προγράμματος MapReduce σε ένα τμήμα των δεδομένων Ένας κεντρικός JobTracker διαχειρίζεται πολλούς TaskTrackers CSL ECE University of Patras

Apache Mahout CSL ECE University of Patras

NoSQL CSL ECE University of Patras

Σχεσιακές Βάσεις Δεδομένων Τα δεδομένα είναι οργανωμένα σε πίνακες με καλά ορισμένες σχέσεις μεταξύ τους ACID Atomicity: Μια συναλλαγή γίνεται είτε στο σύνολό της είτε καθόλου Consistency: Κάθε συναλλαγή μεταφέρει την ΒΔ από μια συνεπή κατάσταση σε άλλη συνεπή επίσης κατάσταση Isolation: Οι άλλες λειτουργίες δεν μπορούν να προσπελάσουν αλλαγές στα δεδομένα συναλλαγών που δεν έχουν ολοκληρωθεί Durability: Η βάση δεδομένων μπορεί να ανακάμψει σε περίπτωση αστοχιών υλικού Πλεονεκτήματα Ώριμη τεχνολογία που υποστηρίζει χιλιάδες εφαρμογές σε λειτουργία σήμερα Υψηλές αποδόσεις Πληθώρα εργαλείων Εκπαιδευμένο προσωπικό Μειονεκτήματα Κόστος Κλιμάκωση Δύσκολη τροποποίηση της βάσης Ασυμβατότητα σχεσιακών ΒΔ με αντικειμενοστραφής γλώσσες προγραμματισμού CSL ECE University of Patras

Διαδεδομένες Σχεσιακές Βάσεις Δεδομένων Εμπορικές Ανοικτού κώδικα Oracle Database IBM DB2 Microsoft SQL Server SAP Sybase SQL Anywhere MySQL PostgreSQL Apache Derby SQLite H2 HSQLDB CSL ECE University of Patras

NoSQL Βάσεις Δεδομένων Οι NoSQL ΒΔ χρησιμοποιούνται συχνά για την αποθήκευση Big Data Πλεονεκτήματα Ευκολότερη κλιμάκωση (high scalability) Υψηλές επιδόσεις Αποθήκευση μη δομημένων δεδομένων Μειονεκτήματα (features) Weak (eventual) consistency No schema No transactions No SQL CSL ECE University of Patras

NoSQL landscape Key–value stores Column Family Stores Redis, Riak Column Family Stores Cassandra, HBase Document databases MongoDB, CouchDB Graph databases Neo4J, Infogrid, HyperGraphDB Column Family Stores: Κάθε εγγραφή μπορεί να διαφέρει στον αριθμό των στηλών στις οποίες αποθηκεύεται Τα δεδομένα προσπελαύνονται με πρωτεύον κλειδί ανά οικογένεια στηλών CSL ECE University of Patras

Data ANALYTICS Data Science, Data Mining, Machine Learning CSL ECE University of Patras

Money Ball Billy Beane, general manager of MLB's Oakland A's and protagonist of Michael Lewis's Moneyball had a problem: how to win in the Major Leagues with a budget that's smaller than that of nearly every other team. Conventional wisdom long held that big name, highly athletic hitters and young pitchers with rocket arms were the ticket to success. But Beane and his staff, buoyed by massive amounts of carefully interpreted statistical data, believed that wins could be had by more affordable methods such as hitters with high on-base percentage and pitchers who get lots of ground outs. Given this information and a tight budget, Beane defied tradition and his own scouting department to build winning teams of young affordable players and inexpensive cast-off veterans. CSL ECE University of Patras

Data Analytics (data mining) Μετασχηματισμός δεδομένων σε κανόνες ή σε πρότυπα (patterns) με νόημα Κατηγορίες τεχνικών data analytics Κατευθυνόμενες τεχνικές: πρόβλεψη χαρακτηριστικών για ένα συγκεκριμένο στοιχείο Μη κατευθυνόμενες τεχνικές: εντοπισμός patterns σε δεδομένα ή ομαδοποίηση των δεδομένων Παλινδρόμηση Κατηγοριοποίηση Συσταδοποίηση CSL ECE University of Patras

Weka Δυνατότητες προεπεξεργασίας δεδομένων Open source Δυνατότητες προεπεξεργασίας δεδομένων 100+ αλγόριθμοι για κατηγοριοποίηση 20+ αλγόριθμοι για συσταδοποίηση Δυνατότητες οπτικοποίησης δεδομένων και αποτελεσμάτων Open source Έχει γραφεί σε java Μπορεί να χρησιμοποιηθεί ως callable library CSL ECE University of Patras

Παλινδρόμηση (regression) Κλασσική στατιστική μέθοδος (1805) Ένα σύνολο από ανεξάρτητες μεταβλητές παράγουν ένα αποτέλεσμα (εξαρτημένη μεταβλητή) Το μοντέλο παλινδρόμησης προβλέπει την τιμή της εξαρτημένης μεταβλητής δεδομένων των τιμών των ανεξάρτητων μεταβλητών CSL ECE University of Patras

Παράδειγμα με παλινδρόμηση class = απόσταση σε μίλια ανά γαλόνι καυσίμου http://www.ibm.com/developerworks/library/os-weka1/ CSL ECE University of Patras

Παράδειγμα με παλινδρόμηση (αποτελέσματα) CSL ECE University of Patras

Αλγόριθμοι κατηγοριοποίησης http://en.wikipedia.org/wiki/Category:Classification_algorithms CSL ECE University of Patras

Παράδειγμα με κατηγοριοποίηση (Δένδρα απόφασης) Βήματα δημιουργίας δένδρου απόφασης: Επιλογή μεταβλητής ως ρίζα Δημιουργία διακλάδωσης για κάθε πιθανή τιμή της μεταβλητής Διαχωρισμός των δεδομένων σε υποσύνολα που ανατίθενται σε κάθε κλάδο του δένδρου Επανάληψη βημάτων 2 και 3 και 4 αναδρομικά Κρίσιμη απόφαση: ποιες μεταβλητές θα προηγηθούν Αλγόριθμος C4.5 (weka J48) CSL ECE University of Patras

Δένδρο απόφασης Τα δένδρα απόφασης γίνονται εύκολα κατανοητά Τα δένδρα απόφασης γίνονται εύκολα κατανοητά CSL ECE University of Patras

Cross Validation Τα δεδομένα πρέπει να χωρίζονται σε training και test έτσι ώστε να εκτιμηθεί το overfitting Το Weka υποστηρίζει n-fold cross validation 10 fold cross validation Τα δεδομένα χωρίζονται σε 10 τμήματα (folds) Με την σειρά επιλέγεται 1 fold Εκτελείται ο αλγόριθμος Υπολογίζεται ο μέσος όρος όλων των αποτελεσμάτων CSL ECE University of Patras

Δένδρο απόφασης (αποτελέσματα) Correctly classified instances Incorrectly classified instances Confusion matrix Confusion matrix CSL ECE University of Patras

Παράδειγμα με κατηγοριοποίηση (BMW προώθηση εγγύησης) Income bracket 0=$0-$30k 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+] Year/month first BMW bought Year/month most recent BMW bought Whether they responded to the extended warranty offer in the past CSL ECE University of Patras

Αποτελέσματα με τον C4.5 CSL ECE University of Patras

Αποτελέσματα με τον k-Nearest Neighbor (k-NN) CSL ECE University of Patras

Συσταδοποίηση (clustering) Ομαδοποιεί τα δεδομένα σε clusters εντοπίζοντας πρότυπα που μπορεί να είναι κρυμμένα Ο χρήστης θα πρέπει να ορίσει των αριθμό των clusters εκ των προτέρων Αλγόριθμος Kmeans Τα δεδομένα κανονικοποιούνται Επιλέγονται Κ τυχαίες εγγραφές ως επίκεντρα των clusters Υπολογίζεται η απόσταση κάθε εγγραφής από τα επίκεντρα και ανατίθεται στο cluster που είναι πλησιέστερα Υπολογίζεται το νέο επίκεντρο ως μέσος όρος των εγγραφών του cluster Επαναλαμβάνονται τα βήματα 3 και 4 μέχρι να σταθεροποιηθούν τα επίκεντρα http://stanford.edu/~cpiech/cs221/handouts/kmeans.html CSL ECE University of Patras

Παράδειγμα με συσταδοποίηση (BMW επισκέπτης  πελάτης ) SimpleKMeans CSL ECE University of Patras

Οπτικοποίηση αποτελεσμάτων CSL ECE University of Patras

Λογισμικά για Data Science CSL ECE University of Patras

Εργαλεία για Data Science Open Source Commercial R Python SciPy/NumPy Orange Scikit-learn Java Weka Matlab clones Scilab Octave Processing (Visualization) Gephi SAS IBM SPSS Matlab SAP HANA Splunk CSL ECE University of Patras

Python Orange CSL ECE University of Patras

Python Scikit-learn CSL ECE University of Patras

CSL ECE University of Patras

R Rattle CSL ECE University of Patras

R, Python, SAS, SPSS CSL ECE University of Patras

Χρήσιμοι πόροι CSL ECE University of Patras

Πηγές δεδομένων Google public data explorer https://www.google.com/publicdata/ directory UCI Machine Learning Repository http://archive.ics.uci.edu/ml/ PublicData.eu http://publicdata.eu/no/ Open Government Data http://www.data.gov/ NYC Open Data https://data.cityofnewyork.us/ Open Source Sports http://www.opensourcesports.com/ GapMinder http://www.gapminder.org/data/ Quandl - Intelligent Search for Numerical Data http://www.quandl.com/ Infochips http://www.infochimps.com/market place CSL ECE University of Patras

Kaggle CSL ECE University of Patras

Coursera’s Data Science MOOCs CSL ECE University of Patras

DataScience http://jsresearch.net/wiki/projects/teachdatascience/Teach_Data_Science.html CSL ECE University of Patras