Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εξόρυξη Χωρικών Δεδομένων
Advertisements

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΙΚΟΝΕΣ
ΕΥΤΥΧΙΣΜΕΝΟ ΤΟ
Tάσος Μπούντης Τμήμα Μαθηματικών Πανεπιστήμιο Πατρών
ΥΠΟΔΕΙΓΜΑΤΑ Ένα υπόδειγμα ή μοντέλο είναι μια κάποιας μορφής αναπαράσταση πραγματικών αντικειμένων, καταστάσεων ή διαδικασιών. Γενικότερα είναι μια απλοποίηση.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
ΔΙΔΑΚΤΙΚΕΣ ΔΥΣΚΟΛΙΕΣ ΣΤΟΥΣ ΠΙΝΑΚΕΣ ΠΕΚ ΠΕΙΡΑΙΑ Α΄φάση Επιμόρφωσης Εκπ/κών κλάδου ΠΕ19 Διδακτική της Πληροφορικής Ρόδος, Νοέμβρης 2007.
Εργαστήριο Λογικής και Υπολογισμών
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A εισαγωγή αναζήτησηεπιλογή διατεταγμένος πίνακας.
Ο Αλγόριθμος FP-Growth. Αλγόριθμος FP-Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΠΡΟΒΛΕΨΗ ΜΕ ΜΕΘΟΔΟΥΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΗΛΙΑΣ Θ. ΚΑΛΑΠΑΝΙΔΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ 2003.
Περιβάλλον Προσομοίωσης & Τεχνικές Σχεδίασης
1 Βάσεις Δεδομένων I ΥΠΕΥΘΥΝΟΙ: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ ΝΙΚΟΣ ΚΥΡΙΤΣΗΣ Εργαστήριο.
Παράδειγμα 1: Εκτύπωση διαδοχικών αριθμών(χρήση επαναληπτικής εντολής Επανέλαβε...μέχρις_ότου (repeat…until) Να γραφεί αλγόριθμος που να εμφανίζει τους.
8/4/2002Α.Τσάκωνας, Γ.Δούνιας, SETN-02 Hybrid Computational Intelligence Schemes in Complex Domains: An Extended Review Athanasios Tsakonas and George.
Αναγνώριση Προτύπων.
Προσεγγιστικοί Αλγόριθμοι
ΕΚΠΑΙΔΕΥΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΤΗΣ ΕΥΡΥΤΕΡΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΔΙΑΦΟΡΕΤΙΚΟ ΛΟΓΙΣΜΙΚΟ ΓΙΑ ΚΑΘΕ ΠΤΥΧΗ ΤΟΥ Κάππας Κων/νος Επιμορφωτής ΤΠΕ -
Διαχείριση Γνώσης &Τεχνολογίες Υποστήριξης Καταστάσεων Επικινδυνότητας Καναβός Αναστάσιος Μεταπτυχιακό Μάθημα: «Τεχνολογίες Υποστήριξης Συνεργασίας» Διδάσκων:
1 Ολυμπιάδα Πληροφορικής Μάθημα 3. 2 Στόχοι μαθήματος Δομή Επανάληψης Εντολή while Εντολή for.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
1 Ολυμπιάδα Πληροφορικής Μάθημα 2. 2 Στόχοι μαθήματος Αριθμητικοί– Λογικοί Τελεστές Η εντολή IF.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου.
Ανάλυση Πολλαπλής Παλινδρόμησης
Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 2: Επεξεργασία Δεδομένων
Βασικές Αρχές Μέτρησης
Δυναμικά Σύνολα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Δυναμικό σύνολο Tα στοιχεία του μεταβάλλονται.
Αλγόριθμοι: Σύγχρονες Τάσεις Ηλίας Κουτσουπιάς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πανεπιστήμιο Αθηνών.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Ο ρόλος της τρισδιάστατης Ψηφιακής Μοντελοποίησης στη διδασκαλία του Προγραμματισμού: υλοποιώντας ένα μοντέλο του DNA – μια διαθεματική προσέγγιση Β. Ρεπαντής.
Χωρικοί-χρονικοί συμβιβασμοί
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Πέμπτη, 2 Απριλίου 2015Τμ. Πληροφορικής,
Μόκιας Γιάννης ΚΣΕ ΔΗΜΗΤΡΑ ΕΠΙΜΟΡΦΩΣΗ Β 1 ΣΥΓΧΡΟΝΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΣΤΗ ΔΙΔΑΚΤΙΚΗ Σύγχρονες διδακτικές μέθοδοι και ΤΠΕ.
Μεταπτυχιακές Σπουδές
Φωτογραμμετρικά όργανα Θα ήταν επιθυμητή η εκμετάλλευση της δυνατότητας της στερεοσκοπικής αντίληψης, ώστε να μπορούμε να προσδιορίζουμε συνεχώς σημεία.
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
Φυλλο του Καθηγητη. Teacher’s Age Ποιο ειναι το αντικειμενο διδασκαλιας σας?
ΣΧΕΔΙΑΣΗ & ΑΞΙΟΛΟΓΗΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΛΟΓΙΣΜΙΚΟΥ ΣΤ. ΔΗΜΗΤΡΙΑΔΗΣ – ΘΡ. ΤΣΙΑΤΣΟΣ Θέματα Σχεδίασης Μέρος 2ο Χρηστοκεντρική & Συμμετοχική Σχεδίαση.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 15 Απριλίου 2015Τετάρτη, 15 Απριλίου 2015Τετάρτη, 15 Απριλίου 2015Τετάρτη, 15 Απριλίου 2015Τμ.
Σύστημα Εταιρικής Περιβαλλοντικής Διαχείρισης (Corporate Environmental Management System)* Τμήμα Οικονομικών Επιστημών Πανεπιστήμιο Πατρών Δημήτριος Τζελέπης,
ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΨΗΦΙΑΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος
Ενότητα 2.1 Αλγόριθμοι Ταξινόμησης O(n 2 ) & O(nlogn) Σχεδίαση & Ανάλυση Αλγορίθμων.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παράδειγμα εφαρμογής του αλγορίθμου BP σε δίκτυο
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό Κώστας Κοντογιάννης Αναπλ. Καθηγητής Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Ε.Μ.Π.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Ασκήσεις WEKA Δέντρα αποφάσεων.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
Πρόγραμμα Προπτυχιακών Σπουδών Ροή Λ: Λογισμικό
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(9)
Θέματα Θεωρητικής επιστήμης των Υπολογιστών
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(3)
Μανασσάκης Βασίλης Καθηγητής Πληροφορικής
ΠΑΡΟΥΣΙΑΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΠΙΘΑΝΟΤΗΤΕΣ(7)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ- ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΔΙΕΘΝΩΝ ΣΧΕΣΕΩΝ ΔΙΔΑΣΚΟΥΣΑ: Αναστασία Μαρινοπούλου 13η ΦΕΒΡΟΥΑΡΙΟΥ 2017.
Στατιστικές Υποθέσεις
Είδη Ερωτήσεων-Μεταβλητές-Κλιμακες Μέτρησης
Μια φαρμακευτική εταιρία σκέφτεται να χρηματοδοτήσει μια ερευνητική ομάδα για να ανακαλύψει ένα φάρμακο για μια σπάνια νόσο και ο αντιπρόεδρος ερευνών.
Πληροφορική Γ’ Γυμνασίου
Η Εθνική Τράπεζα σκοπεύει να καταθέσει πρόταση εξαγοράς, είτε στην Eurobank, είτε στην Alpha Bank προκειμένου να αυξήσει τα έσοδά της και να αποφύγει.
Μεταγράφημα παρουσίασης:

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης Δέντρα Απόφασης B. Μεγαλοοικονόμου, Χ. Μακρής (εν μέρη βασισμένο σε σημειώσεις του C. Faloutsos)

Περισσότερες Λεπτομέρειες… Δένδρα Απόφασης Δέντρα Απόφασης Πρόβλημα Προσέγγιση Κατηγοριοποίηση μέσω δένδρων Φάση Κατασκευής – Πολιτικές Διαχωρισμού Φάση Κλάδευσης (για αποφυγή over-fitting)

Δένδρα Απόφασης Πρόβλημα: Κατηγοριοποίηση– δηλ., δεδομένου ενός συνόλου εκπαίδευσης (N πλειάδες, με M χαρακτηριστικά, και ενός επιπλέον χαρακτηριστικού-κλάσης) βρες κανόνες για να προβλέψεις την κλάση νέων δειγμάτων Σχηματικά:

Δένδρα Απόφασης ??

Δένδρα Απόφασης Θέματα: Ελλειπείς τιμές θόρυβος ‘σπάνια’ γεγονότα

Δένδρα Απόφασης Τύποι χαρακτηριστικών: Αριθμητικός (= συνεχής) – π.χ.: ‘μισθός’ Διατακτικός (= ακέραιος) – π.χ.: ‘# τέκνων’ Ονομαστικός (= κατηγορικός) – π.χ.: ‘μάρκα αυτοκινήτου’

Δένδρα Απόφασης Σχηματικά, έχουμε: num. attr#1 (e.g., ‘age’) (e.g., chol-level) + -

Δένδρα Απόφασης Και θέλουμε την κλάση του ‘?’ num. attr#2 (e.g., chol-level) ? - - + + + - + - + - + - + num. attr#1 (e.g., ‘age’)

Δένδρα Απόφασης Άρα κατασκευάζουμε ένα δένδρο απόφασης: num. attr#2 (e.g., chol-level) ? - - + + + 40 - + - + - + - + 50 num. attr#1 (e.g., ‘age’)

Δένδρα Απόφασης Η κατασκευή του δένδρου απόφασης: age<50 N Y chol. <40 + Y N - ...

Δένδρα Απόφασης Συνήθως, δύο βήματα: Κατασκευή δένδρου Κλάδευση δένδρου (για αποφυγή over-training/over-fitting)

Κατασκευή Δένδρου Πως; num. attr#2 (e.g.,chol-level) - + num. attr#1 (e.g., ‘age’) num. attr#2 (e.g.,chol-level) + -

Κατασκευή Δένδρου Πως; Aπ.: Διαχωρισμός, αναδρομικά Ψευδοκώδικας: Partition ( dataset S) if all points in S have same label then return evaluate splits along each attribute A pick best split, to divide S into S1 and S2 Partition(S1); Partition(S2) Ερ. 1: πως διαχωρίζουμε το εύρος τιμών ενός χαρακτηριστικού Ai ? Ερ. 2: πως αξιολογούμε τον διαχωρισμό?

Κατασκευή Δένδρου Ερ. 1: πως διαχωρίζουμε το εύρος τιμών ενός χαρακτηριστικού Ai ? Aπ.: Για αριθμητικά χαρακτηριστικά: Δυαδικός διαχωρισμός, ή Πολλαπλός διαχωρισμός Για κατηγορικά χαρακτηριστικά : Υπολογισμός όλων των υποσυνόλων (ακριβός!), ή Χρήση μιας άπληστης (greedy) προσέγγισης

Κατασκευή Δένδρου Ερ. 2: Πως αξιολογούμε τον διαχωρισμό? Aπ. : Από το πόσο κοντά στο κανονικό (uniform) είναι κάθε υποσύνολο - πχ., χρειαζόμαστε μια μετρική της ανομοιομορφίας:

Υπάρχουν άλλες μετρικές; Κατασκευή Δένδρου Εντροπία: H(p+, p-) Υπάρχουν άλλες μετρικές; p+: σχετική συχνότητα της κλάσης + στο S 1 0.5 1 p+

Δείκτης ‘gini’ : 1-p+2 - p-2 Κατασκευή Δένδρου Εντροπία : H(p+, p-) Δείκτης ‘gini’ : 1-p+2 - p-2 p+: σχετική συχνότητα της κλάσης + στο S 1 p+ 1 0.5 0.5 1 p+

Κατασκευή Δένδρου Διαισθητικά...: Εντροπία: #bits για την κωδικοποίηση της ετικέτας κλάσης gini: σφάλμα κατηγοριοποίησης, αν τυχαία μαντέψουμε ‘+’ με πιθανότητα p+

Κατασκευή Δένδρου Συνεπώς, επιλέγουμε το διαχωρισμό που μειώνει κατά το μέγιστο την εντροπία/σφάλμα-κατηγοριοποίησης: Π.χ.: num. attr#1 (e.g., ‘age’) num. attr#2 (e.g., chol-level) + -

(n+ + n-) * H( p+, p-) = (7+6) * H(7/13, 6/13) Κατασκευή Δένδρου Πριν τον διαχωρισμό χρειαζόμαστε: (n+ + n-) * H( p+, p-) = (7+6) * H(7/13, 6/13) bits συνολικά, για την κωδικοποίηση όλων των ετικετών κλάσης Μετά τον διαχωρισμό χρειαζόμαστε: 0 bits για το πρώτο μισό και (2+6) * H(2/8, 6/8) bits για το δεύτερο μισό

Κλάδευση Δένδρου Για ποιο λόγο; num. attr#2 (eg., chol-level) - ... + num. attr#1 (eg., ‘age’) num. attr#2 (eg., chol-level) + -

Κλάδευση Δένδρου Ερ.: Πως πραγματοποιείται; num. attr#2 ... num. attr#1 (eg., ‘age’) num. attr#2 (eg., chol-level) + -

Κλάδευση Δένδρου Ερ.: Πως πραγματοποιείται? Aπ.1: χρήση ενός συνόλου ‘εκπαίδευσης’ και ενός συνόλου ‘ελέγχου’ – κλάδευση των κόμβων που βελτιώνουν την κατηγοριοποίηση στο σύνολο ‘εκπαίδευσης’. (Μειονεκτήματα;)

Κλάδευση Δένδρου Ερ.: Πως πραγματοποιείται? Aπ.1: χρήση ενός συνόλου ‘εκπαίδευσης’ και ενός συνόλου ‘ελέγχου’ – κλάδευση των κόμβων που βελτιώνουν την κατηγοριοποίηση στο σύνολο ‘εκπαίδευσης’. (Μειονεκτήματα;) Aπ.2: ή, βασιζόμαστε στον MDL (= Minimum Description Language) – πιο λεπτομερώς:

Κλάδευση Δένδρου Αντιμετωπίζουμε το πρόβλημα ως πρόβλημα συμπίεσης ...και προσπαθούμε να ελαχιστοποιήσουμε το # των bits για τη συμπίεση (a) των ετικετών των κλάσεων ΚΑΙ (b) της αναπαράστασης του δένδρου απόφασης

(MDL) Μια εξαιρετική ιδέα– π.χ.: το βέλτιστο n-βαθμού πολυώνυμο για τη συμπίεση αυτών των σημείων: Αυτό που ελαχιστοποιεί (σύνολο των σφαλμάτων + n )