Μηχανική Μάθηση και Εξόρυξη Γνώσης Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel
Περιεχόμενα Διαχείριση πληροφορίας και υπερπληροφόρηση Εξόρυξη γνώσης με μεθόδους μηχανικής μάθησης Στόχοι και δομή του μαθήματος
Περιεχόμενα Διαχείριση πληροφορίας και υπερπληροφόρηση Εξόρυξη γνώσης με μεθόδους μηχανικής μάθησης Στόχοι και δομή του μαθήματος
Διαχείριση Πληροφορίας Αποθήκευση και οργάνωση πληροφοριών Ανάκτηση και εξαγωγή πληροφοριών Εξατομικευμένη διήθηση πληροφοριών Εξόρυξη γνώσης Οργάνωση και διαχείριση γνώσης
Υπερπληροφόρηση …ο αυξανόμενος αριθμός χρηστών ... …αυξάνοντας περισσότερο την ποσότητα της πληροφορίας... …οδηγεί στην αύξηση της παρεχόμενης πληροφορίας... …ελκύοντας περισσότερους χρήστες ... …οδηγώντας στην υπερπληροφόρηση των χρηστών ...
Παγκόσμιος Ιστός Ένα τεράστιο και δυναμικό πληροφοριακό σύστημα : Περισσότεροι από 600.000.000 χρήστες Περισσότεροι από 800.000 νέοι χρήστες καθημερινά Περισσότεροι από 9.000.000 ιστιακοί τόποι Περισσότερες από 300.000.000.000 ιστοσελίδες Λιγότερο του 50% των ιστιακών τόπων θα υπάρχουν τον επόμενο χρόνο year … δημιουργώντας υπερπροσφορά πληροφορίας: “99% της πληροφορίας στον Ιστό ΔΕΝ είναι χρήσιμη για το 99% των χρηστών”
Περιεχόμενα Διαχείριση πληροφορίας και υπερπληροφόρηση Εξόρυξη γνώσης με μεθόδους μηχανικής μάθησης Στόχοι και δομή του μαθήματος
Κίνητρα Ο μεγάλος όγκος πληροφορίας απαιτεί έξυπνα συστήματα διαχείρισης πληροφορίας και ιδιαίτερα εξόρυξη λειτουργικής γνώσης. Ο μεγάλος όγκος πληροφορίας ευνοεί την εξόρυξη γνώσης με μηχανική μάθηση.
Τι ΔΕΝ είναι εξόρυξη γνώσης Ανάκτηση πληροφορίας Πληροφορία (π.χ. αναφορά πωλήσεων) Δεδομένα (π.χ. βάση πελατών) Γνώση (π.χ. αγοραστικά μοντέλα) Εξόρυξη Γνώσης
Διαδικασία εξόρυξης γνώσης κύκλος εφαρμογής Κατανόηση προβλήματος τεχνικός κύκλος Επιλογή και διαμόρφωση δεδομένων Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή
Μηχανική Μάθηση Στόχος: απόκτηση λειτουργικής και κατανοητής στον άνθρωπο γνώσης από περιορισμένο σύνολο δεδομένων. Προσέγγιση: αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα. Πρόβλημα: εκθετικός χώρος αναζήτησης. Λύση: ευριστικές μέθοδοι αναζήτησης.
Μηχανική Μάθηση Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό) ή τα δεδομένα (πιο ειδικό). Τελεστές: εξειδίκευσης ή γενίκευσης. Ευριστικά: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου. Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο.
Μηχανική Μάθηση πιο γενικό μοντέλο εξειδίκευση ένα καλό μοντέλο γενίκευση πιο ειδικό μοντέλο
Περιεχόμενα Διαχείριση πληροφορίας και υπερπληροφόρηση Εξόρυξη γνώσης με μεθόδους μηχανικής μάθησης Στόχοι και δομή του μαθήματος
Εκπαιδευτικοί στόχοι Κατανόηση βασικών αρχών και θεωρίας της Μηχανικής Μάθησης Εξοικείωση με τη χρήση, την αξιολόγηση και την ανάπτυξη αλγορίθμων μηχανικής μάθησης. Απόκτηση εμπειρίας στην τεχνολογία εξόρυξης γνώσης και την ενσωμάτωσή της σε εταιρικές διαδικασίες διαχείρισης πληροφορίας. Κατανόηση των πρακτικών προβλημάτων που απαιτούν εξόρυξη γνώσης, με έμφαση στον Παγκόσμιο Ιστό.
Θεματικές ενότητες Θεωρητικά στοιχεία μηχανικής μάθησης: επαγωγικός συμπερασμός, γενίκευση, επαγωγική κλίση, αναζήτηση και κατασκευή μοντέλων, εντροπία της πληροφορίας και ελαχιστοποίηση του μεγέθους περιγραφής, θεωρία υπολογιστικής μάθησης. Μέθοδοι και αλγόριθμοι μηχανικής μάθησης: κατηγοριοποίηση των μεθόδων, επιλογή χαρακτηριστικών, επαγωγική κατασκευή δέντρων και κανόνων απόφασης, μέθοδοι απομνημόνευσης, μάθηση κατά Bayes, μέθοδοι συνδυασμού αλγορίθμων, μηχανές διανυσμάτων στήριξης, μέθοδοι ομαδοποίησης, ανακάλυψη συσχετίσεων.
Θεματικές ενότητες Η διαδικασία εξόρυξης γνώσης: το μοντέλο CRISP-DM, συλλογή και προ-επεξεργασία δεδομένων, πειραματική αξιολόγηση μεθόδων, επεξεργασία και χρήση της γνώσης, αναπαράσταση μοντέλων διάγνωσης (PMML). Εξόρυξη γνώσης από τον Παγκόσμιο Ιστό: ευφυή συστήματα πρόσβασης σε πληροφορία στον Ιστό, εξόρυξη γνώσης από κείμενα και υπερσυνδέσμους, εξόρυξη γνώσης από δεδομένα χρήσης, παραδείγματα εφαρμογών.
Προαπαιτούμενη γνώση Απαραίτητα: Επιθυμητά: Στατιστική και θεωρία πιθανοτήτων Τεχνητή Νοημοσύνη Γλώσσα προγραμματισμού Java Επιθυμητά: Αλγόριθμοι, δομές δεδομένων, πολυπλοκότητα Τεχνολογίες διαδικτύου
Λειτουργική δομή & αξιολόγηση Διάρκεια μαθήματος: 39 διδακτικές ώρες (34 ώρες διαλέξεων και 5 ώρες εργαστηρίων) 3 ασκήσεις (25% του βαθμού) 1 εργασία (25% του βαθμού) Γραπτή εξέταση (50% του βαθμού)
Μηχανική Μάθηση και Εξόρυξη Γνώσης Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» paliourg@iit.demokritos.gr http://www.iit.demokritos.gr/skel