Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης ΕΚΕΦΕ «ΔΗΜΟΚΡΙΤΟΣ» Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης Γεώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg Ο.Π.Α., 2 Φεβρουαρίου 2001
Μηχανική Μάθηση Στόχος: Απόκτηση γνώσης από παραδείγματα. Προσέγγιση: Αναζήτηση στο χώρο των μοντέλων που καλύπτουν τα παραδείγματα. Εφαρμογή: Δημιουργία και βελτίωση ευφυών συστημάτων. (π.χ. Επεξεργασία Φυσικής Γλώσσας, Μοντελοποίηση Χρηστών). © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 2
Πληροφορία στον Παγκόσμιο Ιστό Ο Παγκόσμιος Ιστός μεγαλώνει: Περίπου 300.000.000 χρήστες, 1.000.000 νέες σελίδες κάθε μέρα. 600 GB αλλάζουν κάθε μέρα. ...δημιουργώντας υπερπροσφορά πληροφορίας: «Το 99% της πληροφορίας δεν ενδιαφέρει το 99% των χρηστών.» © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 3
Υπερπληροφόρηση …ο αυξανόμενος αριθμός χρηστών ... …αυξάνοντας περισσότερο την ποσότητα της πληροφορίας... …οδηγεί στην αύξηση της παρεχόμενης πληροφορίας... …ελκύοντας περισσότερους χρήστες ... …οδηγώντας στην υπερπληροφόρηση των χρηστών ... © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 4
Τρέχουσα κατάσταση Πολλές υπηρεσίες πρόσβασης στην πληροφορία ... … είναι όμως αποτελεσματικές ; © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 5
Ευφυής διαχείριση πληροφορίας Φιλτράρισμα πληροφορίας (information filtering). Φιλτράρισμα ανεπιθύμητων ηλεκτρονικών μηνυμάτων (spam mail filtering). Εξαγωγή πληροφορίας (information extraction) Αναγνώριση ονομάτων οντοτήτων (named-entity recognition). Μοντελοποίηση χρηστών (user modelling). Συνεργατικό φιλτράρισμα πληροφορίας (collaborative filtering). © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 6
Φιλτράρισμα ανεπιθύμητων ηλεκτρονικών μηνυμάτων Πηγή: Διαφημίσεις, που αποστέλλονται μαζικά σε χιλιάδες παραλήπτες. Εκτίμηση (1998): 10% της εισερχόμενης αλληλογραφίας σε επιχειρησιακά δίκτυα. Προβλήματα που δημιουργεί: Χάσιμο χρόνου και υπολογιστικών πόρων. Οικονομικό κόστος για dial-up συνδέσεις. Έκθεση σε ενοχλητικό περιεχόμενο. © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 7
Φιλτράρισμα ανεπιθύμητων ηλεκτρονικών μηνυμάτων Φιλτράρισμα: κατηγοριοποίηση μηνυμάτων σε επιθυμητά και μη. Υπάρχοντα συστήματα: «μαύρες λίστες» αποστολέων και λέξεις κλειδιά. Ανάγκη για προσαρμοζόμενα ευφυή συστήματα φιλτραρίσματος. Η προσέγγισή μας: εκπαίδευση στατιστικού ταξινομητή. © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 8
Φιλτράρισμα ανεπιθύμητων ηλεκτρονικών μηνυμάτων Γλωσσική προεπεξεργασία: αφαίρεση κοινών λέξεων και εύρεση λημμάτων. Επιλογή χαρακτηριστικών (info gain): Μοντέλο ταξινόμησης: © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 9
Αναγνώριση ονομάτων οντοτήτων Κατασκευή με μηχανική μάθηση Domain Specific Modules Εξειδίκευση στη θεματική περιοχή Προεπεξεργασία Διαχ. λεκτικών μονάδων Διαχ. προτάσεων Μορφολογικός αναλυτής Εύρεση μ.τ.λ. Λεξικό Κατάλογοι γνωστών ονομάτων Γραμματική (Επιφανειακή) συντακτική ανάλυση © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 10
Αναγνώριση ονομάτων οντοτήτων Χαρ N Χαρ 3 Χαρ 2 Χαρ 1 Δεδομένα εκπαίδευσης Χαρ 1 Χαρ 2 X Χαρ N X ; Εύρεση καλύτερου χαρα- κτηριστικού για τον δια- χωρισμό των κατηγοριών X = A X = B X = Γ Πρόσωπα Οργανισμοί Όχι ονόματα οντοτήτων © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 11
Εξατομικευμένο φιλτράρισμα πληροφορίας πηγές εξυπηρετητής παραλήπτες © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 12
Συνεργατικό φιλτράρισμα πληροφορίας Φιλτράρισμα με βάση τις επιλογές ομάδων με κοινά ενδιαφέροντα. Τεχνικές φιλτραρίσματος με χρήση απομνημόνευσης (memory-based CF). Τεχνικές φιλτραρίσματος με βάση μοντέλα κοινοτήτων (model-based CF). Ατομικό μοντέλο: © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 13
Συνεργατικό φιλτράρισμα πληροφορίας 1 αθλητικά 1 πολιτικά © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 14
Συνεργατικό φιλτράρισμα πληροφορίας 1 αθλητικά 1 πολιτικά © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 15
Συμπεράσματα Η υπερπληροφόρηση εντείνεται με την ραγδαία εξάπλωση του Διαδικτύου. Απαραίτητα τα ευφυή συστήματα διαχείρισης πληροφορίας. Η μηχανική μάθηση βοηθά στην απόκτηση γνώσης και τη δημιουργία εξατομικευμένων συστημάτων φιλτραρίσματος πληροφορίας. © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 16
Βιβλίο για μηχανική μάθηση Έκδοση βιβλίου το 2001, με θέμα “Machine Learning and Applications” Βασίζεται σε διαλέξεις και ημερίδες από το διεθνές θερινό σχολείο ACAI’99, που διοργανώθηκε στα Χανιά, από την Ελληνική Εταιρία Τεχνητής Νοημοσύνης, με την υποστήριξη του ECCAI. © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 17
Βιβλίο για μηχανική μάθηση Κεφάλαια από διαλέξεις: Μ. van Someren, R. Michalskι, Y. Kodratoff, P. Langley, R. L. de Mantaras, I. Bratko, L. de Raedt, J. Shapiro, Σ. Θεοδωρίδης, L. Saitta. Αναφορές από ημερίδες σε εφαρμογές μηχανικής μάθησης: ιατρική, οικονομικά, ενεργειακή βιομηχανία, περιβάλλον, επεξεργασία φυσικής γλώσσας, ευφυείς διαμεσολαβητές, μοντελοποίηση χρηστών, ... © Γεώργιος Παλιούρας (Φεβρουάριος 2001) 18