Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Εισαγωγή n Στόχος είναι η χρήση ευφυών μεθόδων στην αυτόματη ταξινόμηση/κατηγοριοποίηση συλλογών κειμένων σύμφωνα με το ύφος έκφρασης των συγγραφέων. n Παρόμοιες μέθοδοι απαιτούνται πολύ συχνά σε εφαρμογές αναζήτησης πληροφορίας όπου οι βάσεις περιέχουν μεγάλο πλήθος κειμένων. Στις περιπτώσεις αυτές, το ύφος μπορεί να συνδυαστεί με το περιεχόμενο για να βελτιωθεί η ακρίβεια της αναζήτησης. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Εισαγωγή (2) n Ο υφολογικός χαρακτηρισμός κειμένων με χειρωνακτικό τρόπο είναι χρονοβόρος και απαιτεί εξειδικευμένο προσωπικό. n Για την αυτοματοποίηση του χαρακτηρισμού έχουν χρησιμοποιηθεί αρκετές μέθοδοι, ως επί το πλείστον βασισμένες σε στατιστικές μεθόδους. n Πρόσφατα έχουν προταθεί μέθοδοι βασισμένες σε μοντέλα νευρωνικών δικτύων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Εισαγωγή (3) Στη συγκεκριμένη παρουσίαση εξετάζεται η εφαρμογή του νευρωνικού δικτύου SOM (Self- Organising Map) στην υφολογική σύγκριση κειμένων της Ελληνικής γλώσσας. Στο ΙΕΛ έχει πραγματοποιηθεί έρευνα στον τομέα της υφολογικής ανάλυσης τα τελευταία χρόνια στα πλαίσια ερευνητικών προγραμμάτων, με συμμετοχή των: F Σ. Μαρκαντωνάτου F Ν. Χαιρετάκη F Μ. Βασιλείου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Το νευρωνικό δίκτυο SOM Το νευρωνικό δίκτυο SOM έχει εμπνευστεί από τη δομή των βιολογικών νευρωνικών δικτύων. n Έχει μία κανονική δομή κόμβων/νευρώνων, όπου γειτονικοί κόμβοι εκπαιδεύονται με παρόμοιο τρόπο. n Έχει εφαρμοστεί σε ποικίλους τομείς, όπως αναγνώριση φωνής, εύρεση βέλτιστου μονοπατιού, αυτόνομη πλοήγηση στο χώρο. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Χαρακτηριστικά του μοντέλου SOM n Εκπαιδεύεται αυτόνομα, χωρίς την ανάγκη παροχής πληροφορίας για την κατηγορία στην οποία ανήκει κάθε πρότυπο. n H δομή του είναι άμεσα επεκτάσιμη, επιτρέποντας τη χρήση του σε πραγματικές εφαρμογές. n Έχει τη δυνατότητα να απεικονίζει άμεσα στον χάρτη την κατάσταση στο χώρο προτύπων, διατηρώντας τις σχέσεις μεταξύ ομάδων προτύπων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Αρχιτεκτονική διδιάστατου SOM ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Eκπαίδευση δικτύου SOM (t 1 <t 2 ) ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Πείραμα Ταξινόμησης n Η μέθοδος SOM χρησιμοποιείται για να διαχωρίσει ένα σώμα κειμένων βάσει των χαρακτηριστικών των συγγραφέων τους. n Συγκεκριμένα, επιλέχθηκαν πέντε μέλη της Ελληνικής Βουλής, ένα από κάθε πολιτικό κόμμα με κοινοβουλευτική εκπροσώπηση κατά την περίοδο ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Δομή σωμάτων κειμένων ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Γλωσσικές Μεταβλητές ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING ΠλήθοςΓλωσσική ιδιότητα κατηγορίας 22Ρηματικές μεταβλητές (διγλωσσία + τρόπος εκφοράς λόγου) 11Μέρη του Λόγου 24Μακροσκοπικά δομικά χαρακτηριστικά 3Μικροσκοπικά δομικά χαρακτηριστικά 9Έκφραση άρνησης 17Συχνότητα εμφάνισης συγκεκριμένων λημμάτων
Ομαδοποιώντας τα αποτελέσματα του SOM ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Χρησιμοποιείται υβρίδιο (CSOM), όπου οι κόμβοι ενός χάρτη SOM ομαδοποιούνται με στατιστική μέθοδο για να καταδείξουν τις ομάδες που ενυπάρχουν στη βάση. Aν και το βασικό SOM δίνει τα καλύτερα αποτελέσματα διαχωρισμού, το υβρίδιο CSOM εμφανίζει μία παραπλήσια ακρίβεια ενώ μία αμιγώς στατιστική μέθοδος ομαδοποίησης δίνει χαμηλότερη ακρίβεια.
Πειραματικά Αποτελέσματα Η ακρίβεια κατηγοριοποίησης είναι 84% (χάρτης 4x8 κόμβων) για τα κείμενα του Corpus I. Με χρήση υβριδικού μοντέλου, η ακρίβεια κατηγοριοποίησης είναι 80% ενώ οι απαιτήσεις επισημείωσης μειώνονται στο 35%. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Παράδειγμα ταξινόμησης του Corpus I ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
Εφαρμογή του CSOM στο Corpus II ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Συμπεράσματα F Εφαρμόστηκαν νευρωνικά δίκτυα στο πρόβλημα του διαχωρισμού κειμένων της Ελληνικής γλώσσας. F Τα αποτελέσματα δείχνουν ότι τα δίκτυα ταξινομούν επιτυχώς τα κείμενα, βάσει των υφολογικών χαρακτηριστικών των συγγραφέων. F Tο υβρίδιο CSOM παράγει μία αποτελεσματική κατηγοριοποίηση για τα σώματα κειμένων με αυτοματοποιημένο τρόπο, ενώ μειώνει τις απαιτήσεις επισημείωσης των κατηγοριών.