Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία."— Μεταγράφημα παρουσίασης:

1 Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία

2 Αντικείμενο  Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης  Στόχοι  Βελτίωση της αποτελεσματικότητας της ταξινόμησης  Διερεύνηση των παραμέτρων του προβλήματος

3 Περιεχόμενα  Περιγραφή του προβλήματος  Αλγόριθμος SVM  Μεθοδολογίες  Πειραματική Αξιολόγηση  Συμπεράσματα

4 Κατηγοριοποίηση κειμένου Παγκόσμιος ιστός  μεγάλος όγκος πληροφορίας, προσβάσιμης σε μεγάλο αριθμό χρηστών  έλλειψη δομής, δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

5 Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification) Στόχοι ο προσδιορισμός:  της υποκειμενικότητας (αντικειμενικό/υποκειμενικό)  του προσανατολισμού άποψης (θετικό/αρνητικό)  της έντασης του προσανατολισμού (πολύ, αρκετά, λίγο θετικό/αρνητικό)

6 Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη  Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά.  Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά

7 Περιγραφή του προβλήματος  Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο  Θεωρούμε δύο κατηγορίες (θετική- αρνητική)

8 Ιδιαιτερότητες του προβλήματος  Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές)  Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά  Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα  Π.χ. “unpredictable plot” vs. “unpredictable function”  Αντιθετικό σχήμα: Π.χ.  “This film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.”  “[…] Still, despite these flaws, I’d go with this laptop”

9 Προσεγγίσεις  Με γλωσσολογική ανάλυση  Εντοπισμός συγκεκριμένων γλωσσικών δομών με βάση κανόνες και πρότυπα  Υπολογισμός στατιστικών  Με Μηχανική Μάθηση  Αυτόματος συμπερασμός των χρήσιμων χαρακτηριστικών του κειμένου

10 SVM (Support Vectors Machines) Αλγόριθμος ταξινόμησης (classification)  διανυσματική αναπαράσταση του χώρου του προβλήματος  επιλογή των διανυσμάτων υποστήριξης, που συνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός

11 Δυαδική αναπαράσταση σακιδίου λέξεων Σύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου: όπου αν το εμφανίζεται στο κείμενο, αλλιώς  Είδη χαρακτηριστικών  Λεκτικές μονάδες (unigrams)  Θέματα λέξεων (stems)  Μείωση διαστασιμότητας

12 Αναπαράσταση με συχνότητες και TFIDF  Αναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του στο κείμενο  Αριθμός κειμένων αριθμός κειμένων στα οποία εμφανίζεται η w i αριθμός εμφανίσεων του f i στο κείμενο t

13 Όροι άρνησης  Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων Π.χ. “This movie is not good”  Δύσκολο να προσδιοριστεί η εμβέλειά τους

14 Όροι άρνησης Εμβέλεια άρνησης: Προσθήκη του _NOT  μόνο στην επόμενη λέξη  “it doesn’t entertain”  “this is not a horror or teen slasher flick”  σε όλα τις λέξεις μέχρι το πρώτο σημείο στίξης που ακολουθεί  “won’t appreciate the delicacy of the emotional scenes”  στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί  “none of them are remotely interesting”  “isn't nearly as dull as this”

15 Χρήση λεξικού υποκειμενικότητας  Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά  Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων  Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture. Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

16 Διάκριση υποκειμενικών και αντικειμενικών προτάσεων  Ένα κείμενο περιλαμβάνει εκτός από υποκειμενική και αντικειμενική- περιγραφική πληροφορία  Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων

17 Διάκριση υποκειμενικών και αντικειμενικών προτάσεων

18 Διγράμματα του Turney  Οι μεμονωμένες λέξεις δεν αρκούν  Συχνά ο προσανατολισμός εξαρτάται από τα συμφραζόμενα  Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα  Π.χ. “really surprises”, “genuine tenderness”  Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό  Ένταξή τους στο σακίδιο λέξεων

19 Τιμές SO_PMI  Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη  Τιμή συσχέτισης όπου η πιθανότητα οι και να συνεμφανίζονται

20 Τιμές SO_PMI  Συσχέτιση μιας λέξης ή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων  Εκτίμηση της τιμής PMI  Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με χρήση τελεστών όπως οι AND και ΝEAR  Προσανατολισμός

21 Τιμές SO_PMI  Προσανατολισμός SO_PMI  Π.χ. Με χρήση του τελεστή AND του google  SO_PMI(“clever”) =  SO_PMI(“so clever”) =  SO_PMI(“good intentions”) =  SO_PMI(“independent film”) = +0.39

22 Μοντέλο μεταταξινομητή  Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες

23 Μοντέλο μεταταξινομητή  Συνδυασμός ταξινομητή σακιδίου λέξεων  με ταξινομητή που βασίζεται στο ποσοστό θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας  με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο  Συνδυασμός και των τριών ταξινομητών

24 Πειραματική αξιολόγηση – Σώματα κειμένων  Βάση με κριτικές ταινιών  Μεγάλης έκτασης, καλά δομημένα κείμενα  Βάση με έγγραφα που συλλέχτηκαν από φόρα και blog και αναφέρονται σε αλυσίδα καταστημάτων  Μικρής έκτασης, άναρχα δομημένα  Αφαιρέθηκαν οι ετικέτες html  Απομονώθηκαν οι προτάσεις που αναφέρονται στην εταιρεία  Βάση θετικών και αρνητικών προτάσεων

25 Πειραματική αξιολόγηση  Μέτρο αποτελεσματικότητας ταξινόμησης: ορθότητα (accuracy)  Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2 φορές ως μέλος του συνόλου εκπαίδευσης

26 Πειραματική αξιολόγηση – Κριτικές ταινιών Σακίδιο λέξεων  Καλύτερα αποτελέσματα η δυαδική αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1%  Η μείωση διαστασιμότητας δε βελτιώνει τα αποτελέσματα  Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9%  Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%   

27 Πειραματική αξιολόγηση – Κριτικές ταινιών  Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%)  Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων 

28 Πειραματική αξιολόγηση – Κριτικές ταινιών  Φίλτρο αντικειμενικών προτάσεων

29 Πειραματική αξιολόγηση – Κριτικές ταινιών Μεταταξινομητής: Συνδυασμός ταξινομητών  με σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25%  με σακίδιο λέξεων – με χρήση λεξικών υποκειμενικότητας Ορθότητα 85.3%  και των τριών Ορθότητα 86.35%   

30 Πειραματική αξιολόγηση – Κριτικές ταινιών Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο:  Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας  Αξιοποίησή της σε ξεχωριστό ταξινομητή και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή Βελτίωση της αποτελεσματικότητας

31 Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτων  Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας Ορθότητα 64.3%  Χαμηλές τιμές ορθότητας λόγω  Μεγάλης διασποράς των λεκτικών μονάδων  Μικρού διαθέσιμου σώματος εκπαίδευσης  Άναρχης δομής 

32 Πειραματική αξιολόγηση - Προτάσεις  Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας Ορθότητα 74.4%  Παρά το μεγάλο διαθέσιμο σώμα εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής 

33 Συμπεράσματα  Απλό σακίδιο λέξεων με δυαδική αναπαράσταση  αρκετά καλά αποτελέσματα (84.1%)  Φίλτρο αντικειμενικών προτάσεων:  μικρή βελτίωση της ορθότητας (85.45%)  σημαντικός περιορισμός του όγκου των κειμένων

34 Συμπεράσματα  Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό  Μεταταξινομητές  βελτίωση της ορθότητας (86.25%)  ευελιξία για το συνδυασμό διαφορετικών ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας

35 Συμπεράσματα  Κριτικές ταινιών  Ικανοποιητικά αποτελέσματα  Αλλά κατώτερα της θεματικής κατηγοριοποίησης κειμένων  Μικρής έκτασης αποσπάσματα  Χαμηλές τιμές ορθότητας

36 Μελλοντικές κατευθύνσεις  Απαραίτητη η γλωσσολογική ανάλυση των κειμένων  Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης  Αξιοποίηση του μοντέλου του μεταταξινομητή  Προσδιορισμός άποψης για πιο εντοπισμένα θέματα


Κατέβασμα ppt "Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google