Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεCallia Sisko Τροποποιήθηκε πριν 10 χρόνια
1
Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία
2
Αντικείμενο Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης Στόχοι Βελτίωση της αποτελεσματικότητας της ταξινόμησης Διερεύνηση των παραμέτρων του προβλήματος
3
Περιεχόμενα Περιγραφή του προβλήματος Αλγόριθμος SVM Μεθοδολογίες Πειραματική Αξιολόγηση Συμπεράσματα
4
Κατηγοριοποίηση κειμένου Παγκόσμιος ιστός μεγάλος όγκος πληροφορίας, προσβάσιμης σε μεγάλο αριθμό χρηστών έλλειψη δομής, δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες
5
Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification) Στόχοι ο προσδιορισμός: της υποκειμενικότητας (αντικειμενικό/υποκειμενικό) του προσανατολισμού άποψης (θετικό/αρνητικό) της έντασης του προσανατολισμού (πολύ, αρκετά, λίγο θετικό/αρνητικό)
6
Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά. Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά
7
Περιγραφή του προβλήματος Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο Θεωρούμε δύο κατηγορίες (θετική- αρνητική)
8
Ιδιαιτερότητες του προβλήματος Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα Π.χ. “unpredictable plot” vs. “unpredictable function” Αντιθετικό σχήμα: Π.χ. “This film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.” “[…] Still, despite these flaws, I’d go with this laptop”
9
Προσεγγίσεις Με γλωσσολογική ανάλυση Εντοπισμός συγκεκριμένων γλωσσικών δομών με βάση κανόνες και πρότυπα Υπολογισμός στατιστικών Με Μηχανική Μάθηση Αυτόματος συμπερασμός των χρήσιμων χαρακτηριστικών του κειμένου
10
SVM (Support Vectors Machines) Αλγόριθμος ταξινόμησης (classification) διανυσματική αναπαράσταση του χώρου του προβλήματος επιλογή των διανυσμάτων υποστήριξης, που συνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός
11
Δυαδική αναπαράσταση σακιδίου λέξεων Σύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου: όπου αν το εμφανίζεται στο κείμενο, αλλιώς Είδη χαρακτηριστικών Λεκτικές μονάδες (unigrams) Θέματα λέξεων (stems) Μείωση διαστασιμότητας
12
Αναπαράσταση με συχνότητες και TFIDF Αναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του στο κείμενο Αριθμός κειμένων αριθμός κειμένων στα οποία εμφανίζεται η w i αριθμός εμφανίσεων του f i στο κείμενο t
13
Όροι άρνησης Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων Π.χ. “This movie is not good” Δύσκολο να προσδιοριστεί η εμβέλειά τους
14
Όροι άρνησης Εμβέλεια άρνησης: Προσθήκη του _NOT μόνο στην επόμενη λέξη “it doesn’t entertain” “this is not a horror or teen slasher flick” σε όλα τις λέξεις μέχρι το πρώτο σημείο στίξης που ακολουθεί “won’t appreciate the delicacy of the emotional scenes” στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί “none of them are remotely interesting” “isn't nearly as dull as this”
15
Χρήση λεξικού υποκειμενικότητας Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture. Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό
16
Διάκριση υποκειμενικών και αντικειμενικών προτάσεων Ένα κείμενο περιλαμβάνει εκτός από υποκειμενική και αντικειμενική- περιγραφική πληροφορία Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων
17
Διάκριση υποκειμενικών και αντικειμενικών προτάσεων
18
Διγράμματα του Turney Οι μεμονωμένες λέξεις δεν αρκούν Συχνά ο προσανατολισμός εξαρτάται από τα συμφραζόμενα Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα Π.χ. “really surprises”, “genuine tenderness” Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό Ένταξή τους στο σακίδιο λέξεων
19
Τιμές SO_PMI Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη Τιμή συσχέτισης όπου η πιθανότητα οι και να συνεμφανίζονται
20
Τιμές SO_PMI Συσχέτιση μιας λέξης ή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων Εκτίμηση της τιμής PMI Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με χρήση τελεστών όπως οι AND και ΝEAR Προσανατολισμός
21
Τιμές SO_PMI Προσανατολισμός SO_PMI Π.χ. Με χρήση του τελεστή AND του google SO_PMI(“clever”) = +1.73 SO_PMI(“so clever”) = -0.75 SO_PMI(“good intentions”) = -5.26 SO_PMI(“independent film”) = +0.39
22
Μοντέλο μεταταξινομητή Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες
23
Μοντέλο μεταταξινομητή Συνδυασμός ταξινομητή σακιδίου λέξεων με ταξινομητή που βασίζεται στο ποσοστό θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο Συνδυασμός και των τριών ταξινομητών
24
Πειραματική αξιολόγηση – Σώματα κειμένων Βάση με κριτικές ταινιών Μεγάλης έκτασης, καλά δομημένα κείμενα Βάση με έγγραφα που συλλέχτηκαν από φόρα και blog και αναφέρονται σε αλυσίδα καταστημάτων Μικρής έκτασης, άναρχα δομημένα Αφαιρέθηκαν οι ετικέτες html Απομονώθηκαν οι προτάσεις που αναφέρονται στην εταιρεία Βάση θετικών και αρνητικών προτάσεων
25
Πειραματική αξιολόγηση Μέτρο αποτελεσματικότητας ταξινόμησης: ορθότητα (accuracy) Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2 φορές ως μέλος του συνόλου εκπαίδευσης
26
Πειραματική αξιολόγηση – Κριτικές ταινιών Σακίδιο λέξεων Καλύτερα αποτελέσματα η δυαδική αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1% Η μείωση διαστασιμότητας δε βελτιώνει τα αποτελέσματα Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9% Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%
27
Πειραματική αξιολόγηση – Κριτικές ταινιών Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%) Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων
28
Πειραματική αξιολόγηση – Κριτικές ταινιών Φίλτρο αντικειμενικών προτάσεων
29
Πειραματική αξιολόγηση – Κριτικές ταινιών Μεταταξινομητής: Συνδυασμός ταξινομητών με σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25% με σακίδιο λέξεων – με χρήση λεξικών υποκειμενικότητας Ορθότητα 85.3% και των τριών Ορθότητα 86.35%
30
Πειραματική αξιολόγηση – Κριτικές ταινιών Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο: Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας Αξιοποίησή της σε ξεχωριστό ταξινομητή και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή Βελτίωση της αποτελεσματικότητας
31
Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτων Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας Ορθότητα 64.3% Χαμηλές τιμές ορθότητας λόγω Μεγάλης διασποράς των λεκτικών μονάδων Μικρού διαθέσιμου σώματος εκπαίδευσης Άναρχης δομής
32
Πειραματική αξιολόγηση - Προτάσεις Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας Ορθότητα 74.4% Παρά το μεγάλο διαθέσιμο σώμα εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής
33
Συμπεράσματα Απλό σακίδιο λέξεων με δυαδική αναπαράσταση αρκετά καλά αποτελέσματα (84.1%) Φίλτρο αντικειμενικών προτάσεων: μικρή βελτίωση της ορθότητας (85.45%) σημαντικός περιορισμός του όγκου των κειμένων
34
Συμπεράσματα Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό Μεταταξινομητές βελτίωση της ορθότητας (86.25%) ευελιξία για το συνδυασμό διαφορετικών ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας
35
Συμπεράσματα Κριτικές ταινιών Ικανοποιητικά αποτελέσματα Αλλά κατώτερα της θεματικής κατηγοριοποίησης κειμένων Μικρής έκτασης αποσπάσματα Χαμηλές τιμές ορθότητας
36
Μελλοντικές κατευθύνσεις Απαραίτητη η γλωσσολογική ανάλυση των κειμένων Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης Αξιοποίηση του μοντέλου του μεταταξινομητή Προσδιορισμός άποψης για πιο εντοπισμένα θέματα
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.