Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Χρήση διαδικτύου και αξιολόγηση ιστοσελίδων. Χρήση διαδικτύου Πλαίσιο αναφοράς: η εκπαιδευτική αξιοποίηση Λειτουργίες: αναζήτηση, επεξεργασία, αναμετάδωση.
Advertisements

ΑΞΙΟΛΟΓΗΣΗ ΕΙΣΑΓΩΓΗ Στη διδακτική διαδικασία ο διδάσκων θέτει στόχους, στη συνέχεια μεριμνά για την επίτευξή τους και τέλος αξιολογεί το έργο του, το υλικό.
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΙΚΟΝΕΣ
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Βασικές κατηγορίες εκπαιδευτικού λογισμικού
ShareIt Social Network Project Simos Hatzikostas: Manolhs Georgiou: Theodoros Demetriou:
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
To Διαδίκτυο ως πηγή πληροφοριών Ενότητα 3. Πλεονεκτήματα σε επίπεδο πηγών ► Υπάρχει πληθώρα πληροφοριών (που περιλαµβάνουν µεγάλο εύρος από media). ►
Ανάλυση & Περιγραφή Θέσεων Εργασίας
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
ΕΡΕΥΝΑ ΜΑΡΚΕΤΙΝΓΚ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΙΙ: ΤΥΠΟΙ ΕΡΩΤΗΣΕΩΝ.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Οδηγίες Σχεδίασης Διαδραστικών Συστημάτων
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Εποπτεύων καθηγητής: Κος Σαράντος Καπιδάκης
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Η ποιότητα της πληροφορίας στο εκπαιδευτικό υλικό που χρησιμοποιείται ή διανέμεται μέσω του Internet Χρήστος Σαβρανίδης Πανεπιστήμιο Ιωαννίνων Τμήμα ΦΠΨ.
Αναγνώριση Προτύπων.
Tσουλής Μιλτιάδης: – Βασικές έννοιες στη Διδακτική με την υποστήριξη των ΤΠΕ.
Ο αυτοματισμός στις εργασίες διαχείρισης περιοδικών : έρευνα σε βιβλιοθήκες της Αθήνας Αναστασία Διαγγελάκη Χριστίνα Κανάκη (Ιωάννινα, Σεπτέμβριος 2008)
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 3) 1 Από κοινού κατανομή δύο ΤΜ Στην περίπτωση που υπάρχουν δύο ΤΜ ενδιαφέροντος, η συνάρτηση κατανομής.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Θέμα: Διοίκηση ανάπτυξης μη-κερδοσκοπικού ιστόπεδου (ιστόπεδου Δήμου Αγ.Παρασκευής)
Αξιολόγηση του Μαθητή Σεπτέμβριος Αξιολόγηση στην Εκπαίδευση Τί είναι η αξιολόγηση; Τι είναι η Αξιολόγηση: Είναι όλες εκείνες οι ενέργειες των εκπαιδευτικών.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
Center for Collaboration and Exchange (cce): Ένα εργαλείο για την υποστήριξη κοινοτήτων δράσης Χ. Κυνηγός, Ε. Τρούκη, Ν. Γιαννούτσου, Μ. Φουντάνα, Τ. Αθανασίου.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
31 Μαρτίου 2015 ΔΙΑΦΑΝΕΙΑ 1 ΤΥΠΙΚΕΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΤΜ. ΠΛΗΡΟΦΟΡΙΚΗΣ Α.Π.Θ. – ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ ΚΑΤΗΓΟΡΗΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ Ι Για τον προτασιακό.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Σεμινάριο Οργάνωσης και Διοίκησης της Εκπαίδευσης Διδάσκουσα: Ελευθερία Αργυροπούλου.
Ο ρόλος της τρισδιάστατης Ψηφιακής Μοντελοποίησης στη διδασκαλία του Προγραμματισμού: υλοποιώντας ένα μοντέλο του DNA – μια διαθεματική προσέγγιση Β. Ρεπαντής.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Τηλεπικοινωνιών και Πληροφορίας & Δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ “Χρονοπρογραμματισμός.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Το κόστος ποιότητας στην μεταλλουργία Ανδρίτσος Δημήτριος Διπλωματική εργασία ΑΘΗΝΑ 2002.
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
CIDOC CRM HY-566 Διαχείρηση Γνώσης στο Διαδίκτυο Μελεσανάκης Βαλάντης Ρουσσάκης Ιωάννης
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΟΠΤΙΚΩΝ ΣΗΜΑΤΩΝ
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: ΤΑΞΙΝΟΜΗΣΗ ΨΗΦΙΑΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΧΩΡΙΚΗ-ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΤΙΣΤΟΙΧΗΣΗ ΣΠΟΥΔΑΣΤΗΣ : ΦΩΤΙΑΔΗΣ ΚΥΡΙΑΚΟΣ Α.Μ ΕΠΙΒΛΕΠΩΝ : Δρ. ΝΙΚΟΛΑΙΔΗΣ.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
ΤΡΟΠΟΣ ΣΥΓΓΡΑΦΗΣ ΕΠΙΣΤΗΜΟΝΙΚΩΝ ΕΡΓΑΣΙΩΝ
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο ΙΙ
Τα καινοτόμα χαρακτηριστικά του Διαδικτύου και η ευρεία του αποδοχή από τις νεαρές ηλικίες καλλιέργησαν την ιδέα της αξιοποίησής του ως ένα εργαλείο στην.
Ανακαλυπτική μάθηση Γνώση προϊόν του μαθητή Διαδικασία ανακάλυψης η έρευνα για τον εντοπισμό του ακαθορίστου Μέσα από τα ερεθίσματα που του δίνει ο εκπαιδευτικός.
3.1. Το διαδίκτυο ως πηγή πληροφοριών
ΤΑ 8 ΘΑΝΑΣΙΜΑ ΑΜΑΡΤΗΜΑΤΑ ΤΟΥ ΠΟΛΙΤΙΣΜΟΥ ΜΑΣ
ΣΧΕΔΙΟ ΕΡΓΑΣΙΑΣ ( PROJECT)
Θέμα: Επιλέξτε μια προτεινόμενη δραστηριότητα από τη θεματική περιοχή των Στοχαστικών Μαθηματικών (Πιθανότητες, Στατιστική) από το έγγραφο «Μαθηματικά.
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ
Χρήση διαδικτύου και αξιολόγηση ιστοσελίδων
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
Εννοιολογική Χαρτογράφηση
Εισαγωγή Για σχεδόν τέσσερις δεκαετίες, οι προσωπικοί υπολογιστές αποτελούνταν από ένα desktop system και ένα folder system metaphors για τη διαχείριση.
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
«Βιβλιοθήκη ανοικτού εκπαιδευτικού λογισμικού ΠΣΔ:
Μεταγράφημα παρουσίασης:

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία

Αντικείμενο  Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης  Στόχοι  Βελτίωση της αποτελεσματικότητας της ταξινόμησης  Διερεύνηση των παραμέτρων του προβλήματος

Περιεχόμενα  Περιγραφή του προβλήματος  Αλγόριθμος SVM  Μεθοδολογίες  Πειραματική Αξιολόγηση  Συμπεράσματα

Κατηγοριοποίηση κειμένου Παγκόσμιος ιστός  μεγάλος όγκος πληροφορίας, προσβάσιμης σε μεγάλο αριθμό χρηστών  έλλειψη δομής, δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification) Στόχοι ο προσδιορισμός:  της υποκειμενικότητας (αντικειμενικό/υποκειμενικό)  του προσανατολισμού άποψης (θετικό/αρνητικό)  της έντασης του προσανατολισμού (πολύ, αρκετά, λίγο θετικό/αρνητικό)

Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη  Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά.  Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά

Περιγραφή του προβλήματος  Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο  Θεωρούμε δύο κατηγορίες (θετική- αρνητική)

Ιδιαιτερότητες του προβλήματος  Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές)  Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά  Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα  Π.χ. “unpredictable plot” vs. “unpredictable function”  Αντιθετικό σχήμα: Π.χ.  “This film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.”  “[…] Still, despite these flaws, I’d go with this laptop”

Προσεγγίσεις  Με γλωσσολογική ανάλυση  Εντοπισμός συγκεκριμένων γλωσσικών δομών με βάση κανόνες και πρότυπα  Υπολογισμός στατιστικών  Με Μηχανική Μάθηση  Αυτόματος συμπερασμός των χρήσιμων χαρακτηριστικών του κειμένου

SVM (Support Vectors Machines) Αλγόριθμος ταξινόμησης (classification)  διανυσματική αναπαράσταση του χώρου του προβλήματος  επιλογή των διανυσμάτων υποστήριξης, που συνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός

Δυαδική αναπαράσταση σακιδίου λέξεων Σύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου: όπου αν το εμφανίζεται στο κείμενο, αλλιώς  Είδη χαρακτηριστικών  Λεκτικές μονάδες (unigrams)  Θέματα λέξεων (stems)  Μείωση διαστασιμότητας

Αναπαράσταση με συχνότητες και TFIDF  Αναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του στο κείμενο  Αριθμός κειμένων αριθμός κειμένων στα οποία εμφανίζεται η w i αριθμός εμφανίσεων του f i στο κείμενο t

Όροι άρνησης  Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων Π.χ. “This movie is not good”  Δύσκολο να προσδιοριστεί η εμβέλειά τους

Όροι άρνησης Εμβέλεια άρνησης: Προσθήκη του _NOT  μόνο στην επόμενη λέξη  “it doesn’t entertain”  “this is not a horror or teen slasher flick”  σε όλα τις λέξεις μέχρι το πρώτο σημείο στίξης που ακολουθεί  “won’t appreciate the delicacy of the emotional scenes”  στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί  “none of them are remotely interesting”  “isn't nearly as dull as this”

Χρήση λεξικού υποκειμενικότητας  Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά  Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων  Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture. Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

Διάκριση υποκειμενικών και αντικειμενικών προτάσεων  Ένα κείμενο περιλαμβάνει εκτός από υποκειμενική και αντικειμενική- περιγραφική πληροφορία  Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων

Διάκριση υποκειμενικών και αντικειμενικών προτάσεων

Διγράμματα του Turney  Οι μεμονωμένες λέξεις δεν αρκούν  Συχνά ο προσανατολισμός εξαρτάται από τα συμφραζόμενα  Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα  Π.χ. “really surprises”, “genuine tenderness”  Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό  Ένταξή τους στο σακίδιο λέξεων

Τιμές SO_PMI  Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη  Τιμή συσχέτισης όπου η πιθανότητα οι και να συνεμφανίζονται

Τιμές SO_PMI  Συσχέτιση μιας λέξης ή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων  Εκτίμηση της τιμής PMI  Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με χρήση τελεστών όπως οι AND και ΝEAR  Προσανατολισμός

Τιμές SO_PMI  Προσανατολισμός SO_PMI  Π.χ. Με χρήση του τελεστή AND του google  SO_PMI(“clever”) =  SO_PMI(“so clever”) =  SO_PMI(“good intentions”) =  SO_PMI(“independent film”) = +0.39

Μοντέλο μεταταξινομητή  Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες

Μοντέλο μεταταξινομητή  Συνδυασμός ταξινομητή σακιδίου λέξεων  με ταξινομητή που βασίζεται στο ποσοστό θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας  με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο  Συνδυασμός και των τριών ταξινομητών

Πειραματική αξιολόγηση – Σώματα κειμένων  Βάση με κριτικές ταινιών  Μεγάλης έκτασης, καλά δομημένα κείμενα  Βάση με έγγραφα που συλλέχτηκαν από φόρα και blog και αναφέρονται σε αλυσίδα καταστημάτων  Μικρής έκτασης, άναρχα δομημένα  Αφαιρέθηκαν οι ετικέτες html  Απομονώθηκαν οι προτάσεις που αναφέρονται στην εταιρεία  Βάση θετικών και αρνητικών προτάσεων

Πειραματική αξιολόγηση  Μέτρο αποτελεσματικότητας ταξινόμησης: ορθότητα (accuracy)  Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2 φορές ως μέλος του συνόλου εκπαίδευσης

Πειραματική αξιολόγηση – Κριτικές ταινιών Σακίδιο λέξεων  Καλύτερα αποτελέσματα η δυαδική αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1%  Η μείωση διαστασιμότητας δε βελτιώνει τα αποτελέσματα  Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9%  Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%   

Πειραματική αξιολόγηση – Κριτικές ταινιών  Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%)  Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων 

Πειραματική αξιολόγηση – Κριτικές ταινιών  Φίλτρο αντικειμενικών προτάσεων

Πειραματική αξιολόγηση – Κριτικές ταινιών Μεταταξινομητής: Συνδυασμός ταξινομητών  με σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25%  με σακίδιο λέξεων – με χρήση λεξικών υποκειμενικότητας Ορθότητα 85.3%  και των τριών Ορθότητα 86.35%   

Πειραματική αξιολόγηση – Κριτικές ταινιών Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο:  Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας  Αξιοποίησή της σε ξεχωριστό ταξινομητή και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή Βελτίωση της αποτελεσματικότητας

Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτων  Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας Ορθότητα 64.3%  Χαμηλές τιμές ορθότητας λόγω  Μεγάλης διασποράς των λεκτικών μονάδων  Μικρού διαθέσιμου σώματος εκπαίδευσης  Άναρχης δομής 

Πειραματική αξιολόγηση - Προτάσεις  Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας Ορθότητα 74.4%  Παρά το μεγάλο διαθέσιμο σώμα εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής 

Συμπεράσματα  Απλό σακίδιο λέξεων με δυαδική αναπαράσταση  αρκετά καλά αποτελέσματα (84.1%)  Φίλτρο αντικειμενικών προτάσεων:  μικρή βελτίωση της ορθότητας (85.45%)  σημαντικός περιορισμός του όγκου των κειμένων

Συμπεράσματα  Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό  Μεταταξινομητές  βελτίωση της ορθότητας (86.25%)  ευελιξία για το συνδυασμό διαφορετικών ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας

Συμπεράσματα  Κριτικές ταινιών  Ικανοποιητικά αποτελέσματα  Αλλά κατώτερα της θεματικής κατηγοριοποίησης κειμένων  Μικρής έκτασης αποσπάσματα  Χαμηλές τιμές ορθότητας

Μελλοντικές κατευθύνσεις  Απαραίτητη η γλωσσολογική ανάλυση των κειμένων  Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης  Αξιοποίηση του μοντέλου του μεταταξινομητή  Προσδιορισμός άποψης για πιο εντοπισμένα θέματα