Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."— Μεταγράφημα παρουσίασης:

1 Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος

2 20/6/2014 Γλωσσική Τεχνολογία2 Τι είναι το ευρετήριο;  Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο  Τύποι οργάνωσης  Αλφαβητική (Α-Ω)  Δευτερευόντων όρων (υπο-καταχωρήσεων)  Διαφόρων όρων (πολλαπλές καταχωρήσεις)  Ετερο-αναφορών

3 20/6/2014 Γλωσσική Τεχνολογία3 Κανόνες ευρετηρίασης  Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα  Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη  Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

4 20/6/2014 Γλωσσική Τεχνολογία4 Δημιουργώντας το ευρετήριο Αρχείο Ευρετηρίου Αρχείο κειμένων

5 20/6/2014 Γλωσσική Τεχνολογία5 Αξιολόγηση της Ανάκτησης  Ακρίβεια  Ποσοστό σχετικών κειμένων στα ανακτηθέντα  Ακρίβεια(P) = |σχετικά  ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα )  Ανάκληση  Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών  Ανάκληση(R) = |σχετικά  ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά )  F1 Μετρική  F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας

6 20/6/2014 Γλωσσική Τεχνολογία6 Λόγος Ακρίβειας/Ανάκλησης Κείμενα RP Ra Ανακτηθέντα σχετικά! Recall Precis Σχετικά κείμενα Μέση Ακρίβεια = 0.62 ( ) / 5 Ακρίβεια Ανάκληση

7 20/6/2014 Γλωσσική Τεχνολογία7 Θεματικά Ευρετήρια  Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Μουσική Θέατρο Τέχνη Αναγνωριστικά κειμένων

8 20/6/2014 Γλωσσική Τεχνολογία8 Πολλαπλά ευρετήρια  Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων

9 20/6/2014 Γλωσσική Τεχνολογία9 Αναζήτηση κειμένων Λεξικό Μουσική – 0 Τέχνη – 1 Πιάνο – 2 Ευρετήριο 0 -> 0, 1 1 -> 0, 2 2 -> 1 Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” IDs λέξεων : 0, 1 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): 0 (Μουσική)1 (Τέχνη)Αποτέλεσμα 00Βρέθηκε! 1n/aΔεν Βρέθηκε! n/a2Δεν Βρέθηκε!

10 20/6/2014 Γλωσσική Τεχνολογία10 Είδη Ευρετηρίων  Θεματικά  Συγγραφέων  Ονομάτων  Γεωγραφικά  Τίτλων  Αριθμών και κωδικών

11 20/6/2014 Γλωσσική Τεχνολογία11 Ευρετήρια Τίτλων KWIC (KeyWord-in-Context)  Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea

12 20/6/2014 Γλωσσική Τεχνολογία12 Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context) Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: LibraryA modern outline of library classification LibraryIntroduction to library classification LibraryLibrary education LibraryPublic library administration LibraryNational Library of Canada

13 20/6/2014 Γλωσσική Τεχνολογία13 KWIC vs. KWOC  Απαλοιφή τερματικών όρων  Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού  Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες

14 20/6/2014 Γλωσσική Τεχνολογία14 Λέξεις - Κλειδιά Πλεονεκτήματα  Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα  Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών  Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

15 20/6/2014 Γλωσσική Τεχνολογία15 Επιλέγοντας τις λέξεις-κλειδιά Βήματα επεξεργασίας κειμένου: 1. Αναγνώριση προτάσεων και λέξεων 2. Μορφοσυντακτική ανάλυση 3. Απαλοιφή τερματικών όρων 4. Μετρική βαθμολόγησης σπουδαιότητας 5. Επιλογή σημαντικών όρων

16 20/6/2014 Γλωσσική Τεχνολογία16 Μορφοσυντακτική ανάλυση  Κρυφά Μοντέλα Markov  Νευρωνικά Δίκτυα  Μετασχηματιστικοί Κανόνες  Δέντρα Απόφασης  Μοντέλα Μέγιστης Εντροπίας

17 20/6/2014 Γλωσσική Τεχνολογία17 Μορφοσυντακτική ανάλυση  Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου the koala put the keys on the table Λέξεις Ετικέτες N V P DET Πώς θα βρούμε την POS ετικέτα;

18 20/6/2014 Γλωσσική Τεχνολογία18 Μορφοσυντακτική ανάλυση

19 20/6/2014 Γλωσσική Τεχνολογία19 Πού θα βρούμε τις ετικέτες;

20 20/6/2014 Γλωσσική Τεχνολογία20 Μετασχηματιστικοί Κανόνες 1. Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό)  Charniak: 90% σωστές επιλογές ως εδώ! 2. Χρήση μετασχηματιστικών κανόνων 3. Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα

21 20/6/2014 Γλωσσική Τεχνολογία21 Μηχανική Μάθηση Κανόνων

22  Είσοδος:  Σώμα κειμένων C1 χωρίς ετικέττες (tags)  Ακριβές αντίγραφό του C2, μορφοσυντακτικά σχολιασμένο από ειδικούς.  Πρότυπα κανόνων  Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger  Παραγωγή του C1a.  Βήμα 2:  Σύγκριση του σώματος C1a με το ιδανικό C2.  Καθορισμός της λίστας των λανθασμένων επιλογών.  Από τη λίστα των λαθών, κατασκευάζονται με χρήση προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν. 20/6/2014 Γλωσσική Τεχνολογία22

23 Μηχανική Μάθηση Κανόνων  Βήμα 3:  Εφαρμογή των κανόνων και ανάθεση ενός σκορ σε κάθε κανόνα.  Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών  Επιλογή κανόνα με το καλύτερο σκορ  Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα.  Βήμα 5:  Τερματισμός αν η βελτίωση είναι μικρότερη από ένα κατώφλι  Αλλιώς: επανάληψη από το βήμα 2  Έξοδος: Διατεταγμένο σύνολο κανόνων. 20/6/2014 Γλωσσική Τεχνολογία23

24 20/6/2014 Γλωσσική Τεχνολογία24 Μετασχηματιστικοί Κανόνες

25 20/6/2014 Γλωσσική Τεχνολογία25

26 20/6/2014 Γλωσσική Τεχνολογία26

27 20/6/2014 Γλωσσική Τεχνολογία27 Επιλέγοντας λέξεις κλειδιά

28 20/6/2014 Γλωσσική Τεχνολογία28 tf*idf Βαθμολόγηση tf = term frequency  Συχνότητα όρου σε ένα κείμενο. df = document frequency  Πόσα κείμενα περιέχουν τον όρο;  Κατανομή του όρου idf = inverse document frequency  Η άνιση κατανομή του όρου στο κείμενο  Πόσο συγκεκριμένος είναι ο όρος για το κείμενο Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο weight(t,D) = tf(t,D) * idf(t)

29 20/6/2014 Γλωσσική Τεχνολογία29 Ευρετηρίαση #1: The brown cat purred. #3: Tommy likes cats. #2: Cats like brown chairs. Brown Cat Like Chair Purr Tommy 1, 3 1, 2, 3 2 2, IndexSearch

30 20/6/2014 Γλωσσική Τεχνολογία30 Στο επόμενο μάθημα....  Ποια είδη ευρετηρίων υπάρχουν;  Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

31 20/6/2014 Γλωσσική Τεχνολογία


Κατέβασμα ppt "Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google