Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."— Μεταγράφημα παρουσίασης:

1 Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10

2 20/6/2014 Γλωσσική Τεχνολογία2 Τι είναι το ευρετήριο;  Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο  Τύποι οργάνωσης  Αλφαβητική (Α-Ω)  Δευτερευόντων όρων (υπο-καταχωρήσεων)  Διαφόρων όρων (πολλαπλές καταχωρήσεις)  Ετερο-αναφορών

3 20/6/2014 Γλωσσική Τεχνολογία3 Κανόνες ευρετηρίασης  Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα  Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη  Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

4 20/6/2014 Γλωσσική Τεχνολογία4 Δημιουργώντας το ευρετήριο Αρχείο Ευρετηρίου Αρχείο κειμένων

5 20/6/2014 Γλωσσική Τεχνολογία5 Αξιολόγηση της Ανάκτησης  Ακρίβεια  Ποσοστό σχετικών κειμένων στα ανακτηθέντα  Ακρίβεια(P) = |σχετικά  ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα )  Ανάκληση  Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών  Ανάκληση(R) = |σχετικά  ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά )  F1 Μετρική  F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας

6 20/6/2014 Γλωσσική Τεχνολογία6 Λόγος Ακρίβειας/Ανάκλησης Κείμενα RP Ra Ανακτηθέντα σχετικά! Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 Σχετικά κείμενα Μέση Ακρίβεια = 0.62 (1 +.67 +.5 +.44 +.5) / 5 Ακρίβεια Ανάκληση

7 20/6/2014 Γλωσσική Τεχνολογία7 Θεματικά Ευρετήρια  Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Μουσική Θέατρο Τέχνη 12358132134 248163264128 1316 Αναγνωριστικά κειμένων

8 20/6/2014 Γλωσσική Τεχνολογία8 Πολλαπλά ευρετήρια  Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων

9 20/6/2014 Γλωσσική Τεχνολογία9 Αναζήτηση κειμένων Λεξικό Μουσική – 0 Τέχνη – 1 Πιάνο – 2 Ευρετήριο 0 -> 0, 1 1 -> 0, 2 2 -> 1 Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” IDs λέξεων : 0, 1 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): 0 (Μουσική)1 (Τέχνη)Αποτέλεσμα 00Βρέθηκε! 1n/aΔεν Βρέθηκε! n/a2Δεν Βρέθηκε!

10 20/6/2014 Γλωσσική Τεχνολογία10 Είδη Ευρετηρίων  Θεματικά  Συγγραφέων  Ονομάτων  Γεωγραφικά  Τίτλων  Αριθμών και κωδικών

11 20/6/2014 Γλωσσική Τεχνολογία11 Ευρετήρια Τίτλων KWIC (KeyWord-in-Context)  Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea

12 20/6/2014 Γλωσσική Τεχνολογία12 Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context) Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: LibraryA modern outline of library classification LibraryIntroduction to library classification LibraryLibrary education LibraryPublic library administration LibraryNational Library of Canada

13 20/6/2014 Γλωσσική Τεχνολογία13 KWIC vs. KWOC  Απαλοιφή τερματικών όρων  Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού  Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες

14 20/6/2014 Γλωσσική Τεχνολογία14 Λέξεις - Κλειδιά Πλεονεκτήματα  Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα  Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών  Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

15 20/6/2014 Γλωσσική Τεχνολογία15 Επιλέγοντας τις λέξεις-κλειδιά Βήματα επεξεργασίας κειμένου: 1. Αναγνώριση προτάσεων και λέξεων 2. Μορφοσυντακτική ανάλυση 3. Απαλοιφή τερματικών όρων 4. Μετρική βαθμολόγησης σπουδαιότητας 5. Επιλογή σημαντικών όρων

16 20/6/2014 Γλωσσική Τεχνολογία16 Μορφοσυντακτική ανάλυση  Κρυφά Μοντέλα Markov  Νευρωνικά Δίκτυα  Μετασχηματιστικοί Κανόνες  Δέντρα Απόφασης  Μοντέλα Μέγιστης Εντροπίας

17 20/6/2014 Γλωσσική Τεχνολογία17 Μορφοσυντακτική ανάλυση  Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου the koala put the keys on the table Λέξεις Ετικέτες N V P DET Πώς θα βρούμε την POS ετικέτα;

18 20/6/2014 Γλωσσική Τεχνολογία18 Μορφοσυντακτική ανάλυση

19 20/6/2014 Γλωσσική Τεχνολογία19 Πού θα βρούμε τις ετικέτες;

20 20/6/2014 Γλωσσική Τεχνολογία20 Μετασχηματιστικοί Κανόνες 1. Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό)  Charniak: 90% σωστές επιλογές ως εδώ! 2. Χρήση μετασχηματιστικών κανόνων 3. Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα

21 20/6/2014 Γλωσσική Τεχνολογία21 Μηχανική Μάθηση Κανόνων

22  Είσοδος:  Σώμα κειμένων C1 χωρίς ετικέττες (tags)  Ακριβές αντίγραφό του C2, μορφοσυντακτικά σχολιασμένο από ειδικούς.  Πρότυπα κανόνων  Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger  Παραγωγή του C1a.  Βήμα 2:  Σύγκριση του σώματος C1a με το ιδανικό C2.  Καθορισμός της λίστας των λανθασμένων επιλογών.  Από τη λίστα των λαθών, κατασκευάζονται με χρήση προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν. 20/6/2014 Γλωσσική Τεχνολογία22

23 Μηχανική Μάθηση Κανόνων  Βήμα 3:  Εφαρμογή των κανόνων και ανάθεση ενός σκορ σε κάθε κανόνα.  Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών  Επιλογή κανόνα με το καλύτερο σκορ  Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα.  Βήμα 5:  Τερματισμός αν η βελτίωση είναι μικρότερη από ένα κατώφλι  Αλλιώς: επανάληψη από το βήμα 2  Έξοδος: Διατεταγμένο σύνολο κανόνων. 20/6/2014 Γλωσσική Τεχνολογία23

24 20/6/2014 Γλωσσική Τεχνολογία24 Μετασχηματιστικοί Κανόνες

25 20/6/2014 Γλωσσική Τεχνολογία25

26 20/6/2014 Γλωσσική Τεχνολογία26

27 20/6/2014 Γλωσσική Τεχνολογία27 Επιλέγοντας λέξεις κλειδιά

28 20/6/2014 Γλωσσική Τεχνολογία28 tf*idf Βαθμολόγηση tf = term frequency  Συχνότητα όρου σε ένα κείμενο. df = document frequency  Πόσα κείμενα περιέχουν τον όρο;  Κατανομή του όρου idf = inverse document frequency  Η άνιση κατανομή του όρου στο κείμενο  Πόσο συγκεκριμένος είναι ο όρος για το κείμενο Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο weight(t,D) = tf(t,D) * idf(t)

29 20/6/2014 Γλωσσική Τεχνολογία29 Ευρετηρίαση #1: The brown cat purred. #3: Tommy likes cats. #2: Cats like brown chairs. Brown Cat Like Chair Purr Tommy 1, 3 1, 2, 3 2 2, 3 1 3 IndexSearch

30 20/6/2014 Γλωσσική Τεχνολογία30 Στο επόμενο μάθημα....  Ποια είδη ευρετηρίων υπάρχουν;  Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

31 20/6/2014 Γλωσσική Τεχνολογία31..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html


Κατέβασμα ppt "Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google