Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσική Τεχνολογία Μάθημα 2 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσική Τεχνολογία Μάθημα 2 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."— Μεταγράφημα παρουσίασης:

1 Γλωσσική Τεχνολογία Μάθημα 2 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος

2 20/11/2014 Γλωσσική Τεχνολογία2 Γλώσσα και Επικοινωνία Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί υπάρχουν παρερμηνείες στη γλωσσική επικοινωνία;! Locke (1690) ΙΔΙΟΛΕΚΤΟ Επικοινωνία: όταν τα ιδιόλεκτα συμπίπτουν Frege (1892) ΝΟΗΜΑ ΚΑΙ ΑΝΑΦΟΡΑ Αναφορά: το αντικείμενο στο οποίο αναφέρεται η λέξη Νόημα: ο τρόπος που αντιλαμβανόμαστε την αναφορά (π.χ. Ρώμη, αιώνια πόλη)

3 20/11/2014 Γλωσσική Τεχνολογία3 Γλώσσα Φυσικές (Ελληνικά, Αγγλικά, κα.) Τεχνητές (Esperanto, γλώσσες προγραμματισμού) Δυναμική φύσηΑπλές με λίγους γραμματικούς κανόνες ΑσάφειαΟρίζονται από τους ειδικούς της δεικτοδότησης υπό τη μορφή θησαυρών, ή ταξινομικών συστημάτων Πολυπλοκότητα Εκφραστικότητα Παρέχουν ισοδύναμες εκφράσεις για τις ίδιες έννοιες που ο χρήστης πρέπει να γνωρίζει

4 20/11/2014 Γλωσσική Τεχνολογία4 Γλώσσα και Θεματική Πρόσβαση Η γλώσσα είναι αναγκαία για: Τη θεματική ανάλυση του κειμένου Την ευρετηρίαση συλλογών δεδομένων Την αναζήτηση και την ανάκτηση πληροφορίας από κείμενο Την κατανόηση της πληροφορίας που μεταφέρει το κείμενο και Τη μετατροπή της πληροφορίας σε γνώση

5 20/11/2014 Γλωσσική Τεχνολογία5 Από τη Φυσική στη Θεματική Γλώσσα Για την αντιστοίχιση λέξεων σε έννοιες πρέπει να επιλύσουμε: Ασάφεια ΜτΛ (π.χ. απαντήσεις) Σημασιολογική (π.χ. ποντίκι) Συντακτική (π.χ. Είδα τον άντρα στο πάρκο με το τηλεσκόπιο) Ομωνυμία (ίδια μορφή) Ομόφωνα (π.χ. χοίρος, χήρος) Ταυτώνυμα (π.χ. λόγος) Ομόγραφα (π.χ, φακών) Πολυσημία (π.χ. τράπεζα) Συνωνυμία (π.χ. γράμμα, επιστολή)

6 20/11/2014 Γλωσσική Τεχνολογία6 Θεματικές Γλώσσες Δηλωτικές των θεμάτων (facet/concept) (π.χ. ) Κάθε έννοια (concept) αποτελεί μια κλάση (class) όπου ανήκει ένα σύνολο κειμένων Κάθε έννοια περιγράφεται από έναν όρο (term) ή μια ετικέτα (label) (π.χ. ο όρος αγωνιστικό όταν χρησιμοποιείται για να περιγράψει το θέμα ενός κειμένου είναι μία ετικέτα για την τάξη των δεδομένων που περιγράφονται από αυτό τον όρο) Ένας όρος μπορεί να αποτελείται από μία ή παραπάνω λέξεις Κάθε facet (οπτική γωνία) είναι μια κατηγορία εννοιών (category of concepts)

7 20/11/2014 Γλωσσική Τεχνολογία7 Ορίζοντας τις Θεματικές Γλώσσες Έννοια: νοητική αντιπροσώπευση αντικειμένου ή συνόλου αντικειμένων με κοινές ιδιότητες Όρος: λέξη ή φράση που προσδιορίζει μια έννοια Πλάτος έννοιας: το σύνολο των ακτικειμένων που αντιστοιχίζονται στην έννοια (π.χ. (οικονομικό, ακαδημαϊκό, ημερολογιακό) έτος)) Βάθος έννοιας: το σύνολο των χαρακτηριστικών που συνιστούν την έννοια (π.χ. κυλιόμενες σκάλες: το γνώρισμα κυλιόμενες αποτελεί χαρακτηριστικό που διακρίνει την έννοια σκάλες)

8 20/11/2014 Γλωσσική Τεχνολογία8 Ορίζοντας τις Θεματικές Γλώσσες (2) Ατομική έννοια: αντιπροσωπεύει ένα μόνο αντικείμενο (π.χ. ο ναός του Παρθενώνα) Γενική έννοια: αντιπροσωπεύει πολλά αντικείμενα με κοινές ιδιότητες (π.χ. ναός) Γνώρισμα: οι ιδιότητες και οι σχέσεις που συνιστούν μια έννοια (π.χ. άνθος: γνώρισμα της έννοιας φυτό) Ενδογενή γνωρίσματα: σχήμα, μέγεθος, υλικό, χρώμα Εξωγενή γνωρίσματα: προέλευση, λειτουργία, θέση, τοποθέτηση, δημιουργός, κτλ.

9 20/11/2014 Γλωσσική Τεχνολογία9 Ορίζοντας τις έννοιες Για να ορίσουμε μια έννοια πρέπει να την περιγράψουμε λεκτικά με μοναδικό τρόπο Ο ορισμός να είναι εντατικός (περιγραφή του βάθους) και εκτακτικός (περιγραφή των υποτασσόμενων εννοιών) Ο ορισμός βάσει παραδείγματος είναι έμμεσος

10 20/11/2014 Γλωσσική Τεχνολογία10 Επιλέγοντας το Λεξιλόγιο Στις θεματικές γλώσσες το λεξιλόγιο είναι ελεγχόμενο Η διάταξη των λέξεων για τη θεματική περιγραφή είναι σαφώς ορισμένη (π.χ. αλφαβητικά) ή κωδικοποιημένη (π.χ. συστηματικά)

11 20/11/2014 Γλωσσική Τεχνολογία11 Ενσωματώντοντας ξένες λέξεις Απόδοση στη γλώσσα στόχο (π.χ. Portal = θεματική πύλη) Μεταγραφή (π.χ. Video = βίντεο) Δανεισμός (π.χ. σιγαρέτο από cigarette) Μεταγραμματισμός (ΕΛΟΤ 743): γράμμα-προς- γράμμα μετατροπή Greeklish: φωνητική, ορθογραφική, οπτική μεταγραφή Χαμένοι στη μετάφραση; (ποντικοδρόμιο, αόρατος ιστός)

12 20/11/2014 Γλωσσική Τεχνολογία12 Η Σημασιολογία των Λέξεων Πολυσημία και ασάφεια: ενδογενή γνωρίσματα φυσικών γλωσσών Οι έννοιες που αντιπροσωπεύουν κατηγορίες θεματικών γλωσσών να έχουν σαφή σημασιολογικό προσανατολισμό Κατά την αντιστοίχιση όρων σε έννοιες: Ομαδοποίηση συνωνύμων Αποσαφήνιση ομωνύμων Συσχέτιση αναφορών με χρήση USE (βλέπε) και UF (use for, βλέπε επίσης)

13 20/11/2014 Γλωσσική Τεχνολογία13 Σημασιολογικές Συσχετίσεις ΙΕΡΑΡΧΙΚΕΣ (αμφίδρομες, κληρονομικότητα) ΜΗ ΙΕΡΑΡΧΙΚΕΣ (πραγματολογικές) Υπερωνυμία / Υπωνυμία (IS-A) φυτό  δέντρο  μηλιά Χρονικές (temporal) άνοιξη, καλοκαίρι Ολωνυμία / Μερωνυμία (PART-OF) πληκτρολόγιο  πλήκτρο Αιτιακές (cause) ομιλία, λόγος

14 20/11/2014 Γλωσσική Τεχνολογία14 Τι είναι το ευρετήριο; Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω) Δευτερευόντων όρων (υπο-καταχωρήσεων) Διαφόρων όρων (πολλαπλές καταχωρήσεις) Ετερο-αναφορών

15 20/11/2014 Γλωσσική Τεχνολογία15 Στρατηγικές ευρετηρίασης Εξειδίκευση: κατά πόσο το σύστημα μας επιτρέπει να είμαστε λεπτομερείς κατά τον προσδιορισμό του θεματικού περιεχομένου Εξειδικευμένη ευρετηρίαση  μεγάλη ακρίβεια Εξαντλητική: το βάθος ανάλυσης του περιεχομένου του κειμένου για τον καθορισμό των σημείων θεματικής πρόσβασης σε αυτό Εξαντλητική ευρετηρίαση  μεγάλη ανάκληση

16 20/11/2014 Γλωσσική Τεχνολογία16 Δημιουργώντας το ευρετήριο Επιλογή εννοιών ευρετητιοποίησης (συγκεκριμένες vs. αφηρημένες) Ουσιαστικά: αποδίδουν πληρέστερα το θεματικό περιεχόμενο Ονοματικές φράσεις και συμφράσεις Επιλογή σημαντικών (αντιπροσωπευτικών) εννοιών Περιγραφή εννοιών με μονοσήμαντους όρους

17 20/11/2014 Γλωσσική Τεχνολογία17 Κανόνες ευρετηρίασης Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

18 20/11/2014 Γλωσσική Τεχνολογία18 Δημιουργώντας το ευρετήριο Αρχείο Ευρετηρίου Αρχείο κειμένων

19 20/11/2014 Γλωσσική Τεχνολογία19 Παράδειγμα ευρετηρίασης Computer table

20 20/11/2014 Γλωσσική Τεχνολογία20 Χρησιμότητα Ευρετηρίου: Ανάκτηση Πληροφορίας Ανάκτηση: αντιστοίχιση λέξεων ερωτήματος με θεματικούς όρους κειμένων στη συλλογή Q → D Q – ερώτημα χρήστη D – κείμενα συλλογής που ικανοποιούν το ερώτημα (ταξινομημένα βάσει συνάφειας) Συλλογή κειμένων Ερωτήματα

21 20/11/2014 Γλωσσική Τεχνολογία21 Αξιολόγηση της Ανάκτησης Ακρίβεια Ποσοστό σχετικών κειμένων στα ανακτηθέντα Ακρίβεια(P) = |σχετικά  ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα ) Ανάκληση Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών Ανάκληση(R) = |σχετικά  ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά ) F1 Μετρική F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας

22 20/11/2014 Γλωσσική Τεχνολογία22 Λόγος Ακρίβειας/Ανάκλησης Κείμενα RP Ra Ανακτηθέντα σχετικά! Recall Precis Σχετικά κείμενα Μέση Ακρίβεια = 0.62 ( ) / 5 Ακρίβεια Ανάκληση

23 20/11/2014 Γλωσσική Τεχνολογία23 Θεματικά Ευρετήρια Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Μουσική Θέατρο Τέχνη Αναγνωριστικά κειμένων

24 20/11/2014 Γλωσσική Τεχνολογία24 Πολλαπλά ευρετήρια Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων

25 20/11/2014 Γλωσσική Τεχνολογία25 Αναζήτηση κειμένων Λεξικό Μουσική – 0 Τέχνη – 1 Πιάνο – 2 Ευρετήριο 0 -> 0, 1 1 -> 0, 2 2 -> 1 Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” IDs λέξεων : 0, 1 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): 0 (Μουσική)1 (Τέχνη)Αποτέλεσμα 00Βρέθηκε! 1n/aΔεν Βρέθηκε! n/a2Δεν Βρέθηκε!

26 20/11/2014 Γλωσσική Τεχνολογία26 Είδη Ευρετηρίων Θεματικά Συγγραφέων Ονομάτων Γεωγραφικά Τίτλων Αριθμών και κωδικών

27 20/11/2014 Γλωσσική Τεχνολογία27 Ευρετήρια Τίτλων KWIC (KeyWord-in-Context) Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea

28 20/11/2014 Γλωσσική Τεχνολογία28 Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context) Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: LibraryA modern outline of library classification LibraryIntroduction to library classification LibraryLibrary education LibraryPublic library administration LibraryNational Library of Canada

29 20/11/2014 Γλωσσική Τεχνολογία29 KWIC vs. KWOC Απαλοιφή τερματικών όρων Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες

30 20/11/2014 Γλωσσική Τεχνολογία30 Λέξεις - Κλειδιά Πλεονεκτήματα Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

31 20/11/2014 Γλωσσική Τεχνολογία31 Στο επόμενο μάθημα.... Πώς επιλέγουμε τις λέξεις κλειδιά κάθε κειμένου; Πώς επιλέξουμε τις λέξεις κλειδιά της συλλογής Ποια είδη ευρετηρίων υπάρχουν; Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου


Κατέβασμα ppt "Γλωσσική Τεχνολογία Μάθημα 2 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google