Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση"— Μεταγράφημα παρουσίασης:

1 Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση
Γλωσσική Τεχνολογία Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος

2 Γλώσσα και Επικοινωνία
Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί υπάρχουν παρερμηνείες στη γλωσσική επικοινωνία;! Locke (1690) ΙΔΙΟΛΕΚΤΟ Επικοινωνία: όταν τα ιδιόλεκτα συμπίπτουν Frege (1892) ΝΟΗΜΑ ΚΑΙ ΑΝΑΦΟΡΑ Αναφορά: το αντικείμενο στο οποίο αναφέρεται η λέξη Νόημα: ο τρόπος που αντιλαμβανόμαστε την αναφορά (π.χ. Ρώμη, αιώνια πόλη) 7/4/2017 Γλωσσική Τεχνολογία

3 Γλώσσα Φυσικές (Ελληνικά, Αγγλικά, κα.)
Τεχνητές (Esperanto, γλώσσες προγραμματισμού) Δυναμική φύση Απλές με λίγους γραμματικούς κανόνες Ασάφεια Ορίζονται από τους ειδικούς της δεικτοδότησης υπό τη μορφή θησαυρών, ή ταξινομικών συστημάτων Πολυπλοκότητα Εκφραστικότητα Παρέχουν ισοδύναμες εκφράσεις για τις ίδιες έννοιες που ο χρήστης πρέπει να γνωρίζει 7/4/2017 Γλωσσική Τεχνολογία

4 Γλώσσα και Θεματική Πρόσβαση
Η γλώσσα είναι αναγκαία για: Τη θεματική ανάλυση του κειμένου Την ευρετηρίαση συλλογών δεδομένων Την αναζήτηση και την ανάκτηση πληροφορίας από κείμενο Την κατανόηση της πληροφορίας που μεταφέρει το κείμενο και Τη μετατροπή της πληροφορίας σε γνώση 7/4/2017 Γλωσσική Τεχνολογία

5 Από τη Φυσική στη Θεματική Γλώσσα
Για την αντιστοίχιση λέξεων σε έννοιες πρέπει να επιλύσουμε: Ασάφεια ΜτΛ (π.χ. απαντήσεις) Σημασιολογική (π.χ. ποντίκι) Συντακτική (π.χ. Είδα τον άντρα στο πάρκο με το τηλεσκόπιο) Ομωνυμία (ίδια μορφή) Ομόφωνα (π.χ. χοίρος, χήρος) Ταυτώνυμα (π.χ. λόγος) Ομόγραφα (π.χ, φακών) Πολυσημία (π.χ. τράπεζα) Συνωνυμία (π.χ. γράμμα, επιστολή) 7/4/2017 Γλωσσική Τεχνολογία

6 Θεματικές Γλώσσες Δηλωτικές των θεμάτων (facet/concept) (π.χ. <τύπος αυτοκινήτου, αγωνιστικό>) Κάθε έννοια (concept) αποτελεί μια κλάση (class) όπου ανήκει ένα σύνολο κειμένων Κάθε έννοια περιγράφεται από έναν όρο (term) ή μια ετικέτα (label) (π.χ. ο όρος αγωνιστικό όταν χρησιμοποιείται για να περιγράψει το θέμα ενός κειμένου είναι μία ετικέτα για την τάξη των δεδομένων που περιγράφονται από αυτό τον όρο) Ένας όρος μπορεί να αποτελείται από μία ή παραπάνω λέξεις Κάθε facet (οπτική γωνία) είναι μια κατηγορία εννοιών (category of concepts) 7/4/2017 Γλωσσική Τεχνολογία

7 Ορίζοντας τις Θεματικές Γλώσσες
Έννοια: νοητική αντιπροσώπευση αντικειμένου ή συνόλου αντικειμένων με κοινές ιδιότητες Όρος: λέξη ή φράση που προσδιορίζει μια έννοια Πλάτος έννοιας: το σύνολο των ακτικειμένων που αντιστοιχίζονται στην έννοια (π.χ. (οικονομικό, ακαδημαϊκό, ημερολογιακό) έτος)) Βάθος έννοιας: το σύνολο των χαρακτηριστικών που συνιστούν την έννοια (π.χ. κυλιόμενες σκάλες: το γνώρισμα κυλιόμενες αποτελεί χαρακτηριστικό που διακρίνει την έννοια σκάλες) 7/4/2017 Γλωσσική Τεχνολογία

8 Ορίζοντας τις Θεματικές Γλώσσες (2)
Ατομική έννοια: αντιπροσωπεύει ένα μόνο αντικείμενο (π.χ. ο ναός του Παρθενώνα) Γενική έννοια: αντιπροσωπεύει πολλά αντικείμενα με κοινές ιδιότητες (π.χ. ναός) Γνώρισμα: οι ιδιότητες και οι σχέσεις που συνιστούν μια έννοια (π.χ. άνθος: γνώρισμα της έννοιας φυτό) Ενδογενή γνωρίσματα: σχήμα, μέγεθος, υλικό, χρώμα Εξωγενή γνωρίσματα: προέλευση, λειτουργία, θέση, τοποθέτηση, δημιουργός, κτλ. 7/4/2017 Γλωσσική Τεχνολογία

9 Ορίζοντας τις έννοιες Για να ορίσουμε μια έννοια πρέπει να την περιγράψουμε λεκτικά με μοναδικό τρόπο Ο ορισμός να είναι εντατικός (περιγραφή του βάθους) και εκτακτικός (περιγραφή των υποτασσόμενων εννοιών) Ο ορισμός βάσει παραδείγματος είναι έμμεσος 7/4/2017 Γλωσσική Τεχνολογία

10 Επιλέγοντας το Λεξιλόγιο
Στις θεματικές γλώσσες το λεξιλόγιο είναι ελεγχόμενο Η διάταξη των λέξεων για τη θεματική περιγραφή είναι σαφώς ορισμένη (π.χ. αλφαβητικά) ή κωδικοποιημένη (π.χ. συστηματικά) 7/4/2017 Γλωσσική Τεχνολογία

11 Ενσωματώντοντας ξένες λέξεις
Απόδοση στη γλώσσα στόχο (π.χ. Portal = θεματική πύλη) Μεταγραφή (π.χ. Video = βίντεο) Δανεισμός (π.χ. σιγαρέτο από cigarette) Μεταγραμματισμός (ΕΛΟΤ 743): γράμμα-προς-γράμμα μετατροπή Greeklish: φωνητική, ορθογραφική, οπτική μεταγραφή Χαμένοι στη μετάφραση; (ποντικοδρόμιο, αόρατος ιστός) 7/4/2017 Γλωσσική Τεχνολογία

12 Η Σημασιολογία των Λέξεων
Πολυσημία και ασάφεια: ενδογενή γνωρίσματα φυσικών γλωσσών Οι έννοιες που αντιπροσωπεύουν κατηγορίες θεματικών γλωσσών να έχουν σαφή σημασιολογικό προσανατολισμό Κατά την αντιστοίχιση όρων σε έννοιες: Ομαδοποίηση συνωνύμων Αποσαφήνιση ομωνύμων Συσχέτιση αναφορών με χρήση USE (βλέπε) και UF (use for, βλέπε επίσης) 7/4/2017 Γλωσσική Τεχνολογία

13 Σημασιολογικές Συσχετίσεις
ΙΕΡΑΡΧΙΚΕΣ (αμφίδρομες, κληρονομικότητα) ΜΗ ΙΕΡΑΡΧΙΚΕΣ (πραγματολογικές) Υπερωνυμία / Υπωνυμία (IS-A) φυτό  δέντρο  μηλιά Χρονικές (temporal) άνοιξη, καλοκαίρι Ολωνυμία / Μερωνυμία (PART-OF) πληκτρολόγιο  πλήκτρο Αιτιακές (cause) ομιλία, λόγος 7/4/2017 Γλωσσική Τεχνολογία

14 Τι είναι το ευρετήριο; Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω) Δευτερευόντων όρων (υπο-καταχωρήσεων) Διαφόρων όρων (πολλαπλές καταχωρήσεις) Ετερο-αναφορών 7/4/2017 Γλωσσική Τεχνολογία

15 Στρατηγικές ευρετηρίασης
Εξειδίκευση: κατά πόσο το σύστημα μας επιτρέπει να είμαστε λεπτομερείς κατά τον προσδιορισμό του θεματικού περιεχομένου Εξειδικευμένη ευρετηρίαση  μεγάλη ακρίβεια Εξαντλητική: το βάθος ανάλυσης του περιεχομένου του κειμένου για τον καθορισμό των σημείων θεματικής πρόσβασης σε αυτό Εξαντλητική ευρετηρίαση  μεγάλη ανάκληση 7/4/2017 Γλωσσική Τεχνολογία

16 Δημιουργώντας το ευρετήριο
Επιλογή εννοιών ευρετητιοποίησης (συγκεκριμένες vs. αφηρημένες) Ουσιαστικά: αποδίδουν πληρέστερα το θεματικό περιεχόμενο Ονοματικές φράσεις και συμφράσεις Επιλογή σημαντικών (αντιπροσωπευτικών) εννοιών Περιγραφή εννοιών με μονοσήμαντους όρους 7/4/2017 Γλωσσική Τεχνολογία

17 Κανόνες ευρετηρίασης Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων 7/4/2017 Γλωσσική Τεχνολογία

18 Δημιουργώντας το ευρετήριο
Αρχείο Ευρετηρίου Αρχείο κειμένων 7/4/2017 Γλωσσική Τεχνολογία

19 Παράδειγμα ευρετηρίασης
Computer table 7/4/2017 Γλωσσική Τεχνολογία

20 Χρησιμότητα Ευρετηρίου: Ανάκτηση Πληροφορίας
Ανάκτηση: αντιστοίχιση λέξεων ερωτήματος με θεματικούς όρους κειμένων στη συλλογή Q → D Q – ερώτημα χρήστη D – κείμενα συλλογής που ικανοποιούν το ερώτημα (ταξινομημένα βάσει συνάφειας) Συλλογή κειμένων Ερωτήματα 7/4/2017 Γλωσσική Τεχνολογία

21 Αξιολόγηση της Ανάκτησης
Ακρίβεια Ποσοστό σχετικών κειμένων στα ανακτηθέντα Ακρίβεια(P) = |σχετικά Ç ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα ) Ανάκληση Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών Ανάκληση(R) = |σχετικά Ç ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά ) F1 Μετρική F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας 7/4/2017 Γλωσσική Τεχνολογία

22 Λόγος Ακρίβειας/Ανάκλησης
Κείμενα Ανακτηθέντα σχετικά! Ra P R Σχετικά κείμενα Ακρίβεια Ανάκληση Recall Μέση Ακρίβεια = 0.62 ( ) / 5 Precis 7/4/2017 Γλωσσική Τεχνολογία

23 Αναγνωριστικά κειμένων
Θεματικά Ευρετήρια Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Αναγνωριστικά κειμένων Μουσική Θέατρο Τέχνη 1 2 3 5 8 13 21 34 4 16 32 64 128 7/4/2017 Γλωσσική Τεχνολογία

24 Κεντρικό ευρετήριο αναζητήσεων
Πολλαπλά ευρετήρια Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων 7/4/2017 Γλωσσική Τεχνολογία

25 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND):
Αναζήτηση κειμένων Λεξικό Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” Μουσική – 0 Τέχνη – 1 Πιάνο – 2 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): 0 (Μουσική) 1 (Τέχνη) Αποτέλεσμα Βρέθηκε! 1 n/a Δεν Βρέθηκε! 2 Ευρετήριο IDs λέξεων : 0, 1 0 -> 0, 1 1 -> 0, 2 2 -> 1 7/4/2017 Γλωσσική Τεχνολογία

26 Είδη Ευρετηρίων Θεματικά Συγγραφέων Ονομάτων Γεωγραφικά Τίτλων
Αριθμών και κωδικών 7/4/2017 Γλωσσική Τεχνολογία

27 Ευρετήρια Τίτλων KWIC (KeyWord-in-Context)
Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea 7/4/2017 Γλωσσική Τεχνολογία

28 Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context)
Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: Library A modern outline of library classification Library Introduction to library classification Library Library education Library Public library administration Library National Library of Canada 7/4/2017 Γλωσσική Τεχνολογία

29 KWIC vs. KWOC Απαλοιφή τερματικών όρων
Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες 7/4/2017 Γλωσσική Τεχνολογία

30 Λέξεις - Κλειδιά Πλεονεκτήματα
Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου 7/4/2017 Γλωσσική Τεχνολογία

31 Στο επόμενο μάθημα.... Πώς επιλέγουμε τις λέξεις κλειδιά κάθε κειμένου; Πώς επιλέξουμε τις λέξεις κλειδιά της συλλογής Ποια είδη ευρετηρίων υπάρχουν; Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου 7/4/2017 Γλωσσική Τεχνολογία


Κατέβασμα ppt "Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google