Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση
1 Προτεινόμενες πρακτικές για τη δημιουργία δικτυακών πυλών στις Περιφέρειες Νικόλαος Χατζηγεωργίου Παράρτημα Θράκης ΙΕΛ.
CytaInfo+ 1 ένα application για τη Cyta….. Αυτή είναι η όψη του CytaInfo+ 2.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Απογραφικά Δελτία - Ερωτηματολόγιο Αξιολόγησης Μαθήματος/Διδάσκοντα
Πανεπιστήμιο Δυτικής Μακεδονίας Πανεπιστήμιο Δυτικής Μακεδονίας Παιδαγωγικό Τμήμα Νηπιαγωγών Τίτλος Μαθήματος Ενότητα # (bold): Τίτλος Ενότητας (normal)
Best Practices of the Best Agents RE/MAX Europe 5 th Convention – Gil Li-ran, VP of Marketing RE/MAX Israel Οι καλύτερες πρακτικές από τους καλύτερους.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Επιμέλεια: Δέγγλερη Σοφία
Σελ. 1 Ε.2.2 Υπηρεσίες – Λειτουργία Helpdesk Καταχώρηση και παρακολούθηση αιτημάτων μέσω web Ε Καταχώρηση αιτημάτων υποστήριξης.
1 Συστήματα Θεματικής Πρόσβασης Χ. Παπαθεοδώρου ‏ Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Τμήμα Αρχειονομίας.
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
Συστήματα Ταξινόμησης Βιβλιοθήκης
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Δρ. Παναγιώτης Συμεωνίδης
Resource Description Framework
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
1 iPac Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ. 26/6/2002 Ενημέρωση πάνω στις νέες ψηφιακές υπηρεσίες 2 Περιεχόμενα 1 iPac  Τί είναι το iPac  Δυνατότητες.
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Αναγνώριση Προτύπων.
Σωφρ. Χατζησαββίδης Η διδασκαλία της Πρώτης Γραφής και Ανάγνωσης
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
1 Συλλογή Στοιχείων 24 Νοεμβρίου έως 5 Δεκεμβρίου 2005 Κοινωνικό, πολιτικό & οικονομικό περιβάλλον 1 1 ΚΟΙΝΩΝΙΚΟ, ΠΟΛΙΤΙΚΟ & ΟΙΚΟΝΟΜΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ( Δείκτες.
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
Α.Π.Θ. Π.Τ.Δ.Ε. Π.Μ.Σ Επιστήμες της Αγωγής-Κατεύθυνση Διδακτική των Φυσικών Επιστημών και Νέες Τεχνολογίες Διερεύνηση εφαρμογής.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
ΓΕΝΙΚΕΣ ΟΔΗΓΙΕΣ ΔΙΔΑΣΚΑΛΙΑΣ & ΕΝΔΕΙΚΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΛΗΣ
Συνδυαστικά Κυκλώματα
Λεξικολογία-Λεξικογραφία
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ΘΥΡΑ: ανάπτυξη θεματικής πύλης πληροφόρησης στη Βιβλιοθήκη του Πανεπιστημίου Μακεδονίας με τη χρήση λογισμικού ανοικτού κώδικα Γ’ ΚΠΣ / ΕΠΕΑΕΚ ΙΙ / ΕΝΕΡΓΕΙΑ.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
ΜΑΘΗΜΑ AIMATΟΛΟΓΙΑ - ΑΙΜΟΔΟΣΙΑ ΤΟΜΕΑΣ ΥΓΕΙΑΣ - ΠΡΟΝΟΙΑΣ Γ’ ΤΑΞΗ ΕΠΑ. Λ
Ανάπτυξη Πρωτοτύπου Λογισμικού
Γλωσσική Τεχνολογία Μάθημα 5 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ενότητα Α.4. Δομημένος Προγραμματισμός
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακός Λογισμός.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Διαχείριση Ψηφιακών Πνευματικών Δικαιωμάτων Ηλεκτρονική Δημοσίευση Στέλλα Λάμπουρα Ιούνιος 2004.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
ΣΤΑΜΑΤΙΝΑ ΤΣΑΦΟΥ ΜΑΤΙΝΑ ΠΟΛΙΤΗ
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
Συστήματα Θεματικής Πρόσβασης (Θ)
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Κεφάλαιο 2ο: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Μεταγράφημα παρουσίασης:

Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση Γλωσσική Τεχνολογία Μάθημα 2ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10

Γλώσσα και Επικοινωνία Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί υπάρχουν παρερμηνείες στη γλωσσική επικοινωνία;! Locke (1690) ΙΔΙΟΛΕΚΤΟ Επικοινωνία: όταν τα ιδιόλεκτα συμπίπτουν Frege (1892) ΝΟΗΜΑ ΚΑΙ ΑΝΑΦΟΡΑ Αναφορά: το αντικείμενο στο οποίο αναφέρεται η λέξη Νόημα: ο τρόπος που αντιλαμβανόμαστε την αναφορά (π.χ. Ρώμη, αιώνια πόλη) 7/4/2017 Γλωσσική Τεχνολογία

Γλώσσα Φυσικές (Ελληνικά, Αγγλικά, κα.) Τεχνητές (Esperanto, γλώσσες προγραμματισμού) Δυναμική φύση Απλές με λίγους γραμματικούς κανόνες Ασάφεια Ορίζονται από τους ειδικούς της δεικτοδότησης υπό τη μορφή θησαυρών, ή ταξινομικών συστημάτων Πολυπλοκότητα Εκφραστικότητα Παρέχουν ισοδύναμες εκφράσεις για τις ίδιες έννοιες που ο χρήστης πρέπει να γνωρίζει 7/4/2017 Γλωσσική Τεχνολογία

Γλώσσα και Θεματική Πρόσβαση Η γλώσσα είναι αναγκαία για: Τη θεματική ανάλυση του κειμένου Την ευρετηρίαση συλλογών δεδομένων Την αναζήτηση και την ανάκτηση πληροφορίας από κείμενο Την κατανόηση της πληροφορίας που μεταφέρει το κείμενο και Τη μετατροπή της πληροφορίας σε γνώση 7/4/2017 Γλωσσική Τεχνολογία

Από τη Φυσική στη Θεματική Γλώσσα Για την αντιστοίχιση λέξεων σε έννοιες πρέπει να επιλύσουμε: Ασάφεια ΜτΛ (π.χ. απαντήσεις) Σημασιολογική (π.χ. ποντίκι) Συντακτική (π.χ. Είδα τον άντρα στο πάρκο με το τηλεσκόπιο) Ομωνυμία (ίδια μορφή) Ομόφωνα (π.χ. χοίρος, χήρος) Ταυτώνυμα (π.χ. λόγος) Ομόγραφα (π.χ, φακών) Πολυσημία (π.χ. τράπεζα) Συνωνυμία (π.χ. γράμμα, επιστολή) 7/4/2017 Γλωσσική Τεχνολογία

Θεματικές Γλώσσες Δηλωτικές των θεμάτων (facet/concept) (π.χ. <τύπος αυτοκινήτου, αγωνιστικό>) Κάθε έννοια (concept) αποτελεί μια κλάση (class) όπου ανήκει ένα σύνολο κειμένων Κάθε έννοια περιγράφεται από έναν όρο (term) ή μια ετικέτα (label) (π.χ. ο όρος αγωνιστικό όταν χρησιμοποιείται για να περιγράψει το θέμα ενός κειμένου είναι μία ετικέτα για την τάξη των δεδομένων που περιγράφονται από αυτό τον όρο) Ένας όρος μπορεί να αποτελείται από μία ή παραπάνω λέξεις Κάθε facet (οπτική γωνία) είναι μια κατηγορία εννοιών (category of concepts) 7/4/2017 Γλωσσική Τεχνολογία

Ορίζοντας τις Θεματικές Γλώσσες Έννοια: νοητική αντιπροσώπευση αντικειμένου ή συνόλου αντικειμένων με κοινές ιδιότητες Όρος: λέξη ή φράση που προσδιορίζει μια έννοια Πλάτος έννοιας: το σύνολο των ακτικειμένων που αντιστοιχίζονται στην έννοια (π.χ. (οικονομικό, ακαδημαϊκό, ημερολογιακό) έτος)) Βάθος έννοιας: το σύνολο των χαρακτηριστικών που συνιστούν την έννοια (π.χ. κυλιόμενες σκάλες: το γνώρισμα κυλιόμενες αποτελεί χαρακτηριστικό που διακρίνει την έννοια σκάλες) 7/4/2017 Γλωσσική Τεχνολογία

Ορίζοντας τις Θεματικές Γλώσσες (2) Ατομική έννοια: αντιπροσωπεύει ένα μόνο αντικείμενο (π.χ. ο ναός του Παρθενώνα) Γενική έννοια: αντιπροσωπεύει πολλά αντικείμενα με κοινές ιδιότητες (π.χ. ναός) Γνώρισμα: οι ιδιότητες και οι σχέσεις που συνιστούν μια έννοια (π.χ. άνθος: γνώρισμα της έννοιας φυτό) Ενδογενή γνωρίσματα: σχήμα, μέγεθος, υλικό, χρώμα Εξωγενή γνωρίσματα: προέλευση, λειτουργία, θέση, τοποθέτηση, δημιουργός, κτλ. 7/4/2017 Γλωσσική Τεχνολογία

Ορίζοντας τις έννοιες Για να ορίσουμε μια έννοια πρέπει να την περιγράψουμε λεκτικά με μοναδικό τρόπο Ο ορισμός να είναι εντατικός (περιγραφή του βάθους) και εκτακτικός (περιγραφή των υποτασσόμενων εννοιών) Ο ορισμός βάσει παραδείγματος είναι έμμεσος 7/4/2017 Γλωσσική Τεχνολογία

Επιλέγοντας το Λεξιλόγιο Στις θεματικές γλώσσες το λεξιλόγιο είναι ελεγχόμενο Η διάταξη των λέξεων για τη θεματική περιγραφή είναι σαφώς ορισμένη (π.χ. αλφαβητικά) ή κωδικοποιημένη (π.χ. συστηματικά) 7/4/2017 Γλωσσική Τεχνολογία

Ενσωματώντοντας ξένες λέξεις Απόδοση στη γλώσσα στόχο (π.χ. Portal = θεματική πύλη) Μεταγραφή (π.χ. Video = βίντεο) Δανεισμός (π.χ. σιγαρέτο από cigarette) Μεταγραμματισμός (ΕΛΟΤ 743): γράμμα-προς-γράμμα μετατροπή Greeklish: φωνητική, ορθογραφική, οπτική μεταγραφή Χαμένοι στη μετάφραση; (ποντικοδρόμιο, αόρατος ιστός) 7/4/2017 Γλωσσική Τεχνολογία

Η Σημασιολογία των Λέξεων Πολυσημία και ασάφεια: ενδογενή γνωρίσματα φυσικών γλωσσών Οι έννοιες που αντιπροσωπεύουν κατηγορίες θεματικών γλωσσών να έχουν σαφή σημασιολογικό προσανατολισμό Κατά την αντιστοίχιση όρων σε έννοιες: Ομαδοποίηση συνωνύμων Αποσαφήνιση ομωνύμων Συσχέτιση αναφορών με χρήση USE (βλέπε) και UF (use for, βλέπε επίσης) 7/4/2017 Γλωσσική Τεχνολογία

Σημασιολογικές Συσχετίσεις ΙΕΡΑΡΧΙΚΕΣ (αμφίδρομες, κληρονομικότητα) ΜΗ ΙΕΡΑΡΧΙΚΕΣ (πραγματολογικές) Υπερωνυμία / Υπωνυμία (IS-A) φυτό  δέντρο  μηλιά Χρονικές (temporal) άνοιξη, καλοκαίρι Ολωνυμία / Μερωνυμία (PART-OF) πληκτρολόγιο  πλήκτρο Αιτιακές (cause) ομιλία, λόγος 7/4/2017 Γλωσσική Τεχνολογία

Τι είναι το ευρετήριο; Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω) Δευτερευόντων όρων (υπο-καταχωρήσεων) Διαφόρων όρων (πολλαπλές καταχωρήσεις) Ετερο-αναφορών 7/4/2017 Γλωσσική Τεχνολογία

Στρατηγικές ευρετηρίασης Εξειδίκευση: κατά πόσο το σύστημα μας επιτρέπει να είμαστε λεπτομερείς κατά τον προσδιορισμό του θεματικού περιεχομένου Εξειδικευμένη ευρετηρίαση  μεγάλη ακρίβεια Εξαντλητική: το βάθος ανάλυσης του περιεχομένου του κειμένου για τον καθορισμό των σημείων θεματικής πρόσβασης σε αυτό Εξαντλητική ευρετηρίαση  μεγάλη ανάκληση 7/4/2017 Γλωσσική Τεχνολογία

Δημιουργώντας το ευρετήριο Επιλογή εννοιών ευρετητιοποίησης (συγκεκριμένες vs. αφηρημένες) Ουσιαστικά: αποδίδουν πληρέστερα το θεματικό περιεχόμενο Ονοματικές φράσεις και συμφράσεις Επιλογή σημαντικών (αντιπροσωπευτικών) εννοιών Περιγραφή εννοιών με μονοσήμαντους όρους 7/4/2017 Γλωσσική Τεχνολογία

Κανόνες ευρετηρίασης Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων 7/4/2017 Γλωσσική Τεχνολογία

Δημιουργώντας το ευρετήριο Αρχείο Ευρετηρίου Αρχείο κειμένων 7/4/2017 Γλωσσική Τεχνολογία

Παράδειγμα ευρετηρίασης Computer table 7/4/2017 Γλωσσική Τεχνολογία

Χρησιμότητα Ευρετηρίου: Ανάκτηση Πληροφορίας Ανάκτηση: αντιστοίχιση λέξεων ερωτήματος με θεματικούς όρους κειμένων στη συλλογή Q → D Q – ερώτημα χρήστη D – κείμενα συλλογής που ικανοποιούν το ερώτημα (ταξινομημένα βάσει συνάφειας) Συλλογή κειμένων Ερωτήματα 7/4/2017 Γλωσσική Τεχνολογία

Αξιολόγηση της Ανάκτησης Ακρίβεια Ποσοστό σχετικών κειμένων στα ανακτηθέντα Ακρίβεια(P) = |σχετικά Ç ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα ) Ανάκληση Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών Ανάκληση(R) = |σχετικά Ç ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά ) F1 Μετρική F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας 7/4/2017 Γλωσσική Τεχνολογία

Λόγος Ακρίβειας/Ανάκλησης Κείμενα Ανακτηθέντα σχετικά! Ra P R Σχετικά κείμενα Ακρίβεια Ανάκληση Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Μέση Ακρίβεια = 0.62 (1 + .67 + .5 + .44 + .5) / 5 Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 7/4/2017 Γλωσσική Τεχνολογία

Αναγνωριστικά κειμένων Θεματικά Ευρετήρια Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Αναγνωριστικά κειμένων Μουσική Θέατρο Τέχνη 1 2 3 5 8 13 21 34 4 16 32 64 128 7/4/2017 Γλωσσική Τεχνολογία

Κεντρικό ευρετήριο αναζητήσεων Πολλαπλά ευρετήρια Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων 7/4/2017 Γλωσσική Τεχνολογία

Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): Αναζήτηση κειμένων Λεξικό Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” Μουσική – 0 Τέχνη – 1 Πιάνο – 2 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): 0 (Μουσική) 1 (Τέχνη) Αποτέλεσμα Βρέθηκε! 1 n/a Δεν Βρέθηκε! 2 Ευρετήριο IDs λέξεων : 0, 1 0 -> 0, 1 1 -> 0, 2 2 -> 1 7/4/2017 Γλωσσική Τεχνολογία

Είδη Ευρετηρίων Θεματικά Συγγραφέων Ονομάτων Γεωγραφικά Τίτλων Αριθμών και κωδικών 7/4/2017 Γλωσσική Τεχνολογία

Ευρετήρια Τίτλων KWIC (KeyWord-in-Context) Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea 7/4/2017 Γλωσσική Τεχνολογία

Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context) Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: Library A modern outline of library classification Library Introduction to library classification Library Library education Library Public library administration Library National Library of Canada 7/4/2017 Γλωσσική Τεχνολογία

KWIC vs. KWOC Απαλοιφή τερματικών όρων Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες 7/4/2017 Γλωσσική Τεχνολογία

Λέξεις - Κλειδιά Πλεονεκτήματα Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου 7/4/2017 Γλωσσική Τεχνολογία

Στο επόμενο μάθημα.... Πώς επιλέγουμε τις λέξεις κλειδιά κάθε κειμένου; Πώς επιλέξουμε τις λέξεις κλειδιά της συλλογής Ποια είδη ευρετηρίων υπάρχουν; Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου 7/4/2017 Γλωσσική Τεχνολογία