Μάθημα 9ο Επεξεργασία Κειμένου

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση
Advertisements

Δομές Δεδομένων και Αλγόριθμοι
Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ.
Γ ΛΩΣΣΙΚΟΙ Π ΟΡΟΙ & Τ ΕΧΝΟΛΟΓΙΕΣ : Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" Ημερίδα παρουσίασης.
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
ΕΥΡΕΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ elemedu. upatras
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
ΠΛΕ70: Ανάκτηση Πληροφορίας
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
ΠΛΕ70: Ανάκτηση Πληροφορίας
Εφαρμογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήματα Αναζήτησης των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών Άννα Μάστορα 1, Μανόλης Πεπονάκης 2, Σαράντος.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ ΤΕΧΝΟΛΟΓΙΚΗ ΠΛΗΡΟΦΟΡΗΣΗ ΑΠΟ ΤΙΤΛΟΥΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ.
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
ΕΙΣΑΓΩΓΗ ΜΑΘΗΜΑ 1.
Η ΓΛΩΣΣΑ C ΜΑΘΗΜΑ 2.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Κεφ.1 Εισαγωγη στην εννοια του Αλγοριθμου και στον Προγραμματισμο
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
ΤΗΣ ΦΟΙΤΗΤΡΙΑΣ : ΤΣΑΛΤΑ ΑΝΑΣΤΑΣΙΑ Α.Μ. : 30920
Γλωσσική Τεχνολογία Μάθημα 5 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων Φροντιστήριο - 30/04/2009.
Δομές Δεδομένων.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΑΜΠΑΣ ΑΘΑΝΑΣΙΟΣ Β ΚΑΛΩΤΑ ΑΝΝΑ Β
Ενότητα Α.4. Δομημένος Προγραμματισμός
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
6/12/2012 Παρουσίαση: Μιμηγιάννης Δημήτρης
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
1Κεφάλαιο 4 Κανόνες Σύνταξης HTML Όλες οι ετικέτες εσωκλείονται μεταξύ των χαρακτήρων “ “. Κάθε τι που βρίσκεται μεταξύ των χαρακτήρων “ ”, αποτελεί σχόλιο.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
Βασικά στοιχεία της Java
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
Introduction to Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2:
Αρχές Πληροφορικής Ενότητα # 13: Επεξεργασία κειμένου – LibreOffice #3
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Εισαγωγή στην Στατιστική
Multimedia.
3.1. Το διαδίκτυο ως πηγή πληροφοριών
Εντολές και δομές αλγορίθμου
ΑΝΑΠΑΡΑΣΤΑΣΗ ΧΑΡΑΚΤΗΡΩΝ
ΕΝΟΤΗΤΑ 1 – Γνωρίζω τον υπολογιστή ως ενιαίο σύστημα
Β.ΕΠΑΛ-Γενικής Παιδείας  ΜΑΘΗΜΑ: Εισαγωγή στης αρχές Επιστήμης των Η/Υ  ΚΕΦΑΛΑΙΟ 4: Γλώσσες Αναπαράστασης Αλγορίθμων  ΕΝΟΤΗΤΑ 4.2: Δομή Ακολουθίας 
Αναζήτηση στο Διαδίκτυο
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Κεφάλαιο 2ο: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας
Μεταγράφημα παρουσίασης:

Μάθημα 9ο Επεξεργασία Κειμένου Γλωσσική Τεχνολογία Μάθημα 9ο Επεξεργασία Κειμένου Σοφία Στάμου Άκ.Έτος 2009-10

Αρχιτεκτονική Μηχανής Αναζήτησης Ευρετήριο Μηχανισμός ερωτήματος Διεπαφή Indexer Χρήστες Προσκομιστής Web 10/12/2018 Γλωσσική Τεχνολογία

Έμφαση στα κείμενα Τι είναι κείμενο; Τα κείμενα είναι βασικές μονάδες που αποτελούνται από ακολουθίες tokens ή όρων που δεικτοδοτούνται Οι όροι ή τα tokens είναι λήμματα ή ρίζες λημμάτων, φράσεις ή σημασιολογικές μονάδες Τα αποθετήρια (databases) και τα σώματα κειμένων είναι συλλογές κειμένων Το ερώτημα είναι ένα αίτημα για κείμενα σχετικά με το θέμα του ερωτήματος 10/12/2018 Γλωσσική Τεχνολογία

Δημιουργώντας το ευρετήριο Συλλογή κειμένων για δεικτοδότηση Δημιουργία σωμάτων κειμένων Tokenize τα κείμενα Γλωσσολογική επεξεργασία Δημιουργία ανεστραμμένου ευρετηρίου 10/12/2018 Γλωσσική Τεχνολογία

Τι είναι ένα κείμενο; Το κείμενο είναι ένα ψηφιακό αντικείμενο, που μπορεί να δεικτοδοτηθεί να ερωτηθεί και ενδεχομένως να ανακτηθεί Τύποι κειμένου: Καθαρό κείμενο Εικόνες ‘Ηχος Video Δεδομένα Email ... 10/12/2018 Γλωσσική Τεχνολογία

Τι είναι κείμενο; Strings χαρακτήρων (αλφαβητικοί, ascii, unicode, etc.) Λέξεις . , : ; - ( ) _ Χ1 2 3, 3.1415, 1010 f = ma, H20 Πίνακες Εικόνες Οτιδήποτε δεν είναι εικόνα, κτλ... Γιατί είναι σημαντικό το κείμενο; Αντικατοπτρίζει τη γλώσσα, κουλτούρα, πολιτισμό, κτλ. 10/12/2018 Γλωσσική Τεχνολογία

Συλλογή κειμένων Corpora: Συλλογές κειμένων Αποτελούν αντιπροσωπευτικό δείγμα χρήσης της γλώσσας και συνήθως αποθηκεύονται σε λεξικογραφικές Βάσεις Δεδομένων Τύποι: Γραπτού vs. Προφορικού λόγου Γενικά vs. Εξειδικευμένα Μονόγλωσσα vs. Πολύγλωσσα Σύγχρονα vs. Διαχρονικά Επισημειωμένα vs. Χωρίς επισημείωση Δεικτοδοτημένα vs. Μη δεικτοδοτημένα Στατικά vs. δυναμικά 10/12/2018 Γλωσσική Τεχνολογία

Επεξεργασία κειμένου Βασικά βήματα: Αναγνώριση δομής κειμένου Τίτλος, ενότητες, παράγραφοι, κτλ. Διαχωρισμός σε tokens – τύπος markup Σημεία στίξης και κενά απομακρύνονται Αποκατάληξη/μορφολογική ανάλυση Αποθήκευση σε ανεστραμμένο ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία

Pipeline δεικτοδότησης Κείμενα προς δεικτοδότηση Friends, Romans, countrymen. Tokenizer Ακολουθίες tokens Friends Romans Countrymen Γλωσσικά εργαλεία Επεξεργασμένα tokens friend roman countryman Indexer Ανεστραμμένο ευρετήριο friend roman countryman 2 4 13 16 1 10/12/2018 Γλωσσική Τεχνολογία

Επεξεργασία κειμένου Ποιο το format του; Ποια η γλώσσα του; pdf/word/excel/html Ποια η γλώσσα του; Τι character set χρησιμοποιείται; Καθένα από τα παραπάνω είναι πρόβλημα κατηγοριοποίησης και μπορεί να επιλυθεί με ευρετικές μεθόδους 10/12/2018 Γλωσσική Τεχνολογία

Format/γλώσσα Τα κείμενα μπορεί να είναι γραμμένα σε διαφορετικές γλώσσες Ένα ευρετήριο μπορεί να περιέχει όρους σε διαφορετικές γλώσσες Ένα κείμενο μπορεί να περιέχει συστατικά σε διαφορετικά formats email στα Γαλλικά να είναι μέρος κειμένου στα Ισπανικά 10/12/2018 Γλωσσική Τεχνολογία

Προεπεξεργασία κειμένου Μετατροπή των ακολουθιών bytes σε γραμμική ακολουθία χαρακτήρων Απλό στο ascii, αλλά πιο δύσκολο στο Unicode Κρίσιμο πρόβλημα για τα εμπορικά συστήματα! 10/12/2018 Γλωσσική Τεχνολογία

Tokenization Διαχωρισμός κειμένου σε βασικές μονάδες, υποψήφιες για δεικτοδότηση Προβλήματα με Σημεία στίξης Αριθμούς Ειδικούς χαρακτήρες Σύμβολα Μαθηματικούς τύπους Κανονικοποίηση (συχνά χρησιμοποιείται αποκατάληξη) 10/12/2018 Γλωσσική Τεχνολογία

Tokenization Input: “Friends, Romans and Countrymen” Output: Tokens 10/12/2018 Γλωσσική Τεχνολογία

Tokenization Προβλήματα στο tokenization: Finland’s capital  Finland? Finlands? Finland’s? Hewlett-Packard  Hewlett και Packard σαν δύο tokens? State-of-the-art: πώς διαχωρίζεται; San Francisco: ένα ή δυο tokens? Πώς θα το αποφασίσουμε; 10/12/2018 Γλωσσική Τεχνολογία

Αριθμοί 3/12/91 Mar. 12, 1991 55 B.C. B-52 My PGP key is 324a3df234cb23e 100.2.86.144 Γενικά δεν τους δεικτοδοτούμε Μπορούμε να τους δεικτοδοτήσουμε ξεχωριστά ως meta-data 10/12/2018 Γλωσσική Τεχνολογία

Tokenization: Γλωσσικά ζητήματα L'ensemble  ένα ή δύο tokens? L ? L’ ? Le ? Τα σύνθετα ουσιαστικά στα Γερμανικά δεν διαχωρίζονται Lebensversicherungsgesellschaftsangestellter ‘life insurance company employee’ 10/12/2018 Γλωσσική Τεχνολογία

Tokenization: Γλωσσικά ζητήματα Στα Κινέζικα και τα Γιαπωνέζικα δεν υπάρχουν κενά μεταξύ των λέξεων: Το σωστό tokenization δεν είναι εγγυημένο Προβλήματα στα Γιαπωνέζικα από τη συγχώνευση διαφορετικών αλφαβήτων Ημερομηνίες/ποσά σε πολλαπλά formats フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) Katakana Hiragana Kanji “Romaji” 10/12/2018 Γλωσσική Τεχνολογία

Tokenization: Γλωσσικά ζητήματα Αραβικά: από δεξιά στα αριστερά,όμως οι αριθμοί από τα αριστερά στα δεξιά Οι λέξεις χωρίζονται αλλά τα γράμματα των λέξεων όχι استقلت الجزائر في سنة 1962 بعد 132 عاما من الاحتلال الفرنسي. ← → ← → ← start ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’ Με Unicode, η αναπαράσταση του περιεχομένου είναι δύσκολη. 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση Κανονικοποίηση χρειάζονται και οι όροι του κειμένου για να δεικτοδοτηθούν και οι όροι του ερωτήματος Να ταυτοποιηθεί το U.S.A. με το USA Ορισμός ισοδυναμίας μεταξύ όρων π.χ., διαγράφοντας τις τελείες στις λέξεις Εναλλακτικά να διευρύνουμε ελαφρώς το ερώτημα: Enter: window Search: window, windows Enter: windows Search: Windows, windows Enter: Windows Search: Windows Πιο αποτελεσματικό αλλά λιγότερο αποδοτικό 10/12/2018 Γλωσσική Τεχνολογία

Αναδίπλωση πεζών/κεφαλαίων Μετατροπή όλων των γραμμάτων σε πεζά Εξαίρεση: κεφαλαία στη μέση της πρότασης π.χ., General Motors Fed vs. fed SAIL vs. sail Καλύτερα όλα σε πεζά γιατί οι χρήστες θα διατυπώσουν το ερώτημα σε πεζά 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση σημείων στίξης Ne’er vs. never: Εξαρτάται από τη φυσική γλώσσα U.S.A. vs. USA – Απομακρύνουμε τις τελείες 10/12/2018 Γλωσσική Τεχνολογία

Θησαυροί Χειρισμός συνωνύμων και ομωνύμων Δεικτοδοτούμε τα ισοδύναμα Κλάσεις ισοδυναμίας χειρωνακτικά κατασκευασμένες π.χ., car = automobile color = colour Δεικτοδοτούμε τα ισοδύναμα Όταν περιέχεται στο κείμενο το automobile, το δεικτοδοτούμε και κάτω από τον όρο car Διεύρυνση ερωτήματος Όταν το ερώτημα περιέχει το automobile, ψάχνουμε και για κείμενα που περιέχουν το car 10/12/2018 Γλωσσική Τεχνολογία

Αποκατάληξη και μορφολογική ανάλυση Στόχος: “κανονικοποίηση” παρόμοιων λέξεων Μορφολογία (“τύπος” λέξεων) Κλιτική μορφολογία π.χ,. Κλιτικοί τύποι ρημάτων Ποτέ δεν αλλάζουμε τη γραμματική κατηγορία dog, dogs Παραγωγική μορφολογία Μια λέξη παράγεται από άλλη Συχνά αλλάζει η γραμματική κατηγορία build, building; health, healthy 10/12/2018 Γλωσσική Τεχνολογία

Λημματοποίηση Αναγωγή κλιτικών/παραγωγικών τύπων στον πρώτο κλιτικό π.χ., am, are, is  be car, cars, car's, cars'  car the boy's cars are different colors  the boy car be different color Σωστή αναγωγή στο λήμμα του λεξικού 10/12/2018 Γλωσσική Τεχνολογία

Αποκατάληξη Οι μορφολογικοί τύποι μιας λέξης (μορφήματα): όροι με κοινή ρίζα engineer, engineered, engineering use, user, users, used, using Αποκατάληξη και ανάκτηση πληροφορίας. Ομαδοποίηση λέξεων με κοινή ρίζα Π.χ. Μια αναζήτηση για reads, θα έβρισκε επίσης πληροφορία για read, reading, και readable Σε ορισμένες περιπτώσεις απομακρύνονται και τα προθέματα 10/12/2018 Γλωσσική Τεχνολογία

Κατηγορίες Stemmers Με κόκκινο χρώμα ο αλγόριθμος Porter Τεχνικές συγχώνευσης Χειρωνακτικά Αυτόματα (stemmers) απαλοιφή Table n-gram κατάληξης lookup Longest Απλή match απαλοιφή 10/12/2018 Γλωσσική Τεχνολογία

Το Stemming στην πράξη Η αποκατάληξη επηρεάζει την απόδοση της ανάκτησης κυρίως θετικά για τα Αγγλικά • Η απόδοση εξαρτάται από το λεξιλόγιο • Η αυτόματη αποκατάληξη είναι εξίσου αποδοτική με τη χειρωνακτική συγχώνευση κλιτικών τύπων σε ρίζα Ο αλγόριθμος του Porter είναι εμπειρικός αλλά έχει την καλύτερη απόδοση 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση: άλλες γλώσσες Accents: résumé vs. resume. Σημαντικό κριτήριο Πώς είναι πιθανόν να διατυπώσουν το ερώτημα οι χρήστες; Γερμανικά: Tuebingen vs. Tübingen Θα πρέπει να είναι ισοδύναμα 10/12/2018 Γλωσσική Τεχνολογία

Δεδομένα Κειμένου Το κείμενο αποτελείται από λέξεις και σύμβολα, π.χ. σημεία στίξης Οι διακριτές λέξεις και τα σύμβολα αποτελούν τα tokens του κειμένου. Αρχείο κειμένου μπορεί να είναι: • Free text, γνωστό και ως αδόμητο κειμένο, δηλ. μια συνεχής ακολουθία από tokens. • Fielded text, γνωστό και ως δομημένο κείμενο, δηλ. το κείμενο χωρίζεται σε ενότητες και παραγράφους που διακρίνονται από tags ή markup 10/12/2018 Γλωσσική Τεχνολογία

Ανάκτηση Πληροφορίας Κειμένου Η ταυτοποίηση στηρίζεται σε Boolean τελεστές Η ταξινόμηση στηρίζεται στο μοντέλο διανυσματικού χώρου Η ανάκτηση στο web συνδυάζει το μοντέλο διανυσματικού χώρου και την ταξινόμηση και στηρίζεται στη σπουδαιότητα των κειμένων Όλες οι τεχνικές αντιμετωπίζουν τις λέξεις σαν ξεχωριστά tokens και δεν προχωρούν στη γλωσσολογική ερμηνεία τους 10/12/2018 Γλωσσική Τεχνολογία

Stop Lists Πολύ συχνές λέξεις για τα κείμενα αλλά καθόλου συχνές για τα ερωτήματα Μια stop list είναι μια λίστα τέτοιων λέξεων που πρέπει να απομακρυνθούν κατά τη γλωσσολογική ανάλυση Εξοικονομείται χώρος στο ευρετήριο, γίνεται πιο γρήγορη η αναζήτηση και μειώνονται λάθη Ορισμένες κοινές λέξεις όμως μπορεί να είναι χρήσιμες για κάποια ερωτήματα 10/12/2018 Γλωσσική Τεχνολογία

Συμπερίληψη λέξεων σε stop list • Δεν Περιλαμβάνονται οι πιο κοινές λέξεις μιας γλώσσας (μεταξύ 50-250 λέξεις) • Περιλαμβάνται λέξεις που μπορεί να είναι σημαντικές για την ανάκτηση, π.χ., time, war, home, life, water, world) • Ακόμη, περιλαμβάνονται λέξεις που εμφανίζονται σε συμφράσεις (π.χ., computer, information, system in a set of computing documents) 10/12/2018 Γλωσσική Τεχνολογία

Επιλογή tokens, βαρών, stop lists και αποκατάληξη Εξειδικευμένες συλλογές (π.χ., νομικά, ιατρική) Καλύτερα αποτελέσματα αν ρυθμίσουμε τη μηχανή αναζήτησης βάσει των χαρακτηριστικών της συλλογής και των αναμενόμενων ερωτημάτων Αποδοτική η χρήση δείγματος εκπαίδευσης για τα ερωτήματα με λίστες σχετικών κειμένων Γενικού σκοπού συλλογές (π.χ., αναζήτηση στο web) Χρήση βασικής τεχνικής βαθμολόγησης (π.χ., tf.idf), σύντομη stop list και όχι αποκατάληξη εκτός από τις λέξεις σε πληθυντικό Συνδυάζει ταξινόμηση βάσει ομοιότητας και βάσει σπουδαιότητας κειμένου 10/12/2018 Γλωσσική Τεχνολογία

Σύστημα δεικτοδότησης έγγραφα έγγραφα ανάθεση IDs σε κείμενα κείμενο Αριθμοί κειμένων και πεδία κειμένων Διαχωρισμός σε tokens tokens stop list* Tokens εκτός stop list αποκατάληξη* όροι χωρίς κατάληξη Ανάθεση βαρών* *προαιρετικά πεδία Όροι με βάρη Ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία

Σύνολο σχετικών κειμένων Σύστημα αναζήτησης ερώτημα Επεξεργασία ερωτήματος Tokens ερωτήματος Ταξινομημένα σύνολα κειμένων stop list* Tokens εκτός stop list ταξινόμηση* αποκατάληξη* όροι χωρίς κατάληξη Boolean τελεστές* Ανακτηθέντα σύνολα κειμένων *προαιρετικά πεδία Ευρετήριο Σύνολο σχετικών κειμένων 10/12/2018 Γλωσσική Τεχνολογία

Στατιστικές ιδιότητες κειμένου Οι εμφανίσεις tokens σε ένα κείμενο δεν έχουν ομοιόμορφη κατανομή Μπορεί να μην έχουν ούτε κανονική κατανομή Έχουν Zipf κατανομή 10/12/2018 Γλωσσική Τεχνολογία

Αναπαράσταση συχνότητας βάσει ταξινόμησης Ιδέα: υπολογισμός συχνότητας Πόσες φορές εμφανίζεται κάθε token στο κείμενο Σε όλα τα κείμενα της συλλογής Ταξινομούμε τα tokens βάσει της συχνότητας εμφάνισής τους 10/12/2018 Γλωσσική Τεχνολογία

Η καμπύλη Zipf Rank Freq 1 37 system 2 32 knowledg 3 24 base 4 20 problem 5 18 abstract 6 15 model 7 15 languag 8 15 implem 9 13 reason 10 13 inform 11 11 expert 12 11 analysi 13 10 rule 14 10 program 15 10 oper 16 10 evalu 17 10 comput 18 10 case 19 9 gener 20 9 form 10/12/2018 Γλωσσική Τεχνολογία

Zoom στην καμπύλη 43 6 approach 44 5 work 45 5 variabl 46 5 theori 47 5 specif 48 5 softwar 49 5 requir 50 5 potenti 51 5 method 52 5 mean 53 5 inher 54 5 data 55 5 commit 56 5 applic 57 4 tool 58 4 technolog 59 4 techniqu 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή Σημαντικά σημεία: Λίγες λέξεις με πολύ μεγάλη συχνότητα εμφάνισης Μέσος αριθμός λέξεων με μέση συχνότητα εμφάνισης Πολλές λέξεις με χαμηλή συχνότητα εμφάνισης Παρόμοια καμύλη για λέξεις με μικρές και μεγάλες συχνότητες εμφάνισης Long tail 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή Το γινόμενο της συχνότητας εμφάνισης των λέξεων (f) και τις ταξινόμησής τους (r) προσεγγιστικά παραμένει σταθερό Ταξινόμηση = σειρά λέξεων βάσει συσχνότητας εμφανίσεων Εμπειρικός κανόνας για το παραπάνω: Έστω ο πιο συχνός όρος εμφανίζεται C φορές Ο δεύτερος πιο συχνός εμφανίζεται C/2 φορές Ο τρίτος πιο συχνός εμφανίζεται C/3 φορές … 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή (γραμμική και αλγοριθμική κλίμακα) Illustration by Jacob Nielsen

Συχνότητα Εμφάνισης vs. Κατανομή Οι πιο συχνές λέξεις δεν είναι και οι πιο αντιπροσωπευτικές van Rijsbergen 79 10/12/2018 Γλωσσική Τεχνολογία

Επίδραση Zipf στην Ανάκτηση Σε κάθε κείμενο ορισμένα tokens με μεγάλη συχνότητα εμφάνισης δεν είναι καλοί προσδιοριστές Π.χ., τα “stop words” Τα “closed-class” words Υπάρχουν πολλά tokens που εμφανίζονται μία φορά και μπορεί να δυσκολέψουν τη λειτουργία των αλγορίθμων Οι λέξεις με μέση συχνότητα εμφάνισης είναι οι πλέον αντιπροσωπευτικές 10/12/2018 Γλωσσική Τεχνολογία

..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html 10/12/2018 Γλωσσική Τεχνολογία