Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Μάθημα 9ο Επεξεργασία Κειμένου
Γλωσσική Τεχνολογία Μάθημα 9ο Επεξεργασία Κειμένου Σοφία Στάμου Άκ.Έτος
2
Αρχιτεκτονική Μηχανής Αναζήτησης
Ευρετήριο Μηχανισμός ερωτήματος Διεπαφή Indexer Χρήστες Προσκομιστής Web 10/12/2018 Γλωσσική Τεχνολογία
3
Έμφαση στα κείμενα Τι είναι κείμενο;
Τα κείμενα είναι βασικές μονάδες που αποτελούνται από ακολουθίες tokens ή όρων που δεικτοδοτούνται Οι όροι ή τα tokens είναι λήμματα ή ρίζες λημμάτων, φράσεις ή σημασιολογικές μονάδες Τα αποθετήρια (databases) και τα σώματα κειμένων είναι συλλογές κειμένων Το ερώτημα είναι ένα αίτημα για κείμενα σχετικά με το θέμα του ερωτήματος 10/12/2018 Γλωσσική Τεχνολογία
4
Δημιουργώντας το ευρετήριο
Συλλογή κειμένων για δεικτοδότηση Δημιουργία σωμάτων κειμένων Tokenize τα κείμενα Γλωσσολογική επεξεργασία Δημιουργία ανεστραμμένου ευρετηρίου 10/12/2018 Γλωσσική Τεχνολογία
5
Τι είναι ένα κείμενο; Το κείμενο είναι ένα ψηφιακό αντικείμενο, που μπορεί να δεικτοδοτηθεί να ερωτηθεί και ενδεχομένως να ανακτηθεί Τύποι κειμένου: Καθαρό κείμενο Εικόνες ‘Ηχος Video Δεδομένα ... 10/12/2018 Γλωσσική Τεχνολογία
6
Τι είναι κείμενο; Strings χαρακτήρων (αλφαβητικοί, ascii, unicode, etc.) Λέξεις . , : ; - ( ) _ Χ1 2 3, , 1010 f = ma, H20 Πίνακες Εικόνες Οτιδήποτε δεν είναι εικόνα, κτλ... Γιατί είναι σημαντικό το κείμενο; Αντικατοπτρίζει τη γλώσσα, κουλτούρα, πολιτισμό, κτλ. 10/12/2018 Γλωσσική Τεχνολογία
7
Συλλογή κειμένων Corpora: Συλλογές κειμένων
Αποτελούν αντιπροσωπευτικό δείγμα χρήσης της γλώσσας και συνήθως αποθηκεύονται σε λεξικογραφικές Βάσεις Δεδομένων Τύποι: Γραπτού vs. Προφορικού λόγου Γενικά vs. Εξειδικευμένα Μονόγλωσσα vs. Πολύγλωσσα Σύγχρονα vs. Διαχρονικά Επισημειωμένα vs. Χωρίς επισημείωση Δεικτοδοτημένα vs. Μη δεικτοδοτημένα Στατικά vs. δυναμικά 10/12/2018 Γλωσσική Τεχνολογία
8
Επεξεργασία κειμένου Βασικά βήματα: Αναγνώριση δομής κειμένου
Τίτλος, ενότητες, παράγραφοι, κτλ. Διαχωρισμός σε tokens – τύπος markup Σημεία στίξης και κενά απομακρύνονται Αποκατάληξη/μορφολογική ανάλυση Αποθήκευση σε ανεστραμμένο ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία
9
Pipeline δεικτοδότησης
Κείμενα προς δεικτοδότηση Friends, Romans, countrymen. Tokenizer Ακολουθίες tokens Friends Romans Countrymen Γλωσσικά εργαλεία Επεξεργασμένα tokens friend roman countryman Indexer Ανεστραμμένο ευρετήριο friend roman countryman 2 4 13 16 1 10/12/2018 Γλωσσική Τεχνολογία
10
Επεξεργασία κειμένου Ποιο το format του; Ποια η γλώσσα του;
pdf/word/excel/html Ποια η γλώσσα του; Τι character set χρησιμοποιείται; Καθένα από τα παραπάνω είναι πρόβλημα κατηγοριοποίησης και μπορεί να επιλυθεί με ευρετικές μεθόδους 10/12/2018 Γλωσσική Τεχνολογία
11
Format/γλώσσα Τα κείμενα μπορεί να είναι γραμμένα σε διαφορετικές γλώσσες Ένα ευρετήριο μπορεί να περιέχει όρους σε διαφορετικές γλώσσες Ένα κείμενο μπορεί να περιέχει συστατικά σε διαφορετικά formats στα Γαλλικά να είναι μέρος κειμένου στα Ισπανικά 10/12/2018 Γλωσσική Τεχνολογία
12
Προεπεξεργασία κειμένου
Μετατροπή των ακολουθιών bytes σε γραμμική ακολουθία χαρακτήρων Απλό στο ascii, αλλά πιο δύσκολο στο Unicode Κρίσιμο πρόβλημα για τα εμπορικά συστήματα! 10/12/2018 Γλωσσική Τεχνολογία
13
Tokenization Διαχωρισμός κειμένου σε βασικές μονάδες, υποψήφιες για δεικτοδότηση Προβλήματα με Σημεία στίξης Αριθμούς Ειδικούς χαρακτήρες Σύμβολα Μαθηματικούς τύπους Κανονικοποίηση (συχνά χρησιμοποιείται αποκατάληξη) 10/12/2018 Γλωσσική Τεχνολογία
14
Tokenization Input: “Friends, Romans and Countrymen” Output: Tokens
10/12/2018 Γλωσσική Τεχνολογία
15
Tokenization Προβλήματα στο tokenization: Finland’s capital
Finland? Finlands? Finland’s? Hewlett-Packard Hewlett και Packard σαν δύο tokens? State-of-the-art: πώς διαχωρίζεται; San Francisco: ένα ή δυο tokens? Πώς θα το αποφασίσουμε; 10/12/2018 Γλωσσική Τεχνολογία
16
Αριθμοί 3/12/91 Mar. 12, 1991 55 B.C. B-52 My PGP key is 324a3df234cb23e Γενικά δεν τους δεικτοδοτούμε Μπορούμε να τους δεικτοδοτήσουμε ξεχωριστά ως meta-data 10/12/2018 Γλωσσική Τεχνολογία
17
Tokenization: Γλωσσικά ζητήματα
L'ensemble ένα ή δύο tokens? L ? L’ ? Le ? Τα σύνθετα ουσιαστικά στα Γερμανικά δεν διαχωρίζονται Lebensversicherungsgesellschaftsangestellter ‘life insurance company employee’ 10/12/2018 Γλωσσική Τεχνολογία
18
Tokenization: Γλωσσικά ζητήματα
Στα Κινέζικα και τα Γιαπωνέζικα δεν υπάρχουν κενά μεταξύ των λέξεων: Το σωστό tokenization δεν είναι εγγυημένο Προβλήματα στα Γιαπωνέζικα από τη συγχώνευση διαφορετικών αλφαβήτων Ημερομηνίες/ποσά σε πολλαπλά formats フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) Katakana Hiragana Kanji “Romaji” 10/12/2018 Γλωσσική Τεχνολογία
19
Tokenization: Γλωσσικά ζητήματα
Αραβικά: από δεξιά στα αριστερά,όμως οι αριθμοί από τα αριστερά στα δεξιά Οι λέξεις χωρίζονται αλλά τα γράμματα των λέξεων όχι استقلت الجزائر في سنة 1962 بعد 132 عاما من الاحتلال الفرنسي. ← → ← → ← start ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’ Με Unicode, η αναπαράσταση του περιεχομένου είναι δύσκολη. 10/12/2018 Γλωσσική Τεχνολογία
20
Κανονικοποίηση Κανονικοποίηση χρειάζονται και οι όροι του κειμένου για να δεικτοδοτηθούν και οι όροι του ερωτήματος Να ταυτοποιηθεί το U.S.A. με το USA Ορισμός ισοδυναμίας μεταξύ όρων π.χ., διαγράφοντας τις τελείες στις λέξεις Εναλλακτικά να διευρύνουμε ελαφρώς το ερώτημα: Enter: window Search: window, windows Enter: windows Search: Windows, windows Enter: Windows Search: Windows Πιο αποτελεσματικό αλλά λιγότερο αποδοτικό 10/12/2018 Γλωσσική Τεχνολογία
21
Αναδίπλωση πεζών/κεφαλαίων
Μετατροπή όλων των γραμμάτων σε πεζά Εξαίρεση: κεφαλαία στη μέση της πρότασης π.χ., General Motors Fed vs. fed SAIL vs. sail Καλύτερα όλα σε πεζά γιατί οι χρήστες θα διατυπώσουν το ερώτημα σε πεζά 10/12/2018 Γλωσσική Τεχνολογία
22
Κανονικοποίηση σημείων στίξης
Ne’er vs. never: Εξαρτάται από τη φυσική γλώσσα U.S.A. vs. USA – Απομακρύνουμε τις τελείες 10/12/2018 Γλωσσική Τεχνολογία
23
Θησαυροί Χειρισμός συνωνύμων και ομωνύμων Δεικτοδοτούμε τα ισοδύναμα
Κλάσεις ισοδυναμίας χειρωνακτικά κατασκευασμένες π.χ., car = automobile color = colour Δεικτοδοτούμε τα ισοδύναμα Όταν περιέχεται στο κείμενο το automobile, το δεικτοδοτούμε και κάτω από τον όρο car Διεύρυνση ερωτήματος Όταν το ερώτημα περιέχει το automobile, ψάχνουμε και για κείμενα που περιέχουν το car 10/12/2018 Γλωσσική Τεχνολογία
24
Αποκατάληξη και μορφολογική ανάλυση
Στόχος: “κανονικοποίηση” παρόμοιων λέξεων Μορφολογία (“τύπος” λέξεων) Κλιτική μορφολογία π.χ,. Κλιτικοί τύποι ρημάτων Ποτέ δεν αλλάζουμε τη γραμματική κατηγορία dog, dogs Παραγωγική μορφολογία Μια λέξη παράγεται από άλλη Συχνά αλλάζει η γραμματική κατηγορία build, building; health, healthy 10/12/2018 Γλωσσική Τεχνολογία
25
Λημματοποίηση Αναγωγή κλιτικών/παραγωγικών τύπων στον πρώτο κλιτικό
π.χ., am, are, is be car, cars, car's, cars' car the boy's cars are different colors the boy car be different color Σωστή αναγωγή στο λήμμα του λεξικού 10/12/2018 Γλωσσική Τεχνολογία
26
Αποκατάληξη Οι μορφολογικοί τύποι μιας λέξης (μορφήματα): όροι με κοινή ρίζα engineer, engineered, engineering use, user, users, used, using Αποκατάληξη και ανάκτηση πληροφορίας. Ομαδοποίηση λέξεων με κοινή ρίζα Π.χ. Μια αναζήτηση για reads, θα έβρισκε επίσης πληροφορία για read, reading, και readable Σε ορισμένες περιπτώσεις απομακρύνονται και τα προθέματα 10/12/2018 Γλωσσική Τεχνολογία
27
Κατηγορίες Stemmers Με κόκκινο χρώμα ο αλγόριθμος Porter
Τεχνικές συγχώνευσης Χειρωνακτικά Αυτόματα (stemmers) απαλοιφή Table n-gram κατάληξης lookup Longest Απλή match απαλοιφή 10/12/2018 Γλωσσική Τεχνολογία
28
Το Stemming στην πράξη Η αποκατάληξη επηρεάζει την απόδοση της ανάκτησης κυρίως θετικά για τα Αγγλικά • Η απόδοση εξαρτάται από το λεξιλόγιο • Η αυτόματη αποκατάληξη είναι εξίσου αποδοτική με τη χειρωνακτική συγχώνευση κλιτικών τύπων σε ρίζα Ο αλγόριθμος του Porter είναι εμπειρικός αλλά έχει την καλύτερη απόδοση 10/12/2018 Γλωσσική Τεχνολογία
29
Κανονικοποίηση: άλλες γλώσσες
Accents: résumé vs. resume. Σημαντικό κριτήριο Πώς είναι πιθανόν να διατυπώσουν το ερώτημα οι χρήστες; Γερμανικά: Tuebingen vs. Tübingen Θα πρέπει να είναι ισοδύναμα 10/12/2018 Γλωσσική Τεχνολογία
30
Δεδομένα Κειμένου Το κείμενο αποτελείται από λέξεις και σύμβολα, π.χ. σημεία στίξης Οι διακριτές λέξεις και τα σύμβολα αποτελούν τα tokens του κειμένου. Αρχείο κειμένου μπορεί να είναι: • Free text, γνωστό και ως αδόμητο κειμένο, δηλ. μια συνεχής ακολουθία από tokens. • Fielded text, γνωστό και ως δομημένο κείμενο, δηλ. το κείμενο χωρίζεται σε ενότητες και παραγράφους που διακρίνονται από tags ή markup 10/12/2018 Γλωσσική Τεχνολογία
31
Ανάκτηση Πληροφορίας Κειμένου
Η ταυτοποίηση στηρίζεται σε Boolean τελεστές Η ταξινόμηση στηρίζεται στο μοντέλο διανυσματικού χώρου Η ανάκτηση στο web συνδυάζει το μοντέλο διανυσματικού χώρου και την ταξινόμηση και στηρίζεται στη σπουδαιότητα των κειμένων Όλες οι τεχνικές αντιμετωπίζουν τις λέξεις σαν ξεχωριστά tokens και δεν προχωρούν στη γλωσσολογική ερμηνεία τους 10/12/2018 Γλωσσική Τεχνολογία
32
Stop Lists Πολύ συχνές λέξεις για τα κείμενα αλλά καθόλου συχνές για τα ερωτήματα Μια stop list είναι μια λίστα τέτοιων λέξεων που πρέπει να απομακρυνθούν κατά τη γλωσσολογική ανάλυση Εξοικονομείται χώρος στο ευρετήριο, γίνεται πιο γρήγορη η αναζήτηση και μειώνονται λάθη Ορισμένες κοινές λέξεις όμως μπορεί να είναι χρήσιμες για κάποια ερωτήματα 10/12/2018 Γλωσσική Τεχνολογία
33
Συμπερίληψη λέξεων σε stop list
• Δεν Περιλαμβάνονται οι πιο κοινές λέξεις μιας γλώσσας (μεταξύ λέξεις) • Περιλαμβάνται λέξεις που μπορεί να είναι σημαντικές για την ανάκτηση, π.χ., time, war, home, life, water, world) • Ακόμη, περιλαμβάνονται λέξεις που εμφανίζονται σε συμφράσεις (π.χ., computer, information, system in a set of computing documents) 10/12/2018 Γλωσσική Τεχνολογία
34
Επιλογή tokens, βαρών, stop lists και αποκατάληξη
Εξειδικευμένες συλλογές (π.χ., νομικά, ιατρική) Καλύτερα αποτελέσματα αν ρυθμίσουμε τη μηχανή αναζήτησης βάσει των χαρακτηριστικών της συλλογής και των αναμενόμενων ερωτημάτων Αποδοτική η χρήση δείγματος εκπαίδευσης για τα ερωτήματα με λίστες σχετικών κειμένων Γενικού σκοπού συλλογές (π.χ., αναζήτηση στο web) Χρήση βασικής τεχνικής βαθμολόγησης (π.χ., tf.idf), σύντομη stop list και όχι αποκατάληξη εκτός από τις λέξεις σε πληθυντικό Συνδυάζει ταξινόμηση βάσει ομοιότητας και βάσει σπουδαιότητας κειμένου 10/12/2018 Γλωσσική Τεχνολογία
35
Σύστημα δεικτοδότησης
έγγραφα έγγραφα ανάθεση IDs σε κείμενα κείμενο Αριθμοί κειμένων και πεδία κειμένων Διαχωρισμός σε tokens tokens stop list* Tokens εκτός stop list αποκατάληξη* όροι χωρίς κατάληξη Ανάθεση βαρών* *προαιρετικά πεδία Όροι με βάρη Ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία
36
Σύνολο σχετικών κειμένων
Σύστημα αναζήτησης ερώτημα Επεξεργασία ερωτήματος Tokens ερωτήματος Ταξινομημένα σύνολα κειμένων stop list* Tokens εκτός stop list ταξινόμηση* αποκατάληξη* όροι χωρίς κατάληξη Boolean τελεστές* Ανακτηθέντα σύνολα κειμένων *προαιρετικά πεδία Ευρετήριο Σύνολο σχετικών κειμένων 10/12/2018 Γλωσσική Τεχνολογία
37
Στατιστικές ιδιότητες κειμένου
Οι εμφανίσεις tokens σε ένα κείμενο δεν έχουν ομοιόμορφη κατανομή Μπορεί να μην έχουν ούτε κανονική κατανομή Έχουν Zipf κατανομή 10/12/2018 Γλωσσική Τεχνολογία
38
Αναπαράσταση συχνότητας βάσει ταξινόμησης
Ιδέα: υπολογισμός συχνότητας Πόσες φορές εμφανίζεται κάθε token στο κείμενο Σε όλα τα κείμενα της συλλογής Ταξινομούμε τα tokens βάσει της συχνότητας εμφάνισής τους 10/12/2018 Γλωσσική Τεχνολογία
39
Η καμπύλη Zipf Rank Freq system knowledg base problem abstract model languag implem reason inform expert analysi rule program oper evalu comput case gener form 10/12/2018 Γλωσσική Τεχνολογία
40
Zoom στην καμπύλη approach work variabl theori specif softwar requir potenti method mean inher data commit applic tool technolog techniqu 10/12/2018 Γλωσσική Τεχνολογία
41
Zipf κατανομή Σημαντικά σημεία:
Λίγες λέξεις με πολύ μεγάλη συχνότητα εμφάνισης Μέσος αριθμός λέξεων με μέση συχνότητα εμφάνισης Πολλές λέξεις με χαμηλή συχνότητα εμφάνισης Παρόμοια καμύλη για λέξεις με μικρές και μεγάλες συχνότητες εμφάνισης Long tail 10/12/2018 Γλωσσική Τεχνολογία
42
Zipf κατανομή Το γινόμενο της συχνότητας εμφάνισης των λέξεων (f) και τις ταξινόμησής τους (r) προσεγγιστικά παραμένει σταθερό Ταξινόμηση = σειρά λέξεων βάσει συσχνότητας εμφανίσεων Εμπειρικός κανόνας για το παραπάνω: Έστω ο πιο συχνός όρος εμφανίζεται C φορές Ο δεύτερος πιο συχνός εμφανίζεται C/2 φορές Ο τρίτος πιο συχνός εμφανίζεται C/3 φορές … 10/12/2018 Γλωσσική Τεχνολογία
43
Zipf κατανομή (γραμμική και αλγοριθμική κλίμακα)
Illustration by Jacob Nielsen
44
Συχνότητα Εμφάνισης vs. Κατανομή
Οι πιο συχνές λέξεις δεν είναι και οι πιο αντιπροσωπευτικές van Rijsbergen 79 10/12/2018 Γλωσσική Τεχνολογία
45
Επίδραση Zipf στην Ανάκτηση
Σε κάθε κείμενο ορισμένα tokens με μεγάλη συχνότητα εμφάνισης δεν είναι καλοί προσδιοριστές Π.χ., τα “stop words” Τα “closed-class” words Υπάρχουν πολλά tokens που εμφανίζονται μία φορά και μπορεί να δυσκολέψουν τη λειτουργία των αλγορίθμων Οι λέξεις με μέση συχνότητα εμφάνισης είναι οι πλέον αντιπροσωπευτικές 10/12/2018 Γλωσσική Τεχνολογία
46
..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
10/12/2018 Γλωσσική Τεχνολογία
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.