Μάθημα 9ο Επεξεργασία Κειμένου

Μάθημα 9ο Επεξεργασία Κειμένου
Γλωσσική Τεχνολογία Μάθημα 9ο Επεξεργασία Κειμένου Σοφία Στάμου Άκ.Έτος

Αρχιτεκτονική Μηχανής Αναζήτησης
Ευρετήριο Μηχανισμός ερωτήματος Διεπαφή Indexer Χρήστες Προσκομιστής Web 10/12/2018 Γλωσσική Τεχνολογία

Έμφαση στα κείμενα Τι είναι κείμενο;
Τα κείμενα είναι βασικές μονάδες που αποτελούνται από ακολουθίες tokens ή όρων που δεικτοδοτούνται Οι όροι ή τα tokens είναι λήμματα ή ρίζες λημμάτων, φράσεις ή σημασιολογικές μονάδες Τα αποθετήρια (databases) και τα σώματα κειμένων είναι συλλογές κειμένων Το ερώτημα είναι ένα αίτημα για κείμενα σχετικά με το θέμα του ερωτήματος 10/12/2018 Γλωσσική Τεχνολογία

Δημιουργώντας το ευρετήριο
Συλλογή κειμένων για δεικτοδότηση Δημιουργία σωμάτων κειμένων Tokenize τα κείμενα Γλωσσολογική επεξεργασία Δημιουργία ανεστραμμένου ευρετηρίου 10/12/2018 Γλωσσική Τεχνολογία

Τι είναι ένα κείμενο; Το κείμενο είναι ένα ψηφιακό αντικείμενο, που μπορεί να δεικτοδοτηθεί να ερωτηθεί και ενδεχομένως να ανακτηθεί Τύποι κειμένου: Καθαρό κείμενο Εικόνες ‘Ηχος Video Δεδομένα ... 10/12/2018 Γλωσσική Τεχνολογία

Τι είναι κείμενο; Strings χαρακτήρων (αλφαβητικοί, ascii, unicode, etc.) Λέξεις . , : ; - ( ) _ Χ1 2 3, , 1010 f = ma, H20 Πίνακες Εικόνες Οτιδήποτε δεν είναι εικόνα, κτλ... Γιατί είναι σημαντικό το κείμενο; Αντικατοπτρίζει τη γλώσσα, κουλτούρα, πολιτισμό, κτλ. 10/12/2018 Γλωσσική Τεχνολογία

Συλλογή κειμένων Corpora: Συλλογές κειμένων
Αποτελούν αντιπροσωπευτικό δείγμα χρήσης της γλώσσας και συνήθως αποθηκεύονται σε λεξικογραφικές Βάσεις Δεδομένων Τύποι: Γραπτού vs. Προφορικού λόγου Γενικά vs. Εξειδικευμένα Μονόγλωσσα vs. Πολύγλωσσα Σύγχρονα vs. Διαχρονικά Επισημειωμένα vs. Χωρίς επισημείωση Δεικτοδοτημένα vs. Μη δεικτοδοτημένα Στατικά vs. δυναμικά 10/12/2018 Γλωσσική Τεχνολογία

Επεξεργασία κειμένου Βασικά βήματα: Αναγνώριση δομής κειμένου
Τίτλος, ενότητες, παράγραφοι, κτλ. Διαχωρισμός σε tokens – τύπος markup Σημεία στίξης και κενά απομακρύνονται Αποκατάληξη/μορφολογική ανάλυση Αποθήκευση σε ανεστραμμένο ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία

Pipeline δεικτοδότησης
Κείμενα προς δεικτοδότηση Friends, Romans, countrymen. Tokenizer Ακολουθίες tokens Friends Romans Countrymen Γλωσσικά εργαλεία Επεξεργασμένα tokens friend roman countryman Indexer Ανεστραμμένο ευρετήριο friend roman countryman 2 4 13 16 1 10/12/2018 Γλωσσική Τεχνολογία

Επεξεργασία κειμένου Ποιο το format του; Ποια η γλώσσα του;
pdf/word/excel/html Ποια η γλώσσα του; Τι character set χρησιμοποιείται; Καθένα από τα παραπάνω είναι πρόβλημα κατηγοριοποίησης και μπορεί να επιλυθεί με ευρετικές μεθόδους 10/12/2018 Γλωσσική Τεχνολογία

Format/γλώσσα Τα κείμενα μπορεί να είναι γραμμένα σε διαφορετικές γλώσσες Ένα ευρετήριο μπορεί να περιέχει όρους σε διαφορετικές γλώσσες Ένα κείμενο μπορεί να περιέχει συστατικά σε διαφορετικά formats στα Γαλλικά να είναι μέρος κειμένου στα Ισπανικά 10/12/2018 Γλωσσική Τεχνολογία

Προεπεξεργασία κειμένου
Μετατροπή των ακολουθιών bytes σε γραμμική ακολουθία χαρακτήρων Απλό στο ascii, αλλά πιο δύσκολο στο Unicode Κρίσιμο πρόβλημα για τα εμπορικά συστήματα! 10/12/2018 Γλωσσική Τεχνολογία

Tokenization Διαχωρισμός κειμένου σε βασικές μονάδες, υποψήφιες για δεικτοδότηση Προβλήματα με Σημεία στίξης Αριθμούς Ειδικούς χαρακτήρες Σύμβολα Μαθηματικούς τύπους Κανονικοποίηση (συχνά χρησιμοποιείται αποκατάληξη) 10/12/2018 Γλωσσική Τεχνολογία

Tokenization Input: “Friends, Romans and Countrymen” Output: Tokens
10/12/2018 Γλωσσική Τεχνολογία

Tokenization Προβλήματα στο tokenization: Finland’s capital 
Finland? Finlands? Finland’s? Hewlett-Packard  Hewlett και Packard σαν δύο tokens? State-of-the-art: πώς διαχωρίζεται; San Francisco: ένα ή δυο tokens? Πώς θα το αποφασίσουμε; 10/12/2018 Γλωσσική Τεχνολογία

Αριθμοί 3/12/91 Mar. 12, 1991 55 B.C. B-52 My PGP key is 324a3df234cb23e Γενικά δεν τους δεικτοδοτούμε Μπορούμε να τους δεικτοδοτήσουμε ξεχωριστά ως meta-data 10/12/2018 Γλωσσική Τεχνολογία

Tokenization: Γλωσσικά ζητήματα
L'ensemble  ένα ή δύο tokens? L ? L’ ? Le ? Τα σύνθετα ουσιαστικά στα Γερμανικά δεν διαχωρίζονται Lebensversicherungsgesellschaftsangestellter ‘life insurance company employee’ 10/12/2018 Γλωσσική Τεχνολογία

Στα Κινέζικα και τα Γιαπωνέζικα δεν υπάρχουν κενά μεταξύ των λέξεων: Το σωστό tokenization δεν είναι εγγυημένο Προβλήματα στα Γιαπωνέζικα από τη συγχώνευση διαφορετικών αλφαβήτων Ημερομηνίες/ποσά σε πολλαπλά formats フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) Katakana Hiragana Kanji “Romaji” 10/12/2018 Γλωσσική Τεχνολογία

Αραβικά: από δεξιά στα αριστερά,όμως οι αριθμοί από τα αριστερά στα δεξιά Οι λέξεις χωρίζονται αλλά τα γράμματα των λέξεων όχι استقلت الجزائر في سنة 1962 بعد 132 عاما من الاحتلال الفرنسي. ← → ← → ← start ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’ Με Unicode, η αναπαράσταση του περιεχομένου είναι δύσκολη. 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση Κανονικοποίηση χρειάζονται και οι όροι του κειμένου για να δεικτοδοτηθούν και οι όροι του ερωτήματος Να ταυτοποιηθεί το U.S.A. με το USA Ορισμός ισοδυναμίας μεταξύ όρων π.χ., διαγράφοντας τις τελείες στις λέξεις Εναλλακτικά να διευρύνουμε ελαφρώς το ερώτημα: Enter: window Search: window, windows Enter: windows Search: Windows, windows Enter: Windows Search: Windows Πιο αποτελεσματικό αλλά λιγότερο αποδοτικό 10/12/2018 Γλωσσική Τεχνολογία

Αναδίπλωση πεζών/κεφαλαίων
Μετατροπή όλων των γραμμάτων σε πεζά Εξαίρεση: κεφαλαία στη μέση της πρότασης π.χ., General Motors Fed vs. fed SAIL vs. sail Καλύτερα όλα σε πεζά γιατί οι χρήστες θα διατυπώσουν το ερώτημα σε πεζά 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση σημείων στίξης
Ne’er vs. never: Εξαρτάται από τη φυσική γλώσσα U.S.A. vs. USA – Απομακρύνουμε τις τελείες 10/12/2018 Γλωσσική Τεχνολογία

Θησαυροί Χειρισμός συνωνύμων και ομωνύμων Δεικτοδοτούμε τα ισοδύναμα
Κλάσεις ισοδυναμίας χειρωνακτικά κατασκευασμένες π.χ., car = automobile color = colour Δεικτοδοτούμε τα ισοδύναμα Όταν περιέχεται στο κείμενο το automobile, το δεικτοδοτούμε και κάτω από τον όρο car Διεύρυνση ερωτήματος Όταν το ερώτημα περιέχει το automobile, ψάχνουμε και για κείμενα που περιέχουν το car 10/12/2018 Γλωσσική Τεχνολογία

Αποκατάληξη και μορφολογική ανάλυση
Στόχος: “κανονικοποίηση” παρόμοιων λέξεων Μορφολογία (“τύπος” λέξεων) Κλιτική μορφολογία π.χ,. Κλιτικοί τύποι ρημάτων Ποτέ δεν αλλάζουμε τη γραμματική κατηγορία dog, dogs Παραγωγική μορφολογία Μια λέξη παράγεται από άλλη Συχνά αλλάζει η γραμματική κατηγορία build, building; health, healthy 10/12/2018 Γλωσσική Τεχνολογία

Λημματοποίηση Αναγωγή κλιτικών/παραγωγικών τύπων στον πρώτο κλιτικό
π.χ., am, are, is  be car, cars, car's, cars'  car the boy's cars are different colors  the boy car be different color Σωστή αναγωγή στο λήμμα του λεξικού 10/12/2018 Γλωσσική Τεχνολογία

Αποκατάληξη Οι μορφολογικοί τύποι μιας λέξης (μορφήματα): όροι με κοινή ρίζα engineer, engineered, engineering use, user, users, used, using Αποκατάληξη και ανάκτηση πληροφορίας. Ομαδοποίηση λέξεων με κοινή ρίζα Π.χ. Μια αναζήτηση για reads, θα έβρισκε επίσης πληροφορία για read, reading, και readable Σε ορισμένες περιπτώσεις απομακρύνονται και τα προθέματα 10/12/2018 Γλωσσική Τεχνολογία

Κατηγορίες Stemmers Με κόκκινο χρώμα ο αλγόριθμος Porter
Τεχνικές συγχώνευσης Χειρωνακτικά Αυτόματα (stemmers) απαλοιφή Table n-gram κατάληξης lookup Longest Απλή match απαλοιφή 10/12/2018 Γλωσσική Τεχνολογία

Το Stemming στην πράξη Η αποκατάληξη επηρεάζει την απόδοση της ανάκτησης κυρίως θετικά για τα Αγγλικά • Η απόδοση εξαρτάται από το λεξιλόγιο • Η αυτόματη αποκατάληξη είναι εξίσου αποδοτική με τη χειρωνακτική συγχώνευση κλιτικών τύπων σε ρίζα Ο αλγόριθμος του Porter είναι εμπειρικός αλλά έχει την καλύτερη απόδοση 10/12/2018 Γλωσσική Τεχνολογία

Κανονικοποίηση: άλλες γλώσσες
Accents: résumé vs. resume. Σημαντικό κριτήριο Πώς είναι πιθανόν να διατυπώσουν το ερώτημα οι χρήστες; Γερμανικά: Tuebingen vs. Tübingen Θα πρέπει να είναι ισοδύναμα 10/12/2018 Γλωσσική Τεχνολογία

Δεδομένα Κειμένου Το κείμενο αποτελείται από λέξεις και σύμβολα, π.χ. σημεία στίξης Οι διακριτές λέξεις και τα σύμβολα αποτελούν τα tokens του κειμένου. Αρχείο κειμένου μπορεί να είναι: • Free text, γνωστό και ως αδόμητο κειμένο, δηλ. μια συνεχής ακολουθία από tokens. • Fielded text, γνωστό και ως δομημένο κείμενο, δηλ. το κείμενο χωρίζεται σε ενότητες και παραγράφους που διακρίνονται από tags ή markup 10/12/2018 Γλωσσική Τεχνολογία

Ανάκτηση Πληροφορίας Κειμένου
Η ταυτοποίηση στηρίζεται σε Boolean τελεστές Η ταξινόμηση στηρίζεται στο μοντέλο διανυσματικού χώρου Η ανάκτηση στο web συνδυάζει το μοντέλο διανυσματικού χώρου και την ταξινόμηση και στηρίζεται στη σπουδαιότητα των κειμένων Όλες οι τεχνικές αντιμετωπίζουν τις λέξεις σαν ξεχωριστά tokens και δεν προχωρούν στη γλωσσολογική ερμηνεία τους 10/12/2018 Γλωσσική Τεχνολογία

Stop Lists Πολύ συχνές λέξεις για τα κείμενα αλλά καθόλου συχνές για τα ερωτήματα Μια stop list είναι μια λίστα τέτοιων λέξεων που πρέπει να απομακρυνθούν κατά τη γλωσσολογική ανάλυση Εξοικονομείται χώρος στο ευρετήριο, γίνεται πιο γρήγορη η αναζήτηση και μειώνονται λάθη Ορισμένες κοινές λέξεις όμως μπορεί να είναι χρήσιμες για κάποια ερωτήματα 10/12/2018 Γλωσσική Τεχνολογία

Συμπερίληψη λέξεων σε stop list
• Δεν Περιλαμβάνονται οι πιο κοινές λέξεις μιας γλώσσας (μεταξύ λέξεις) • Περιλαμβάνται λέξεις που μπορεί να είναι σημαντικές για την ανάκτηση, π.χ., time, war, home, life, water, world) • Ακόμη, περιλαμβάνονται λέξεις που εμφανίζονται σε συμφράσεις (π.χ., computer, information, system in a set of computing documents) 10/12/2018 Γλωσσική Τεχνολογία

Επιλογή tokens, βαρών, stop lists και αποκατάληξη
Εξειδικευμένες συλλογές (π.χ., νομικά, ιατρική) Καλύτερα αποτελέσματα αν ρυθμίσουμε τη μηχανή αναζήτησης βάσει των χαρακτηριστικών της συλλογής και των αναμενόμενων ερωτημάτων Αποδοτική η χρήση δείγματος εκπαίδευσης για τα ερωτήματα με λίστες σχετικών κειμένων Γενικού σκοπού συλλογές (π.χ., αναζήτηση στο web) Χρήση βασικής τεχνικής βαθμολόγησης (π.χ., tf.idf), σύντομη stop list και όχι αποκατάληξη εκτός από τις λέξεις σε πληθυντικό Συνδυάζει ταξινόμηση βάσει ομοιότητας και βάσει σπουδαιότητας κειμένου 10/12/2018 Γλωσσική Τεχνολογία

Σύστημα δεικτοδότησης
έγγραφα έγγραφα ανάθεση IDs σε κείμενα κείμενο Αριθμοί κειμένων και πεδία κειμένων Διαχωρισμός σε tokens tokens stop list* Tokens εκτός stop list αποκατάληξη* όροι χωρίς κατάληξη Ανάθεση βαρών* *προαιρετικά πεδία Όροι με βάρη Ευρετήριο 10/12/2018 Γλωσσική Τεχνολογία

Σύνολο σχετικών κειμένων
Σύστημα αναζήτησης ερώτημα Επεξεργασία ερωτήματος Tokens ερωτήματος Ταξινομημένα σύνολα κειμένων stop list* Tokens εκτός stop list ταξινόμηση* αποκατάληξη* όροι χωρίς κατάληξη Boolean τελεστές* Ανακτηθέντα σύνολα κειμένων *προαιρετικά πεδία Ευρετήριο Σύνολο σχετικών κειμένων 10/12/2018 Γλωσσική Τεχνολογία

Στατιστικές ιδιότητες κειμένου
Οι εμφανίσεις tokens σε ένα κείμενο δεν έχουν ομοιόμορφη κατανομή Μπορεί να μην έχουν ούτε κανονική κατανομή Έχουν Zipf κατανομή 10/12/2018 Γλωσσική Τεχνολογία

Αναπαράσταση συχνότητας βάσει ταξινόμησης
Ιδέα: υπολογισμός συχνότητας Πόσες φορές εμφανίζεται κάθε token στο κείμενο Σε όλα τα κείμενα της συλλογής Ταξινομούμε τα tokens βάσει της συχνότητας εμφάνισής τους 10/12/2018 Γλωσσική Τεχνολογία

Η καμπύλη Zipf Rank Freq system knowledg base problem abstract model languag implem reason inform expert analysi rule program oper evalu comput case gener form 10/12/2018 Γλωσσική Τεχνολογία

Zoom στην καμπύλη approach work variabl theori specif softwar requir potenti method mean inher data commit applic tool technolog techniqu 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή Σημαντικά σημεία:
Λίγες λέξεις με πολύ μεγάλη συχνότητα εμφάνισης Μέσος αριθμός λέξεων με μέση συχνότητα εμφάνισης Πολλές λέξεις με χαμηλή συχνότητα εμφάνισης Παρόμοια καμύλη για λέξεις με μικρές και μεγάλες συχνότητες εμφάνισης Long tail 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή Το γινόμενο της συχνότητας εμφάνισης των λέξεων (f) και τις ταξινόμησής τους (r) προσεγγιστικά παραμένει σταθερό Ταξινόμηση = σειρά λέξεων βάσει συσχνότητας εμφανίσεων Εμπειρικός κανόνας για το παραπάνω: Έστω ο πιο συχνός όρος εμφανίζεται C φορές Ο δεύτερος πιο συχνός εμφανίζεται C/2 φορές Ο τρίτος πιο συχνός εμφανίζεται C/3 φορές … 10/12/2018 Γλωσσική Τεχνολογία

Zipf κατανομή (γραμμική και αλγοριθμική κλίμακα)
Illustration by Jacob Nielsen

Συχνότητα Εμφάνισης vs. Κατανομή
Οι πιο συχνές λέξεις δεν είναι και οι πιο αντιπροσωπευτικές van Rijsbergen 79 10/12/2018 Γλωσσική Τεχνολογία

Επίδραση Zipf στην Ανάκτηση
Σε κάθε κείμενο ορισμένα tokens με μεγάλη συχνότητα εμφάνισης δεν είναι καλοί προσδιοριστές Π.χ., τα “stop words” Τα “closed-class” words Υπάρχουν πολλά tokens που εμφανίζονται μία φορά και μπορεί να δυσκολέψουν τη λειτουργία των αλγορίθμων Οι λέξεις με μέση συχνότητα εμφάνισης είναι οι πλέον αντιπροσωπευτικές 10/12/2018 Γλωσσική Τεχνολογία

..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
10/12/2018 Γλωσσική Τεχνολογία

Μάθημα 9ο Επεξεργασία Κειμένου

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Μάθημα 9ο Επεξεργασία Κειμένου"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Μάθημα 9ο Επεξεργασία Κειμένου

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Μάθημα 9ο Επεξεργασία Κειμένου"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια