Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Γλωσσική Τεχνολογία Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος
2
Βασικά Θέματα Δεικτοδότηση Λεξιλογική επεξεργασία
Πιθανοτικό μοντέλο ανάκτησης πληροφορίας Κατηγοριοποίηση κειμένων Εξαγωγή πληροφορίας από κείμενο Σημασιολογική ανάλυση 24/11/2018 Γλωσσική Τεχνολογία
3
Δεικτοδότηση Ανεστραμμένο ευρετήριο
Αποτελεσματικό για μεγάλες συλλογές κειμένων Συσχετίζει λέξεις με τις εμφανίσεις τους μέσα στη συλλογή Όροι Λέξεις: όροι ή εκφράσεις Λεξιξόγιο V Το σύνολο των όρων που μας ενδιαφέρουν 24/11/2018 Γλωσσική Τεχνολογία
4
Ανεστραμμένο Ευρετήριο
Το απλούστερο ευρετήριο Ένα λεξικό Κάθε κλειδί είναι ένας όρος V Η τιμή που συσχετίζεται με αυτό b() δείχνει σε ένα bucket (posting list) Το bucket είναι μια λίστα από δείκτες που σημειώνουν όλες τις εμφανίσεις του στη συλλογή κειμένων 24/11/2018 Γλωσσική Τεχνολογία
5
Ανεστραμμένο Ευρετήριο
Bucket entries: Το αναγνωριστικό κειμένου (docID) Αριθμός του κειμένου στη συλλογή Ξεχωριστή καταχώριση για κάθε εμφάνιση του όρου docID offset (υπό τη μορφή χαρακτήρων) της εμφάνισης του όρου στο συγκεκριμένο κείμενο Δίνει στο χρήστη ένα σύντομο περιεχομένο του κειμένου Επιτρέπει ερωτήματα εγγύτητας 24/11/2018 Γλωσσική Τεχνολογία
6
Ανεστραμμένο Ευρετήριο
24/11/2018 Γλωσσική Τεχνολογία
7
Δημιουργία Ανεστραμμένου Ευρετηρίου
Επεξεργασία κειμένων Εξαγωγή όρων i Αν i δεν υπάρχει στο ευρετήριο προσθήκη i στο ανεστραμμένο ευρετήριο Εισαγωγή της εμφάνισης του όρου στο bucket 24/11/2018 Γλωσσική Τεχνολογία
8
Αναζήτηση σε Ανεστραμμένο Ευρετήριο
Για να βρούμε τον όρο σε μια δεικτοδοτημένη συλλογή κειμένων Ανακτούμε την τιμή του όρου b() από το ανεστραμμένο ευρετήριο Ελέγχουμε το bucket για να ανακτήσουμε τη λίστα με τις εμφανίσεις του όρου Για να βρούμε k όρους Παίρνουμε k λίστες με τις εμφανίσεις όρων Συνδυάζουμε τις λίστες με ένα βασικό σύνολο τελεστών 24/11/2018 Γλωσσική Τεχνολογία
9
Δημιουργία Ανεστραμμένου Ευρετηρίου
Μέγεθος = (|V|) Υλoποιημένο με χρήση hash table Τα Buckets αποθηκεύονται στη μνήμη Κατασκευή με απλούς αλγορίθμους Τα Buckets αποθηκεύονται στο δίσκο Μη-πρακτικό δεδομένου του χρόνου προσπέλασης του δίσκου Χρήση ειδικευμένων αλγορίθμων βοηθητικής μνήμης 24/11/2018 Γλωσσική Τεχνολογία
10
Συμπίεση Buckets Ταξινόμηση των εμφανίσεων κάθε όρου βάσει docID
Αποθήκευση ως λίστα κενών – η ακολουθία των διαφορών μεταξύ διαδοχικών docID s Πλεονέκτημα – εξοικονόμηση μνήμης Όροι με μεγάλη συχνότητα παράγουν πολλά μικρά κενά Μικροί ακέραιοι κωδικοποιούνται ως λέξεις-κωδικοί με μικρού μήκους μεταβλητές Παράδειγμα: Η ακολουθία docIDs: (14, 22, 38, 42, 66, 122, 131, 226 ) Μια ακολουθία κενών: (14, 8, 16, 4, 24, 56, 9, 95) 24/11/2018 Γλωσσική Τεχνολογία
11
Λεξιλογική Επεξεργασία
Προηγείται της δεικτοδότησης ή της μετατροπής των κειμένων σε διανυσματικές αναπαραστάσεις Tokenization Εξαγωγή των όρων του κειμένων Συγχώνευση όρων – μείωση του λεξιλογίου Αποκατάληξη Αναγωγή των όρων στη ρίζα θέματος Απαλοιφή τερματικών όρων Κοινοί όροι άνευ σημασιολογικού περιεχομένου 20-30% μείωση του μεγέθους του ευρετηρίου 24/11/2018 Γλωσσική Τεχνολογία
12
Tokenization Εξαγωγή των όρων του κειμένου Παράδειγμα Απομάκρυνση
μεταδεδομένων δομικών στοιχείων Παράδειγμα Απομάκρυνση HTML tags Απομάκρυνση σημείων στίξης & ειδικών συμβόλων Αναδίπλωση πεζών –κεφαλαίων (π.χ. όλα πεζά) 24/11/2018 Γλωσσική Τεχνολογία
13
Αποκατάληξη Συγχώνευση κλιτικών τύπων σε έναν όρο δεικτοδότησης
Π.χ. ένα κείμενο με τους όρους fish και fisher μπορεί να ανακτηθεί από το ερώτημα fishing (χωρίς το fishing να περιέχεται στο κείμενο) Αποκατάληξη – συγχώνευση λέξεων στον τύπο ρίζας π.χ. fish – ο όρος δεικτοδότησης Αλγόριθμος αποκατάληξης Porter (1980) Στηρίζεται σε προϋπάρχουσα λίστα καταλήξεων και σε ένα σύνολο κανόνων Π.χ. Αν suffix=IZATION και το prefix περιέχει τουλάχιστον έναν φωνήεν ακολουθούμενο από σύμφωνο, replace με suffix=IZE BINARIZATION => BINARIZE 24/11/2018 Γλωσσική Τεχνολογία
14
Ταξινόμηση βάσει περιεχομένου
Boolean query Επιστρέφει πολλά σχετικά κείμενα π.χ. Το query ‘Web AND graphs’, επιστρέφει 4M αποτελέσματα Πρόβλημα Ο χρήστης μπορεί να διαβάσει μερικά μόνο από αυτά Ταξινόμηση βάσει περιεχομένου Οργάνωση των αποτελεσμάτων βάσει σχετικότητας με το ερώτημα 24/11/2018 Γλωσσική Τεχνολογία
15
Μοντέλο Διανυσματικού Χώρου
Αντιστοίχιση κειμένων σε διανυσματικό χώρο Κάθε κείμενο d Αναπαρίσταται ως μια ακολουθία όρων σ(t) d = ((1), (2), (3), …, (|d|)) Οι μοναδικοί όροι σε ένα σύνολο κειμένων Καθορίζουν τις διαστάσεις του διανυσματικού μοντέλου 24/11/2018 Γλωσσική Τεχνολογία
16
Παράδειγμα Boolean αναπαράσταση των διανυσμάτων:
document text terms d1 web web graph web graph d2 graph web net graph net graph web net d3 page web complex Boolean αναπαράσταση των διανυσμάτων: V = [ web, graph, net, page, complex ] V1 = [ ] V2 = [ ] V3 = [ ] 24/11/2018 Γλωσσική Τεχνολογία
17
tf*idf Βαθμολόγηση tf = term frequency df = document frequency
Συχνότητα όρου σε ένα κείμενο. df = document frequency Πόσα κείμενα περιέχουν τον όρο; Κατανομή του όρου idf = inverse document frequency Η άνιση κατανομή του όρου στο κείμενο Πόσο συγκεκριμένος είναι ο όρος για το κείμενο Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο weight(t,D) = tf(t,D) * idf(t) 24/11/2018 Γλωσσική Τεχνολογία
18
Term frequency (TF) Ένας όρος που εμφανίζεται πολλές φορές σ’ένα κείμενο ίσως είναι πιο σημαντικός από τους όρους που εμφανίζονται μόνο μία φορά nij – ο αριθμός των εμφανίσεων του όρου j σε ένα κείμενο di Term frequency 24/11/2018 Γλωσσική Τεχνολογία
19
Inverse document frequency (IDF)
Ένας όρος που εμφανίζεται σε λίγα κείμενα είναι πιθανόν να διακρίνει καλύτερα τα κείμενα μεταξύ τους απ’ ότι ένας όρος που εμφανίζεται στα περισσότερα ή σε όλα τα κείμενα nj – ο αριθμός των κειμένων που περιέχουν τον όρο j n – ο συνολικός αριθμός των κειμένων στη συλλογή Inverse document frequency 24/11/2018 Γλωσσική Τεχνολογία
20
Βαθμολόγηση όρων (TF-IDF)
Το TF-IDF βάρος του όρου j στο κείμενο di είναι: 24/11/2018 Γλωσσική Τεχνολογία
21
Ευρετήρια Μηχανών Αναζήτησης
24/11/2018 Γλωσσική Τεχνολογία
22
Ανεστραμμένο ευρετήριο
Λεξικό: λίστα των λέξεων που εμφανίζονται σε όλα τα κείμενα της συλλογής Postings: αρχείο που καταχωρίζει όλα τα docID των κειμένων στα οποία εμφανίζεται κάθε λέξη του λεξικού Encoding: απομακρύνει διπλοεγγραφές από το λεξικό και τα αρχεία καταχωρίσεων (postings files) για να κρατήσουμε το μέγεθος μικρό 24/11/2018 Γλωσσική Τεχνολογία
23
Ανεστραμμένο ευρετήριο / λεξικό
Αναπαράσταση κάθε κειμένου υπό μορφή διανύσματος Συνδυασμός όλων των διανυσμάτων Απαλοιφή διπλότυπων λέξεων Αλφαβητική ταξινόμηση της προκύπτουσας λίστας 24/11/2018 Γλωσσική Τεχνολογία
24
Παράδειγμα Κείμενο 1: It was a dark and stormy night in the country manor. ==> country dark manor night storm Κείμενο 2: Now is the time for all good men to come to the aid of their country. ==> aid all come country good men time Λεξικό: aid all come country dark good manor men night storm time 24/11/2018 Γλωσσική Τεχνολογία
25
Παράδειγμα (cont’d) Postings: aid (2) all (2) come (2) country (1&2) dark (1) good (2) manor (1) men (2) night (1) storm (1) time (2) Το αρχείο καταχωρίσεων (postings file) επισημειώνει το αρχείο του λεξικού με το αναγωνριστικό των κειμένων στα οποία εμφανίζεται μία λέξη 24/11/2018 Γλωσσική Τεχνολογία
26
Πώς θα ταξινομήσουμε τα ανακτηθέντα κείμενα;
Ανάκτηση Το postings file υποστηρίζει boolean queries Π.χ. Η αναζήτηση κειμένων που περιέχουν τη λέξη “country” επιστρέφει τα κειμένα 1 & 2 Π.χ. Η αναζήτηση κειμένων που περιέχουν τις λέξεις “country” and “manor” επιστρέφει το κείμενο 1 Πώς θα ταξινομήσουμε τα ανακτηθέντα κείμενα; Αν η λέξη country περιέχεται στα κείμενα 1 & 2 θα επιστρέψουμε το 1 πριν το 2; 24/11/2018 Γλωσσική Τεχνολογία
27
..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
24/11/2018 Γλωσσική Τεχνολογία
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.