Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
15/4/2015 Γλωσσική Τεχνολογία2 Ανάκτηση Πληροφορίας Μελέτη μη δομημένων δεδομένων κείμενο, εικόνες, ήχος, video Τα δεδομένα δεν έχουν δομή όταν: η δομή είναι άγνωστη η σημασία του κάθε στοιχείου είναι άγνωστη Τα συστήματα ανάκτησης πληροφορίας επεξεργάζονται στατιστικά τα δεδομένα
15/4/2015 Γλωσσική Τεχνολογία3 Συστήματα Ανάκτησης vs. RDBMS RDBMS Καλά ορισμένη σημασιολογία των αντικειμένων Σύνθετη γλώσσα ερωτημάτων Ακρίβεια ανάκτησης της πληροφορίας που αναζητείται Έμφαση στην απόδοση ΣΥΣΤΗΜΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Όχι καλά ορισμένη η σημασιολογία αντικειμένων Απλή γλώσσα ερωτημάτων Αναγκαία η ακρίβεια στην ανάκτηση ακόμη κι αν το ερώτημα δεν είναι σαφές Έμφαση στην αποτελεσματικότητα
15/4/2015 Γλωσσική Τεχνολογία4 Ορολογία Ανάκτησης ΚΕΙΜΕΝΟ Αντικείμενο πληροφορίας με άγνωστη δομή Tο format μπορεί να είναι γνωστό, αλλά η σύνταξη και η σημασιολογία όχι ΣΩΜΑ ΚΕΙΜΕΝΩΝ Ένα ή περισσότερα κείμενα σε τυχαία σειρά Oνομάζεται και συλλογή κειμένων ή βάση δεδομένων με κείμενα ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ Παραπάνω του ενός σώματα κειμένων
15/4/2015 Γλωσσική Τεχνολογία5 Ανάκτηση Πληροφορίας Αναζήτηση σε μια συλλογή των κειμένων που ικανοποιούν μια πληροφοριακή ανάγκη (σχετικά κείμενα)
15/4/2015 Γλωσσική Τεχνολογία6 Ανάκτηση Πληροφορίας στο Web Web: “high Precision/low Recall” Τα περισσότερα ερωτήματα αναζητούν μία απάντηση Ένα μόνο σχετικό κείμενο ή ελάχιστα αρκούν (low Recall) Από όλα τα κείμενα που σχετίζονται με ένα ερώτημα, αυτά που επιστρέφονται πρώτα πρέπει να το ικανοποιούν με τη μέγιστη ακίβεια (high Precision) Μια απλή ταύτιση των όρων του ερωτήματος με τους όρους του κειμένου μπορεί να έχει καλή απόδοση
15/4/2015 Γλωσσική Τεχνολογία7 Διεργασίες Ανάκτησης
15/4/2015 Γλωσσική Τεχνολογία8 Αναπαράσταση Κειμένου Δεικτοδότηση κειμένου με χρήση λέξεων- κλειδιών Οι λέξεις-κλειδιά αναπαριστούν το περιεχόμενα του κειμένου Για κάθε λέξη-κλειδί επιστρέφονται τα κείμενα που την περιέχουν (ένα ή περισσότερα) Ορολογία: δεικτοδότηση, αναπαράσταση
15/4/2015 Γλωσσική Τεχνολογία9 Αναπαράσταση Κειμένου Τι βλέπει ο χρήστης
15/4/2015 Γλωσσική Τεχνολογία10 Αναπαράσταση Κειμένου Τι βλέπει η εφαρμογή
15/4/2015 Γλωσσική Τεχνολογία11 Tokenization Η διαδικασία διαχωρισμού μιας ακολουθίας χαρακτήρων σε μια ακολουθία συμβόλων Κάθε σύμβολο τις περισσότερες φορές αντιπροσωπεύει μια λέξη Η αναγνώριση συμβόλων είναι μια σχετικά απλή διαδικασία (εξετάζει τα κενά, tabs, line breaks, etc.)
15/4/2015 Γλωσσική Τεχνολογία12 Επεξεργασία Markup Markup: μετα-δεδομένα που υποδεικνύουν τη δομή και την παρουσίαση ενός κειμένου HMTL example:,,, … Latex example: \section, \subsebction, \... Markup: μας πληροφορεί για την ερμηνεία κάθε συμβόλου John Smith April 18, 1006
15/4/2015 Γλωσσική Τεχνολογία13 Επεξεργασία Markup Markup: δε θεωρείται μέρος του κειμένου Το ίδιο κείμενο μπορεί να περιγράφεται από διαφορετικά μετα-δεδομένα χωρίς αυτά να αλλάζουν το σημασιολογικό του περιεχόμενο
15/4/2015 Γλωσσική Τεχνολογία14 Επεξεργασία Markup
15/4/2015 Γλωσσική Τεχνολογία15 Αναπαράσταση Κειμένου Αφού αφαιρέσουμε τα μετα-δεδομένα (markup), απομένει καθαρό κείμενο
15/4/2015 Γλωσσική Τεχνολογία16 Αναπαράσταση Κειμένου Το καθαρό κείμενο δεν είναι χρήσιμο στις περισσότερες εφαρμογές Επόμενο βήμα: αναπαράσταση κειμένου Στόχος: αναπαράσταση της δομής Στόχος: αναπαράσταση του περιεχομένου
15/4/2015 Γλωσσική Τεχνολογία17 Αναπαράσταση Δομής Bag of Words: η πιο απλή μορφή αναπαράστασης Κείμενο = Bag: περιλαμβάνει τα σύμβολα (λέξεις) Η ίδια λέξη μπορεί να περιέχεται πολλές φορές στο ίδιο bag Η σειρά εμφάνισης των λέξεων αγνοείται Μοντέλο Διανυσματικού χώρου Κείμενο = διάνυσμα Κάθε διάσταση αναπαριστά μια λέξη-κλειδί Η τιμή μιας διάστασης αντιπροσωπεύει τη σχετικότητα
15/4/2015 Γλωσσική Τεχνολογία18 Αναπαράσταση Περιεχομένου Χρησιμοποιούμε ένα σύνολο προσδιοριστών από μια προ-καθορισμένη λίστα Δεικτοδότηση ελεγχόμενου λεξιολογίου Χρησιμοποιούμε μερικές λέξεις ή φράσεις που επιλέγουμε από το κείμενο Δεικτοδότηση ελεύθερου κειμένου Χρησιμοποιούμε όλες τις λέξεις και τις φράσεις του κειμένου Δεικτοδότηση πλήρους κειμένου
15/4/2015 Γλωσσική Τεχνολογία19 Ελεγχόμενο Λεξιλόγιο
15/4/2015 Γλωσσική Τεχνολογία20 Παράδειγμα κειμένου
15/4/2015 Γλωσσική Τεχνολογία21 Δεικτοδότηση Ελεγχόμενου Λεξιλογίου
15/4/2015 Γλωσσική Τεχνολογία22 Δεικτοδότηση Πλήρους Κειμένου
15/4/2015 Γλωσσική Τεχνολογία23 Δεικτοδότηση Πλήρους Κειμένου Οι λέξεις του κειμένου είναι οι καταλληλότεροι όροι δεικτοδότησης με διαφορετικό βαθμό καταλληλότητας η καθεμιά Μερικές λέξεις μπορεί να είναι μορφολογικοί τύποι άλλων
15/4/2015 Γλωσσική Τεχνολογία24 Δεικτοδότηση Πλήρους Κειμένου
15/4/2015 Γλωσσική Τεχνολογία25 Τερματικοί Όροι Δε χρησιμεύουν για την αναπαράσταση κειμένου Σύνδεσμοι, μόρια, άρθρα,.... Λέξεις με μεγάλη συχνότητα εμφάνισης Γιατί να τους αγνοήσουμε; Μειώνεται το μέγεθος του ευρετηρίου Βελτιωμένη απόδοση των αλγορίθμων ανάκτησης Η απαλοιφή τερματικών όρων μπορεί να δυσκολέψει την απάντηση ορισμένων ερωτημάτων (to be or not to be)
15/4/2015 Γλωσσική Τεχνολογία26 Δεικτοδότηση Πλήρους Κειμένου (χωρίς τερματικούς όρους)
15/4/2015 Γλωσσική Τεχνολογία27 Δεικτοδότηση Πλήρους Κειμένου (μορφολογία)
15/4/2015 Γλωσσική Τεχνολογία28 Μορφολογία Οι μορφολογικοί τύποι των λέξεων συνοψίζονται σε μια ενιαία αναπαράσταση Λήμμα Μορφολογική ρίζα Λήμμα: Κανονικοποίηση Μορφολογική ρίζα: αποκατάληξη
15/4/2015 Γλωσσική Τεχνολογία29 Αποκατάληξη Ομαδοποίηση μορφολογικών τύπων Καλύτερη απόδοση ανάκτησης από την ταυτοποίηση αλφαριθμητικών Η αυτόματη αποκατάληξη μπορεί να δώσει λάθη “police”, “policy” “polic”
15/4/2015 Γλωσσική Τεχνολογία30 Ο αλγόριθμος αποτακάληξης Porter Στηρίζεται στην ακολουθία φωνηέντων - συμφώνων Το μέτρο m για μια μορφολογική ρίζα είναι: [C](VC) m [V] C είναι η ακολουθία συμφώνων V είναι η ακολουθία φωνηέντων [ ] υποδηλώνει το προαιρετικό m=0 TR, EE, TREE, Y, BY m=1 TROUBLE, OATS, TREES, IVY m=2 TROUBLES, PRIVATE, OATEN, ORRERY
15/4/2015 Γλωσσική Τεχνολογία31 Ο αλγόριθμος αποτακάληξης Porter Στηρίζεται σε ένα σύνολο κανόνων Οι κανόνες αποτελούνται από διαδοχικά βήματα Step 1a: sses ss, ies i, s NULL caresses caress, ponies poni, cats cat Step 1b: if m>0, eed ee agreed agree
15/4/2015 Γλωσσική Τεχνολογία32 Παράδειγμα Αποκατάληξης Αρχικό κείμενο Marketing strategies carried out by the US companies for their agricultural chemicals, report predictions…. Porter stemmer (χωρίς τερματικούς όρους) market stateg carr compan agricultur chemic report predic….
15/4/2015 Γλωσσική Τεχνολογία33 Δεικτοδότηση πλήρους κειμένου (αποκατάληξη)
15/4/2015 Γλωσσική Τεχνολογία34 Θέματα δεικτοδότησης Κόστος επιλογής όρων δεικτοδότησης Αναπαράσταση ελεγχόμενου λεξιλογίου = μεγάλο κόστος Αναπαράσταση πλήρους κειμένου = μικρό κόστος Αμφισημία των όρων δεικτοδότησης Οι όροι του ελεγχόμενου λεξιλογίου δεν είναι αμφίσημοι Οι λέξεις χαρακτηρίζονται από αμφισημία Λεπτομερής αναπαράσταση Η δεικτοδότηση ελεγχόμενου λεξιλογίου δεν είναι λεπτομερής Η δεικτοδότηση πλήρους κειμένου είναι λεπτομερής
15/4/2015 Γλωσσική Τεχνολογία35 Τύποι αναπαράστασης περιεχομένου Όταν το κόστος είναι καθοριστικός παράγοντας Η δεικτοδότηση πλήρους κειμένου έχει το μικρότερο κόστος Όταν το κόστος ΔΕΝ είναι καθοριστικός παράγοντας Η δεικτοδότηση ελεγχόμενου λεξιλογίου επιτρέπει τη σημασιολογική δεικτοδότηση Αναξέρτητα από τους όρους του κειμένου που επιλέγονται Η δεικτοδότηση πλήρους κειμένου είναι λεπτομερής και καλύπτει πλήρως το σύνολο του κειμένου
15/4/2015 Γλωσσική Τεχνολογία