Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση Πληροφορίας Το Boolean μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση Πληροφορίας Το Boolean μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά."— Μεταγράφημα παρουσίασης:

1 Ανάκτηση Πληροφορίας Το Boolean μοντέλο

2 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network

3 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 3 Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης

4 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 4 Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Το πλήθος των όρων είναι συνήθως μεγάλο και προηγείται απαλοιφή τετριμμένων λέξεων (π.χ., άρθρα, σύνδεσμοι κλπ)

5 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 5 Παράδειγμα … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Κείμενο 1 Κείμενο 2Κείμενο 3 Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί;

6 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 6 Παρατήρηση Όλες οι λέξεις κλειδιά (αλλιώς όροι) δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω t i ένας όρος και d j ένα έγγραφο. Το βάρος του όρου t i στο έγγραφο d j συμβολίζεται ως w(t i,d j ) >= 0 (ή απλούστερα w ij ) και δηλώνει το πόσο σημαντικός είναι ο όρος t i σε σχέση με το έγγραφο d j.

7 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 7 Ορισμός Έστω m αριθμός των όρων και Τ={t 1,…,t m } το σύνολο των μοναδικών όρων. Εάν ο όρος t i δεν εμφανίζεται στο έγγραφο d j τότε w(t i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j αντιστοιχεί ένα m-διάστατο διάνυσμα βαρών (w 1,j, w 2,j, …, w m,j ).

8 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 8 Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation)

9 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 9 Κλασικά Μοντέλα IR –t i ένας όρος (index term, keyword) –d j ένα έγγραφο –m συνολικός αριθμός όρων –T = {t 1, t 2, …, t m } σύνολο keywords –w ij >= 0 βάρος μεταξύ t i, d j –w ij = 0 το t i δε βρίσκεται στο έγγραφο d j –vec(d j ) = (w 1j, w 2j, …, w tj ) διάνυσμα που σχετίζεται με το έγγραφο d j –gi(vec(dj)) = w ij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα t i και d j

10 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 10 Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις –ακριβής σημαντική (exact semantics) –απλός φορμαλισμός Ένας όρος είναι είτε παρόν είτε απών από το έγγραφο, επομένως w ij Є {0,1} Για παράδειγμα –q = (t 1  t 2 )  t 3 –qdnf = (1,1,1)  (0,1,1)  (1,0,1) (disjunctive normal form) conjunctive components (qcc) Boolean Μοντέλο

11 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 11 Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1  t2)  t3

12 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 12 Boolean Μοντέλο Ομοιότητα στο Boolean μοντέλο Sim(q,d j ) = 1, αν  vec(qcc) Є vec(qdnf) |  t i, gi(vec(dj)) = gi(vec(qcc) 0, διαφορετικά

13 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 13 Boolean Μοντέλο q = (t1  t2)  t3

14 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 14 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλες τις κατηγορίες χρηστών. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Το Boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά έγγραφα (απλές λογικές εκφράσεις) και άλλοτε πάρα πολύ λίγα (πολύπλοκες λογικές εκφράσεις).


Κατέβασμα ppt "Ανάκτηση Πληροφορίας Το Boolean μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google