Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.
Ανάκτηση Πληροφορίας2 Ταξινόμηση Μοντέλων IR Retrieval Browsing Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Συνολοθεωρητικά Fuzzy Extended Boolean Αλγεβρικά Generalized Vector Latend Semantic Neural Networks Πιθανοτικά Inference Network Belief Network Browsing Flat Structure Guided Hypertext
Ανάκτηση Πληροφορίας3 Συσχέτιση Μοντέλων, Όψεων, Λειτουργιών Λέξεις Κλειδιά Πλήρες Κείμενο Πλήρες Κείμενο + Δομή Retrieval Κλασικά Συνολ/κά Πιθανοτικά Κλασικά Συνολ/κά Πιθανοτικά Δομικά BrowsingFlat Hypertext Structure Guided Hypertext Λογική Όψη Κειμένου Λειτουργίες
Ανάκτηση Πληροφορίας4 Τύποι Ανάκτησης Ad-Hoc Η βάση των κειμένων παραμένει σχετικά σταθερή και στο σύστημα εισέρχονται νέα ερωτήματα (queries). Filtering Τα ερωτήματα παραμένουν σταθερά και νέα κείμενα εισέρχονται στη βάση.
Ανάκτηση Πληροφορίας5 Ανάκτηση Ad Hoc Συλλογή Σταθερού Μεγέθους Q2 Q3 Q1 Q4 Q5
Ανάκτηση Πληροφορίας6 Ad Hoc vs Filtering Documents Stream User 1 Profile User 2 Profile Docs Filtered for User 2 Docs for User 1
Ανάκτηση Πληροφορίας7 Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης
Ανάκτηση Πληροφορίας8 Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα.
Ανάκτηση Πληροφορίας9 Παράδειγμα … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Κείμενο 1 Κείμενο 2Κείμενο 3 Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί;
Ανάκτηση Πληροφορίας10 Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω k i μία λέξη κλειδί και d j ένα κείμενο. Το βάρος ορίζεται ως w(k i,d j ) >= 0 και δηλώνει το πόσο σημαντική είναι η λέξη κλειδί σε σχέση με το κείμενο.
Ανάκτηση Πληροφορίας11 Ορισμός Έστω t αριθμός των keywords και K={k 1,…,k t } το σύνολο των keywords. Εάν το keyword k i δεν εμφανίζεται στο κείμενο dj τότε w(k i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j αντιστοιχεί ένα διάνυσμα βαρών (w 1,j, w 2,j, …, w t,j ).
Ανάκτηση Πληροφορίας12 Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation)
Ανάκτηση Πληροφορίας13 Κλασικά Μοντέλα IR – κi ένα keyword (index term) – dj ένα κείμενο – t συνολικός αριθμός keywords – K = {k1, k2, …, kt} σύνολο keywords – wij >= 0 βάρος μεταξύ (ki,dj) – wij = 0 το keyword δε βρίσκεται στο κείμενο – vec(dj) = (w1j, w2j, …, wtj) διάνυσμα που σχετίζεται με το κείμενο dj – gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με το (ki,dj)
Ανάκτηση Πληροφορίας14 Boolean Μοντέλο Απλό, βασίζεται στη θεωρία συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις – ακριβής σημαντική (exact semantics) – απλός φορμαλισμός – q = ka (kb kc) To keyword είναι είτε παρόν είτε απόν wij {0,1} Για παράδειγμα – q = ka (kb kc) – vec(qdnf) = (1,1,1) (1,1,0) (1,0,0) – vec(qcc) = (1,1,0) ένα conjunctive component
Ανάκτηση Πληροφορίας15 Boolean Μοντέλο q = ka (kb kc) sim(q,dj) = 1 if vec(qcc) | (vec(qcc) vec(qdnf)) ( ki, gi(vec(dj)) = gi(vec(qcc))) 0 otherwise (1,1,1) (1,0,0) (1,1,0) KaKb Kc
Ανάκτηση Πληροφορίας16 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα.
Ανάκτηση Πληροφορίας17 Η χρήση των δυαδικών βαρών είναι πολύ περιοριστική Τα μη-δυαδικά βάρη δίνουν τη δυνατότητα για μερική ταύτιση (partial matches) Τα βάρη των keywords χρησιμοποιούνται για να υπολογιστεί ο βαθμός ομοιότητας (degree of similarity) μεταξύ ενός ερωτήματος και του κάθε κειμένου Το βαθμολογημένο (ranked) σύνολο των κειμένων παρέχει καλύτερη (ποιοτικά) ταύτιση Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας18 Ορίζουμε: wij > 0 όταν ki dj wiq >= 0 σχετίζεται με το ζεύγος (ki,q) vec(dj) = (w1j, w2j,..., wtj) vec(q) = (w1q, w2q,..., wtq) Με κάθε ki σχετίζουμε ένα μοναδιαίο διάνυσμα vec(i) Τα vec(i) και vec(j) είναι ορθοκανονικά (ανεξάρτητα μεταξύ τους) Τα t μοναδιαία διανύσματα vec(i) σχηματίζουν μία κανονική βάση του χώρου με t διαστάσεις. Στο χώρο αυτό, κείμενα και ερωτήματα εμφανίζονται σαν διανύσματα βαρών. Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας19 Sim(q,dj) = cos( ) = [vec(dj) vec(q)] / |dj| * |q| = [ wij * wiq] / |dj| * |q| Εφόσον wij > 0 και wiq > 0, 0 <= sim(q,dj) <=1 Επιτρέπεται η ανάκτηση κειμένου ακόμη και όταν αυτό δεν περιέχει όλα τα keywords (partial match). i j dj q Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας20 Sim(q,dj) = [ wij * wiq] / |dj| * |q| Πως μπορούμε να υπολογίσουμε τα βάρη wij και wiq ? Χρησιμοποιούνται τα ακόλουθα μεγέθη: Ομοιότητα μεταξύ των κειμένων (similarity) tf factor, term frequency μέσα στο κείμενο Ανομοιότητα μεταξύ των κειμένων (dissimilarity) idf factor, inverse document frequency wij = tf(i,j) * idf(i) Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας21 Έστω, N συνολικός αριθμός κειμένων ni αριθμός κειμένων που περιέχουν το keyword ki freq(i,j) συχνότητα εμφάνισης του ki στο κείμενο dj Ο κανονικοποιημένος tf factor ορίζεται : f(i,j) = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλα τα keywords που βρίσκονται στο dj O idf factor υπολογίζεται : idf(i) = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας22 Τα καλύτερα μοντέλα βαρών προκύπτουν από τη σχέση: wij = f(i,j) * log(N/ni) Η τεχνική καλείται tf-idf weighting scheme Για τα βάρη των keywords στο ερώτημα μία καλή πρόταση: wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni) Το διανυσματικό μοντέλο με χρήση του tf-idf είναι μία πολύ καλή τεχνική για τη βαθμολόγηση των αποτελεσμάτων. Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας23 Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση κειμένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα κείμενα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι τα keywords είναι ανεξάρτητα μεταξύ τους, κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει πάντα. Διανυσματικό Μοντέλο
Ανάκτηση Πληροφορίας24 Διανυσματικό Μοντέλο: Παράδειγμα I d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Ανάκτηση Πληροφορίας25 Διανυσματικό Μοντέλο: Παράδειγμα II d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Ανάκτηση Πληροφορίας26 Διανυσματικό Μοντέλο: Παράδειγμα III d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Ανάκτηση Πληροφορίας27 Πιθανοτικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται.
Ανάκτηση Πληροφορίας28 Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειμένων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά.
Ανάκτηση Πληροφορίας29 Έστω ερώτημα q και κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο dj να είναι χρήσιμο στο χρήστη. Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο dj μόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι ο δειγματοχώρος; Πιθανοτικό Μοντέλο R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Δυαδικά βάρη w i,j {0,1}w i,q {0,1}
Ανάκτηση Πληροφορίας30 Πιθανοτικό Μοντέλο πιθανότητα dj σχετικό με q πιθανότητα dj μη σχετικό με q πιθανότητα να επιλέξουμε το dj από το R Ορίζουμε : Aπό τον κανόνα του Bayes :
Ανάκτηση Πληροφορίας31 Πιθανοτικό Μοντέλο Πιθανότητα το ki βρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R
Ανάκτηση Πληροφορίας32 Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε:
Ανάκτηση Πληροφορίας33 Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Vi το υποσύνολο των κειμένων που περιέχουν το keyword ki.
Ανάκτηση Πληροφορίας34 Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα
Ανάκτηση Πληροφορίας35 Σύγκριση Κλασικών Μοντέλων Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης.
Ανάκτηση Πληροφορίας36 Βασικά στοιχεία IR Διαφορές DR και IR Μοντέλο boolean Διανυσματικό μοντέλο Πιθανοτικό μοντέλο Σύνοψη
Ανάκτηση Πληροφορίας37 Πιθανοτικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται.
Ανάκτηση Πληροφορίας38 Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειμένων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά.
Ανάκτηση Πληροφορίας39 Έστω ερώτημα q και κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο dj να είναι χρήσιμο στο χρήστη. Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο dj μόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι ο δειγματοχώρος; Πιθανοτικό Μοντέλο R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Δυαδικά βάρη w i,j {0,1}w i,q {0,1}
Ανάκτηση Πληροφορίας40 Πιθανοτικό Μοντέλο πιθανότητα dj σχετικό με q πιθανότητα dj μη σχετικό με q πιθανότητα να επιλέξουμε το dj από το R Ορίζουμε : Aπό τον κανόνα του Bayes :
Ανάκτηση Πληροφορίας41 Πιθανοτικό Μοντέλο Πιθανότητα το ki βρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R
Ανάκτηση Πληροφορίας42 Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε:
Ανάκτηση Πληροφορίας43 Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Vi το υποσύνολο των κειμένων που περιέχουν το keyword ki.
Ανάκτηση Πληροφορίας44 Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα
Ανάκτηση Πληροφορίας45 Σύγκριση Κλασικών Μοντέλων Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης.
Συνολοθεωρητικά Μοντέλα Fuzzy Extended Boolean
Ανάκτηση Πληροφορίας47 Συνολοθεωρητικά Μοντέλα Το Boolean μοντέλο χρησιμοποιεί 0 και 1 για να περιγράψει τη σχετικότητα ενός κειμένου. Πώς μπορούμε να επεκτείνουμε το μοντέλο ώστε να υποστηρίζει μερική ταύτιση και βαθμολόγηση κειμένων. Μελετούμε δύο συνολοθεωρητικά μοντέλα: – Fuzzy Set Model – Extended Boolean Model
Ανάκτηση Πληροφορίας48 Κείμενα και ερωτήματα αναπαριστώνται με keywords. Τα αποτελέσματα είναι approximate εξ’ αρχής. Αυτό μοντελοποιείται χρησιμοποιώντας ένα fuzzy πλαίσιο, ως εξής: σε κάθε keyword αντιστοιχεί ένα fuzzy σύνολο κάθε κείμενο έχει ένα βαθμό μέλους (membership) στο fuzzy σύνολο Παρουσιάζουμε το μοντέλο που προτάθηκε από τους Ogawa, Morita, και Kobayashi (1991) Fuzzy Set Μοντέλο
Ανάκτηση Πληροφορίας49 Πλαίσιο αναπαράστασης κλάσεων των οποίων τα όρια δεν είναι σαφώς προσδιορισμένα. Η βασική ιδέα είναι να χρησιμοποιήσουμε το βαθμό συμμετοχής (degree of membership) για τα μέλη ενός συνόλου Ο βαθμός αυτός είναι μεταξύ 0 και 1 Άρα, η συμμετοχή ενός αντικειμένου σε ένα σύνολο παίρνει ασαφή έννοια, σε αντίθεση με το κλασικό boοlean μοντέλο Fuzzy Set Θεωρία
Ανάκτηση Πληροφορίας50 Ορισμός: Ένα fuzzy υποσύνολο A του U χαρακτηρίζεται από μία συνάρτηση συμμετοχής (membership function) (A,u) : U [0,1] η οποία συσχετίζει κάθε στοιχείο u του U με έναν αριθμό μ(u) μεταξύ 0 και 1. Ορισμός: Έστω A και B δύο fuzzy υποσύνολα του U. Επίσης, έστω ¬A το συμπλήρωμα του A. Τότε, (¬A,u) = 1 - (A,u) (A B,u) = max( (A,u), (B,u)) (A B,u) = min( (A,u), (B,u)) Fuzzy Set Θεωρία
Ανάκτηση Πληροφορίας51 Fuzzy sets μοντελοποιούνται με βάση θυσαυρό Ο θυσαυρός χτίζεται ως εξής: vec(c) term-term πίνακας συσχέτισης (correlation matrix) c(i,l) κανονικοποιημένος παράγοντας συσχέτισης για το (ki,kl): c(i,l) = n(i,l) ni + nl - n(i,l) ni: πλήθος κειμένων που περιέχουν το ki nl: πλήθος κειμένων που περιέχουν το kl n(i,l): πλήθος κειμένων που περιέχουν το ki και το kl Έτσι περιγράφεται η γειτονικότητα (proximity) μεταξύ των keywords. Fuzzy Ανάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας52 O παράγοντας συσχέτισης c(i,l) χρησιμοποιείται για να ορίσει fuzzy set membership για ένα κείμενο dj : (i,j) = 1 - (1 - c(i,l)) ki dj (i,j) : συμμετοχή του dj στο fuzzy subset του ki Ένα κείμενο dj ανήκει στο fuzzy set του ki, εάν τα keywords του dj συσχετίζονται με το ki. Fuzzy Ανάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας53 (i,j) = 1 - (1 - c(i,l)) ki dj (i,j) : συμμετοχή του dj στο fuzzy subset του ki Εάν το dj περιέχει keyword kl το οποίο συσχετίζεται κατά πολύ με ki : c(i,l) ~ 1 (i,j) ~ 1 ki είναι καλός fuzzy index για το dj Fuzzy Ανάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας54 Παράδειγμα q = ka (kb kc) vec(qdnf) = (1,1,1) + (1,1,0) + (1,0,0) = vec(cc1) + vec(cc2) + vec(cc3) (q,dj) = (cc1+cc2+cc3,j) = 1 - (1 - (a,j) (b,j) (c,j)) * (1 - (a,j) (b,j) (1- (c,j)))*(1 - (a,j) (1- (b,j)) (1- (c,j))) cc1 cc3 cc2 KaKb Kc
Ανάκτηση Πληροφορίας55 Τα Fuzzy IR μοντέλα έχουν μελετηθεί κυρίως στη βιβλιογραφία που σχετίζεται με fuzzy theory. Πειραματικά αποτελέσματα με standard test collections δεν είναι διαθέσιμα. Fuzzy Ανάκτηση Πληροφορίας