Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011,
Βασικές Έννοιες Δεν είναι όλοι οι όροι εξίσου χρήσιμοι για την αναπαράσταση των περιεχομένων του κειμένου : λιγότερο συχνοί όροι επιτρέπουν τον εντοπισμό ενός πιο περιορισμένου συνόλου κειμένων. Η σημαντικότητα των όρων δεικτοδότησης αναπαρίσταται με βάρη που σχετίζονται με αυτούς.
Γενικές Έννοιες –κ i είναι ένας όρος δεικτοδότησης –d j είναι ένα κείμενο –n είναι ο συνολικός αριθμός κειμένων –K = (k 1, k 2, …, k t ) είναι το σύνολο όλων των όρων δεικτοδότησης –w ij >= 0 είναι το βάρος το συσχετιζόμενο με (k i,d j ) –w ij = 0 σημαίνει ότι ο όρος δεν ανήκει στο κείμενο –vec(d j ) = (w 1j, w 2j, …, w tj ) είναι ένα ζυγισμένο διάνυσμα που σχετίζεται με ένα κείμενο d j –g i (vec(d j )) = w ij είναι μία συνάρτηση που επιστρέφει το βάρος το σχετιζόμενο με το ζεύγος (k i,d j )
Το Boolean Μοντέλο Απλό μοντέλο βασισμένο στη θεωρία συνόλων Τα ερωτήματα διατυπώνονται ως boolean εκφράσεις –σαφώς ορισμένη σημασιολογία –«κομψός» φορμαλισμός –q = ka (kb kc) Όροι είναι είτε παρόντες είτε απόντες. Συνεπώς, w ij {0,1} Θεωρείστε –q = ka (kb kc) –vec(qdnf) = (1,1,1) (1,1,0) (1,0,0) –vec(qcc) = (1,1,0) είναι το συστατικό μίας σύζευξης Θέματα υλοποίησης: συγχώνευση, ή επαναλαμβανόμενη επιλογή ξεκινώντας από πιο μικρή λίστα.
Το Boolean Mοντέλο q = ka (kb kc) sim(q,dj) = 1 if vec(qcc) | (vec(qcc) vec(qdnf)) ( k i, g i (vec(d j ))=g i (vec(qcc))) 0 αλλιώς (1,1,1) (1,0,0) (1,1,0) κaκakb κcκc
Πλεονεκτήματα Απλό και με ευκολία υλοποίησης (ακόμα και για μεγάλες συλλογές) Επιτρέπει τη διατύπωση πολυπλόκων ερωτημάτων Μπορεί να επεκταθεί με χρήση όρων εγγύτητας
Μειονεκτήματα του Boolean Μοντέλου Η ανάκτηση βασίζεται σε δυαδικά κριτήρια απόφασης χωρίς να χρησιμοποιείται κάπου η έννοια του μερικού ταιριάσματος Δεν υποστηρίζεται κατάταξη των κειμένων (απουσία κάποιας κλίμακας βαθμολόγησης) Οι πληροφοριακές ανάγκες πρέπει να μεταφραστούν σε Boolean εκφράσεις κάτι που για τους περισσότερους χρήστες δεν είναι εύκολο. Τα Boolean ερωτήματα που διατυπώνονται από τους χρήστες είναι συχνά πολύ απλοποιημένα. Ως συνέπεια, το Boolean μοντέλο συχνά επιστρέφει είτε πολύ λίγα είτε υπερβολικά πολλά κείμενα ως απάντηση σε ερώτημα του χρήστη (διαφορετικός ρόλος AND και OR).
Το Vector Space Μοντέλο H χρήση μόνο δυαδικών βαρών είναι περιοριστική Τα μη δυαδικά βάρη επιτρέπουν και την αντιμετώπιση ερωτήσεων μερικού ταιριάσματος Τα βάρη των όρων μπορούν έτσι να χρησιμοποιηθούν για να εκφράσουν ένα βαθμό ομοιότητας ανάμεσα από κάθε ερώτημα και κάθε κείμενο Τα ζυγισμένα σύνολα κειμένων επιτρέπουν καλύτερο/πιο ποιοτικό ταίριασμα
Το Vector Space Μοντέλο Ορίζουμε: –w ij > 0 όποτε k i d j –w iq >= 0 που σχετίζεται με το ζεύγος (k i,q) – vec(d j ) = (w 1j, w 2j,..., w tj ) vec(q) = (w 1q, w 2q,..., w tq ) –Σε κάθε όρο ki σχετίζουμε ένα μοναδιαίο διάνυσμα vec(i) –Τα μοναδιαία διανύσματα vec(i) και vec(j) θεωρούμε ότι είναι ορθοκανονικά (οι όροι δεικτοδότησης υποθέτουμε ότι εμφανίζονται ανεξάρτητα μέσα στα κείμενα) Τα t μοναδιαία διανύσματα vec(i) σχηματίζουν μία ορθοκανονική βάση για το t-διάστατο χώρο Σε αυτό το χώρο, τα ερωτήματα και τα κείμενα αναπαρίστανται ως ζυγισμένα διανύσματα
Το Vector Space Μοντέλο i j dj q Εφόσον wij > 0 και wiq > 0, 0 <= sim(q,dj) <=1 Ένα κείμενο ανακτάται ακόμα και αν ταιριάζει μερικώς με τους όρους ερώτησης
Το Vector Space Μοντέλο Sim(q,dj) = [ wij * wiq] / |dj| * |q| Πώς να υπολογίσουμε τα βάρη wij and wiq ? Μία καλή επιλογή βάρους θα πρέπει να εγγυάται: – ποσοτικοποίηση των intra-document περιεχομένων (ομοιότητα) tf factor, term frequency (συχνότητα όρου) στο κείμενο –Ποσοτικοποίηση του inter-documents διαχωρισμού (ανομοιότητα) idf factor, inverse document frequency –w ij = tf(i,j) * idf(i)
Το Vector Space Μοντέλο Έστω, –N ο συνολικός αριθμός κειμένων στη συλλογή –n i ο αριθμός κειμένων που περιέχουν τον όρο ki –freq(i,j) συχνότητα του k i στο d j Ένας κανονικοποιημένος tf παράγοντας δίνεται από –f(i,j) = freq(i,j) / max(freq(l,j)) –Όπου το μέγιστο υπολογίζεται σε όλους τους όρους που εμφανίζονται μέσα στο κείμενο dj Ο idf factor υπολογίζεται ως –idf(i) = log (N/ni) –Η χρήση λογαρίθμου καθιστά τις τιμές των tf, idf συγκρίσιμες. Μπορεί επίσης να διερμηνευτεί ως η ποσότητα της πληροφορίας που σχετίζεται με τον όρο k i.
Το Vector Space Μοντέλο Τα καλύτερα term-weighting σχήματα χρησιμοποιούν βάρη που δίνονται από –w ij = f(i,j) * log(N/ni) –αυτή η στρατηγική καλείται tf-idf ζυγισμένο σχήμα Για τα βάρη των όρων ερώτησης μία πρόταση είναι –w iq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni) Το μοντέλο διανυσματικού χώρου με tf-idf βάρη αποτελεί ένα καλό σχήμα κατάταξης για γενικές συλλογές Το μοντέλο διανυσματικού χώρου θεωρείται από τα καλύτερα σχήματα κατάταξης. Είναι επίσης απλό και γρήγορο να υπολογιστεί.
Retrieval Ομοιότητα Ερωτήσεως -Κειμένου Διεργασία 1. Υπολόγισε αριθμητή για όλα τα κείμενα: 2. Υπολόγισε παρονομαστή για κανονικοποίηση 3. Κατάταξε τα κείμενα
Ομοιότητα Κειμένου -Κειμένου Διεργασία Έστω Μ ο πίνακας κειμένων όρων Υπολόγισε Μ x M T H διαδικασία θεωρείται ακριβή, μπορεί όμως να βελτιστοποιηθεί για αραιούς πίνακες. Συνήθως τόσο ο πίνακας κειμένων – όρων όσο και ο πίνακας όρων-όρων έχει πυκνότητα 1-3%. Υπάρχουν διάφορες επιλογές για αποθήκευση και διαχείριση πινάκων (i) Σύστημα συντεταγμένων (ii) Συμπιεσμένη αναπαράσταση Στηλών και Γραμμών (iii) Harwell-Boeing Format (iv) Ενώ κανονικά απαιτείται n 2 χώρος, με Harwell Boeing έχουμε n+1+2nz.
Το Vector Space Μοντέλο Πλεονεκτήματα: –η ζύγιση όρων βελτιώνει την ποιότητα του συνόλου απάντησης –το μερικό ταίριασμα επιτρέπει ανάκτηση κειμένων που προσεγγίζουν τις συνθήκες της ερώτησης –Ο μαθηματικός τύπος κατάταξης ταξινομεί τα κείμενα με βάση τον βαθμό ομοιότητάς τους με το ερώτημα. Μειονεκτήματα: –Υποτίθεται ανεξαρτησία όρων δεικτοδότησης (??); Εντούτοις δεν είναι ξεκάθαρο κατά πόσο αυτό αποτελεί μειονέκτημα –Scalability?
Το Vector Space Μοντέλο (παρ.1) d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Το Vector Space Μοντέλο (παρ.2) d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Το Vector Space Μοντέλο (παρ.3) d1 d2 d3 d4d5 d6 d7 k1 k2 k3
Υπολογισμός Υπολογισμός rank(q) 1 float Scores[N] = 0 2 float Length[N] 3 για κάθε όρο ερώτησης t 4 υπολόγισε w t,q και ανάκτησε postings list για t 5 για κάθε ζεύγος (d, tf t,d ) στη postings list 6 do Scores[d]+ = w t,d × w t,q 7 Διάβασε τον πίνακα Length 8 για κάθε d 9 do Scores[d] = Scores[d]/Length[d] 10 επέστρεψε κορυφαία K κείμενα των Scores[]
Θέματα Υλοποίησης (1) Σε πολλές εφαρμογές δεν θέλουμε complete ranking αλλά τα k κορυφαία, για μία μικρή τιμή του k. Μία απλή λύση είναι να υπολογίσουμε τα scores για όλα τα κείμενα να τα διατάξουμε και μετά να επιστρέψουμε τα k κορυφαία (χρόνος O(NlogN). Πως μπορεί να μειωθεί (γραμμικός χρόνος κάτω όριο); Είναι δυνατόν να βρεθούν υπογραμμικοί αλγόριθμοι; To πρόβλημα θυμίζει kNN πρόβλημα που δεν έχει γενική υπογγραμμική λύση. Ενδεχομένως να μπορουσε να χρησιμοποιηθεί o καλούμενος leader αλγόριθμος που οδηγεί εγγυημένα σε υπογραμμική λύση.
Θέματα Υλοποίησης (2) document-at-a-time processing (διέταξε κείμενα σε postings list, ενσωμάτωσε μετρική ολικής σημαντικότητας, leader algorithm τελικό στάδιο) Term -at-a-time processing (- διέταξε όρους με βάση σημαντικότητα, επισκέψου μόνο σημαντικούς όρους - για κάθε όρο χρησιμοποίησε postings list - έλεγξε μόνο κείμενα που περιέχουν όλους τους όρους) Tiered indices - βασική ιδέα η δημιουργία διαφόρων tiers of indexes με βάση τη σημαντικότητα των indexing terms - κατά την επεξεργασία ξεκίνα με το σημαντικότερο όρο - εάν ολοκληρωθεί στο όριο των k documents σταμάτα.
Σύνοψη Μερικές φορές ο τρόπος βαροζύγισης είναι διαφορετικός για ερωτήματα και κείμενα.
Το Πιθανοτικό Μοντέλο Στόχος: η καταγραφή του προβλήματος Α.Π. μέσα σε ένα πιθανοτικό πλαίσιο. Δοθέντος ενός ερωτήματος από τον χρήστη, υπάρχει ένα ιδανικό σύνολο απάντησης Διαδικασία του ερωτήματος είναι ουσιαστικά ο καθορισμός ενός ιδανικού συνόλου απάντησης (clustering) Ποιες είναι αυτές οι ιδιότητες? Ξεκίνησε με ένα αρχικό καθορισμό των ιδιοτήτων Επανέλαβε επαναληπτικά.
Bayesian Probability Theory (α) συσχετίζει τις πιθανότητες με συλλογή αποδείξεων (evidence) (β) απόδειξη: ήταν το κείμενο που περιείχε μερικούς όρους σχετικό; (γ) απόδειξη: ήταν το κείμενο που περιείχε ορισμένους όρους μη σχετικό; (δ) προσάρμοσε εκτίμηση πιθανοτήτων με βάση τις αποδείξεις
Το Πιθανοτικό Μοντέλο Ένα αρχικό σύνολο κειμένων ανακτάται Ο χρήστης μελετά τα ανακτημένα κείμενα (συνήθως μελετά τα κορυφαία 10-20) και προσδιορίζει τα σχετικά. Τα πιθανοτικά μοντέλα χρησιμοποιούν τη πληροφορία αυτή για να εκλεπτύνουν την περιγραφή του ιδανικού συνόλου απάντησης Επαναλαμβάνοντας τη διαδικασία αυτή αναμένεται ότι η περιγραφή του ιδανικού συνόλου απάντησης θα βελτιωθεί Η περιγραφή του ιδανικού συνόλου απάντησης πραγματοποιείται με πιθανοτικούς όρους.
Βασική Υπόθεση Δοθέντος ενός ερωτήματος q και ενός κειμένου d j της συλλογής, το πιθανοτικό μοντέλο προσπαθεί να εκτιμήσει την πιθανότητα ο χρήστης να βρει ενδιαφέρον το κείμενο d j (δηλ. σχετικό προς το ερώτημα q). Υπόθεση του μοντέλου είναι ότι η πιθανότητα της σχετικότητας εξαρτάται από την αναπαράσταση του ερωτήματος και του κειμένου και μόνο. Επιπλέον γίνεται η υπόθεση ότι υπάρχει ένα υποσύνολο όλων των κειμένων, το οποίο ο χρήστης προτιμά ως απάντηση στο ερώτημα q. Ένα τέτοιο ιδανικό σύνολο απάντησης, ονομάζεται R και θα πρέπει να μεγιστοποιεί τη συνολική πιθανότητα σχετικότητας προς την πληροφοριακή ανάγκη του χρήστη. Τα κείμενα στο R προβλέπεται ότι είναι σχετικά προς το ερώτημα. Τα κείμενα που δεν ανήκουν σ’ αυτό το σύνολο προβλέπεται ότι είναι μη-σχετικά.
Binary Independence Retrieval Όλα τα βάρη των όρων δεικτοδότησης έχουν δυαδική μορφή δηλ, w i,j {0,1}, w i,q {0,1}. Ένα ερώτημα q είναι ένα υποσύνολο των όρων δεικτοδότησης. Έστω R το σύνολο των κειμένων για το οποία υπάρχει η γνώση (ή αρχικά η εκτίμηση) ότι είναι σχετικά. Έστω το συμπλήρωμα του R (δηλ. το σύνολο των μη σχετικών κειμένων). Έστω η πιθανότητα το κείμενο dj να είναι σχετικό προς το ερώτημα q και η πιθανότητα το κείμενο dj να μην είναι σχετικό προς το ερώτημα q. Η ομοιότητα sim(d j, q) του κειμένου d j προς το ερώτημα q ορίζεται ως ο λόγος: και (κανόνας του Bayes)
Η Κατάταξη (συνέχεια) Λόγω του ότι υποθέσαμε στοχαστική ανεξαρτησία στους όρους μπορούμε να γράψουμε την παραπάνω σχέση ως, Λογαριθμίζοντας, λαμβάνοντας υπόψη ότι και αγνοώντας τους παράγοντες που είναι σταθεροί για όλα τα κείμενα για συγκεκριμένο ερώτημα, μπορούμε να γράψουμε,
Αρχική Κατάταξη Ότι υποθέτουμε ότι η είναι σταθερή για όλους τους όρους k i (τυπικά 0.5) και Υποθέτουμε ότι η κατανομή των όρων δεικτοδότησης στα μη σχετικά κείμενα μπορεί να προσεγγιστεί από την κατανομή των όρων δεικτοδότησης στο σύνολο των κειμένων Οι δύο παραπάνω υποθέσεις δίνουν:
Βελτίωση Αρχικής Κατάταξης Έστω V ένα υποσύνολο των κειμένων που ανακτήθηκαν αρχικά και στα οποία δόθηκε μια κατάταξη από το πιθανοτικό μοντέλο. Για παράδειγμα το παραπάνω σύνολο θα μπορούσε να είναι, τα κορυφαία r κείμενα, όπου το r είναι ένα προκαθορισμένο κατώφλι. Έστω επίσης V i ένα υποσύνολο του V το οποίο αποτελείται από τα κείμενα που περιέχουν τον όρο k i.
Πλεονεκτήματα/Μειονεκτήματα Πλεονεκτήματα: –Τα κείμενα κατατάσσονται με βάση την πιθανότητα σχετικότητας τους –Επιτρέπει στο σύστημα να προσαρμόζεται με βάση τις προτιμήσεις των χρηστών. Μειονεκτήματα: –ανάγκη προσδιορισμού των αρχικών εκτιμήσεων για P(ki | R) –η μέθοδος δεν λαμβάνει υπόψη τους tf, idf παράγοντες -- Υπάρχουν παραλλαγές όμως οι οποίες επιτρέπουν κάτι τέτοιο.
Σύγκριση με Κλασσικά Μοντέλα Το Boolean μοντέλο δεν αντιμετωπίζει μερικά ταιριάσματα και θεωρείται το πιο αδύνατο από τα κλασσικά μοντέλα Οι Salton, Buckley πραγματοποίησαν μία σειρά από πειράματα τα οποία αποδεικνύουν ότι, το μοντέλο διανυσματικού χώρου είναι καλύτερο σε απόδοση από το πιθανοτικό μοντέλο σε γενικές συλλογές (αυτή είναι γενικά και η άποψη της επιστημονικής κοινότητας, αν και τα τελευταί χρόνια με την εμφάνιση και των language models τα πράγματ έχουν αρχίσει να αλλάζουν)