Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
Advertisements

ΑΞΙΟΛΟΓΗΣΗ ΕΙΣΑΓΩΓΗ Στη διδακτική διαδικασία ο διδάσκων θέτει στόχους, στη συνέχεια μεριμνά για την επίτευξή τους και τέλος αξιολογεί το έργο του, το υλικό.
ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΜΑΘΗΜΑ 5.
Δένδρα van Emde Boas TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μελετάμε την περίπτωση όπου αποθηκεύουμε.
1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.
Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181)
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Εισαγωγή στη Βιοπληροφορική
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Τμήμα Πληροφορικής ΑΠΘ
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αναγνώριση Προτύπων.
Γραφήματα & Επίπεδα Γραφήματα
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
Τυχαιοκρατικοί Αλγόριθμοι TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA Πιθανότητες και Αλγόριθμοι Ανάλυση μέσης.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Δομές Δεδομένων.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
 Έστω ότι επιθυμούμε να συγκρίνουμε ένα σύνολο n αντικειμένων κατά ζεύγη σύμφωνα με τα σχετικά τους βάρη. Ο αριθμός των συγκρίσεων θα είναι n(n-1)/2.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 4) 1 Από κοινού κατανομή πολλών ΤΜ Ορίζεται ως από κοινού συνάρτηση κατανομής F(x 1, …, x n ) n τυχαίων.
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
EXCEL – λογιστικά φύλλα. Χρήση επεξεργασία, αναπαράσταση και επικοινωνία αριθμητικών (η γενικότερα ποσοτικών) δεδομένων Ειδικότερα Εφαρμογή εκπαιδευτικών.
Computational Imaging Laboratory ΤΜΗΥΠ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Υπολογιστική Όραση.
Ασυμπτωτικός Συμβολισμός
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Σχεσιακή Άλγεβρα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Συναρτησιακές Εξαρτήσεις.
Olympia Nikou1 Τίτλος Παρουσίασης: Προσεγγιστικός Υπολογισμός των λύσεων ενός προβλήματος με: Δειγματοληψία στον χώρο αναζήτησης των λύσεων.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
Επιστημονικός Υπολογισμός Ι Πρώτο Εργαστήριο Εισαγωγή στο matlab 15 Οκτωβρίου 2010 Γιώργος Δρακόπουλος ΤΜΗΥΠ.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
TRUST MODELS FOR P2P E-COMMERCE ΔΗΜΗΤΡΗΣ ΠΑΝΑΓΙΩΤΟΥ ΑΜ: ΑΘΗΝΑ, 12/10/2006 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ.
Βασικά στοιχεία της Java
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Μετασχηματισμός Fourier
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Σήματα και Συστήματα ΙΙ Διάλεξη: Εβδομάδα Καθηγητής Πέτρος Γρουμπός Επιμέλεια παρουσίασης: Βασιλική Μπουγά 1.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο ΙΙ
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Μικροοικονομία Διάλεξη 2.
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Πολυσυγγραμμικότητα Εξειδίκευση
Κλασσική Μηχανική Ενότητα 8: ΟΙ ΕΞΙΣΩΣΕΙΣ LAGRANGE
Η Έννοια της τυχαίας Διαδικασίας
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Ψηφιακός Έλεγχος διάλεξη Παρατηρητές Ψηφιακός Έλεγχος.
Κανονικοπηση(normalization)
Μεθοδολογία Έρευνας Διάλεξη 9η Σύνταξη Πτυχιακής Εργασίας
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Στατιστικά Περιγραφικά Μέτρα
Ερωτήματα Επιλογής σε ACCESS
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Σκοπός Η συνοπτική παρουσίαση
Μη Γραμμικός Προγραμματισμός
Μεταγράφημα παρουσίασης:

Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.

Ανάκτηση Πληροφορίας2 Ταξινόμηση Μοντέλων IR Retrieval Browsing Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Συνολοθεωρητικά Fuzzy Extended Boolean Αλγεβρικά Generalized Vector Latend Semantic Neural Networks Πιθανοτικά Inference Network Belief Network Browsing Flat Structure Guided Hypertext

Ανάκτηση Πληροφορίας3 Συσχέτιση Μοντέλων, Όψεων, Λειτουργιών Λέξεις Κλειδιά Πλήρες Κείμενο Πλήρες Κείμενο + Δομή Retrieval Κλασικά Συνολ/κά Πιθανοτικά Κλασικά Συνολ/κά Πιθανοτικά Δομικά BrowsingFlat Hypertext Structure Guided Hypertext Λογική Όψη Κειμένου Λειτουργίες

Ανάκτηση Πληροφορίας4 Τύποι Ανάκτησης Ad-Hoc Η βάση των κειμένων παραμένει σχετικά σταθερή και στο σύστημα εισέρχονται νέα ερωτήματα (queries). Filtering Τα ερωτήματα παραμένουν σταθερά και νέα κείμενα εισέρχονται στη βάση.

Ανάκτηση Πληροφορίας5 Ανάκτηση Ad Hoc Συλλογή Σταθερού Μεγέθους Q2 Q3 Q1 Q4 Q5

Ανάκτηση Πληροφορίας6 Ad Hoc vs Filtering Documents Stream User 1 Profile User 2 Profile Docs Filtered for User 2 Docs for User 1

Ανάκτηση Πληροφορίας7 Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης

Ανάκτηση Πληροφορίας8 Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα.

Ανάκτηση Πληροφορίας9 Παράδειγμα … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Κείμενο 1 Κείμενο 2Κείμενο 3 Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί;

Ανάκτηση Πληροφορίας10 Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω k i μία λέξη κλειδί και d j ένα κείμενο. Το βάρος ορίζεται ως w(k i,d j ) >= 0 και δηλώνει το πόσο σημαντική είναι η λέξη κλειδί σε σχέση με το κείμενο.

Ανάκτηση Πληροφορίας11 Ορισμός Έστω t αριθμός των keywords και K={k 1,…,k t } το σύνολο των keywords. Εάν το keyword k i δεν εμφανίζεται στο κείμενο dj τότε w(k i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j αντιστοιχεί ένα διάνυσμα βαρών (w 1,j, w 2,j, …, w t,j ).

Ανάκτηση Πληροφορίας12 Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation)

Ανάκτηση Πληροφορίας13 Κλασικά Μοντέλα IR – κi ένα keyword (index term) – dj ένα κείμενο – t συνολικός αριθμός keywords – K = {k1, k2, …, kt} σύνολο keywords – wij >= 0 βάρος μεταξύ (ki,dj) – wij = 0 το keyword δε βρίσκεται στο κείμενο – vec(dj) = (w1j, w2j, …, wtj) διάνυσμα που σχετίζεται με το κείμενο dj – gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με το (ki,dj)

Ανάκτηση Πληροφορίας14 Boolean Μοντέλο Απλό, βασίζεται στη θεωρία συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις – ακριβής σημαντική (exact semantics) – απλός φορμαλισμός – q = ka  (kb   kc) To keyword είναι είτε παρόν είτε απόν wij  {0,1} Για παράδειγμα – q = ka  (kb   kc) – vec(qdnf) = (1,1,1)  (1,1,0)  (1,0,0) – vec(qcc) = (1,1,0) ένα conjunctive component

Ανάκτηση Πληροφορίας15 Boolean Μοντέλο q = ka  (kb   kc) sim(q,dj) = 1 if  vec(qcc) | (vec(qcc)  vec(qdnf))  (  ki, gi(vec(dj)) = gi(vec(qcc))) 0 otherwise (1,1,1) (1,0,0) (1,1,0) KaKb Kc

Ανάκτηση Πληροφορίας16 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα.

Ανάκτηση Πληροφορίας17 Η χρήση των δυαδικών βαρών είναι πολύ περιοριστική Τα μη-δυαδικά βάρη δίνουν τη δυνατότητα για μερική ταύτιση (partial matches) Τα βάρη των keywords χρησιμοποιούνται για να υπολογιστεί ο βαθμός ομοιότητας (degree of similarity) μεταξύ ενός ερωτήματος και του κάθε κειμένου Το βαθμολογημένο (ranked) σύνολο των κειμένων παρέχει καλύτερη (ποιοτικά) ταύτιση Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας18 Ορίζουμε: wij > 0 όταν ki  dj wiq >= 0 σχετίζεται με το ζεύγος (ki,q) vec(dj) = (w1j, w2j,..., wtj) vec(q) = (w1q, w2q,..., wtq) Με κάθε ki σχετίζουμε ένα μοναδιαίο διάνυσμα vec(i) Τα vec(i) και vec(j) είναι ορθοκανονικά (ανεξάρτητα μεταξύ τους) Τα t μοναδιαία διανύσματα vec(i) σχηματίζουν μία κανονική βάση του χώρου με t διαστάσεις. Στο χώρο αυτό, κείμενα και ερωτήματα εμφανίζονται σαν διανύσματα βαρών. Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας19 Sim(q,dj) = cos(  ) = [vec(dj)  vec(q)] / |dj| * |q| = [  wij * wiq] / |dj| * |q| Εφόσον wij > 0 και wiq > 0, 0 <= sim(q,dj) <=1 Επιτρέπεται η ανάκτηση κειμένου ακόμη και όταν αυτό δεν περιέχει όλα τα keywords (partial match). i j dj q  Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας20 Sim(q,dj) = [  wij * wiq] / |dj| * |q| Πως μπορούμε να υπολογίσουμε τα βάρη wij και wiq ? Χρησιμοποιούνται τα ακόλουθα μεγέθη: Ομοιότητα μεταξύ των κειμένων (similarity) tf factor, term frequency μέσα στο κείμενο Ανομοιότητα μεταξύ των κειμένων (dissimilarity) idf factor, inverse document frequency wij = tf(i,j) * idf(i) Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας21 Έστω, N συνολικός αριθμός κειμένων ni αριθμός κειμένων που περιέχουν το keyword ki freq(i,j) συχνότητα εμφάνισης του ki στο κείμενο dj Ο κανονικοποιημένος tf factor ορίζεται : f(i,j) = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλα τα keywords που βρίσκονται στο dj O idf factor υπολογίζεται : idf(i) = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας22 Τα καλύτερα μοντέλα βαρών προκύπτουν από τη σχέση: wij = f(i,j) * log(N/ni) Η τεχνική καλείται tf-idf weighting scheme Για τα βάρη των keywords στο ερώτημα μία καλή πρόταση: wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni) Το διανυσματικό μοντέλο με χρήση του tf-idf είναι μία πολύ καλή τεχνική για τη βαθμολόγηση των αποτελεσμάτων. Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας23 Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση κειμένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα κείμενα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι τα keywords είναι ανεξάρτητα μεταξύ τους, κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει πάντα. Διανυσματικό Μοντέλο

Ανάκτηση Πληροφορίας24 Διανυσματικό Μοντέλο: Παράδειγμα I d1 d2 d3 d4d5 d6 d7 k1 k2 k3

Ανάκτηση Πληροφορίας25 Διανυσματικό Μοντέλο: Παράδειγμα II d1 d2 d3 d4d5 d6 d7 k1 k2 k3

Ανάκτηση Πληροφορίας26 Διανυσματικό Μοντέλο: Παράδειγμα III d1 d2 d3 d4d5 d6 d7 k1 k2 k3

Ανάκτηση Πληροφορίας27 Πιθανοτικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται.

Ανάκτηση Πληροφορίας28 Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειμένων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά.

Ανάκτηση Πληροφορίας29 Έστω ερώτημα q και κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο dj να είναι χρήσιμο στο χρήστη. Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο dj μόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι ο δειγματοχώρος; Πιθανοτικό Μοντέλο R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Δυαδικά βάρη w i,j  {0,1}w i,q  {0,1}

Ανάκτηση Πληροφορίας30 Πιθανοτικό Μοντέλο πιθανότητα dj σχετικό με q πιθανότητα dj μη σχετικό με q πιθανότητα να επιλέξουμε το dj από το R Ορίζουμε : Aπό τον κανόνα του Bayes :

Ανάκτηση Πληροφορίας31 Πιθανοτικό Μοντέλο Πιθανότητα το ki βρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R

Ανάκτηση Πληροφορίας32 Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε:

Ανάκτηση Πληροφορίας33 Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Vi το υποσύνολο των κειμένων που περιέχουν το keyword ki.

Ανάκτηση Πληροφορίας34 Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα

Ανάκτηση Πληροφορίας35 Σύγκριση Κλασικών Μοντέλων Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης.

Ανάκτηση Πληροφορίας36 Βασικά στοιχεία IR Διαφορές DR και IR Μοντέλο boolean Διανυσματικό μοντέλο Πιθανοτικό μοντέλο Σύνοψη

Ανάκτηση Πληροφορίας37 Πιθανοτικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειμένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται.

Ανάκτηση Πληροφορίας38 Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειμένων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά.

Ανάκτηση Πληροφορίας39 Έστω ερώτημα q και κείμενο dj. Το πιθανοτικό μοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείμενο dj να είναι χρήσιμο στο χρήστη. Το μοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται μόνο από το ερώτημα και το κείμενο dj μόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι ο δειγματοχώρος; Πιθανοτικό Μοντέλο R σύνολο σχετικών κειμένων σύνολο μη σχετικών κειμένων Δυαδικά βάρη w i,j  {0,1}w i,q  {0,1}

Ανάκτηση Πληροφορίας40 Πιθανοτικό Μοντέλο πιθανότητα dj σχετικό με q πιθανότητα dj μη σχετικό με q πιθανότητα να επιλέξουμε το dj από το R Ορίζουμε : Aπό τον κανόνα του Bayes :

Ανάκτηση Πληροφορίας41 Πιθανοτικό Μοντέλο Πιθανότητα το ki βρίσκεται σε ένα κείμενο που επιλέγεται τυχαία από το σύνολο R

Ανάκτηση Πληροφορίας42 Πιθανοτικό Μοντέλο Ισχύει ότι: Χρησιμοποιώντας λογάριθμους παίρνουμε:

Ανάκτηση Πληροφορίας43 Αρχική Εκτίμηση Αρχικά χρησιμοποιούμε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειμένων V. Ορίζουμε ως Vi το υποσύνολο των κειμένων που περιέχουν το keyword ki.

Ανάκτηση Πληροφορίας44 Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ’ όψιν η συχνότητα εμφάνισης 3. Θεωρεί ότι τα keywords είναι ανεξάρτητα

Ανάκτηση Πληροφορίας45 Σύγκριση Κλασικών Μοντέλων Το Boolean μοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση με τα άλλα μοντέλα. Δεν υπάρχει απόδειξη ότι το πιθανοτικό μοντέλο είναι καλύτερο από το διανυσματικό (και το αντίστροφο). Το διανυσματικό μοντέλο είναι αυτό που χρησιμοποιείται περισσότερο σε συστήματα IR και μηχανές αναζήτησης.

Συνολοθεωρητικά Μοντέλα Fuzzy Extended Boolean

Ανάκτηση Πληροφορίας47 Συνολοθεωρητικά Μοντέλα Το Boolean μοντέλο χρησιμοποιεί 0 και 1 για να περιγράψει τη σχετικότητα ενός κειμένου. Πώς μπορούμε να επεκτείνουμε το μοντέλο ώστε να υποστηρίζει μερική ταύτιση και βαθμολόγηση κειμένων. Μελετούμε δύο συνολοθεωρητικά μοντέλα: – Fuzzy Set Model – Extended Boolean Model

Ανάκτηση Πληροφορίας48 Κείμενα και ερωτήματα αναπαριστώνται με keywords. Τα αποτελέσματα είναι approximate εξ’ αρχής. Αυτό μοντελοποιείται χρησιμοποιώντας ένα fuzzy πλαίσιο, ως εξής: σε κάθε keyword αντιστοιχεί ένα fuzzy σύνολο κάθε κείμενο έχει ένα βαθμό μέλους (membership) στο fuzzy σύνολο Παρουσιάζουμε το μοντέλο που προτάθηκε από τους Ogawa, Morita, και Kobayashi (1991) Fuzzy Set Μοντέλο

Ανάκτηση Πληροφορίας49 Πλαίσιο αναπαράστασης κλάσεων των οποίων τα όρια δεν είναι σαφώς προσδιορισμένα. Η βασική ιδέα είναι να χρησιμοποιήσουμε το βαθμό συμμετοχής (degree of membership) για τα μέλη ενός συνόλου Ο βαθμός αυτός είναι μεταξύ 0 και 1 Άρα, η συμμετοχή ενός αντικειμένου σε ένα σύνολο παίρνει ασαφή έννοια, σε αντίθεση με το κλασικό boοlean μοντέλο Fuzzy Set Θεωρία

Ανάκτηση Πληροφορίας50 Ορισμός: Ένα fuzzy υποσύνολο A του U χαρακτηρίζεται από μία συνάρτηση συμμετοχής (membership function)  (A,u) : U  [0,1] η οποία συσχετίζει κάθε στοιχείο u του U με έναν αριθμό μ(u) μεταξύ 0 και 1. Ορισμός: Έστω A και B δύο fuzzy υποσύνολα του U. Επίσης, έστω ¬A το συμπλήρωμα του A. Τότε,  (¬A,u) = 1 -  (A,u)  (A  B,u) = max(  (A,u),  (B,u))  (A  B,u) = min(  (A,u),  (B,u)) Fuzzy Set Θεωρία

Ανάκτηση Πληροφορίας51 Fuzzy sets μοντελοποιούνται με βάση θυσαυρό Ο θυσαυρός χτίζεται ως εξής: vec(c) term-term πίνακας συσχέτισης (correlation matrix) c(i,l) κανονικοποιημένος παράγοντας συσχέτισης για το (ki,kl): c(i,l) = n(i,l) ni + nl - n(i,l) ni: πλήθος κειμένων που περιέχουν το ki nl: πλήθος κειμένων που περιέχουν το kl n(i,l): πλήθος κειμένων που περιέχουν το ki και το kl Έτσι περιγράφεται η γειτονικότητα (proximity) μεταξύ των keywords. Fuzzy Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας52 O παράγοντας συσχέτισης c(i,l) χρησιμοποιείται για να ορίσει fuzzy set membership για ένα κείμενο dj :  (i,j) = 1 -  (1 - c(i,l)) ki  dj  (i,j) : συμμετοχή του dj στο fuzzy subset του ki Ένα κείμενο dj ανήκει στο fuzzy set του ki, εάν τα keywords του dj συσχετίζονται με το ki. Fuzzy Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας53  (i,j) = 1 -  (1 - c(i,l)) ki  dj  (i,j) : συμμετοχή του dj στο fuzzy subset του ki Εάν το dj περιέχει keyword kl το οποίο συσχετίζεται κατά πολύ με ki : c(i,l) ~ 1  (i,j) ~ 1 ki είναι καλός fuzzy index για το dj Fuzzy Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας54 Παράδειγμα q = ka  (kb   kc) vec(qdnf) = (1,1,1) + (1,1,0) + (1,0,0) = vec(cc1) + vec(cc2) + vec(cc3)  (q,dj) =  (cc1+cc2+cc3,j) = 1 - (1 -  (a,j)  (b,j)  (c,j)) * (1 -  (a,j)  (b,j) (1-  (c,j)))*(1 -  (a,j) (1-  (b,j)) (1-  (c,j))) cc1 cc3 cc2 KaKb Kc

Ανάκτηση Πληροφορίας55 Τα Fuzzy IR μοντέλα έχουν μελετηθεί κυρίως στη βιβλιογραφία που σχετίζεται με fuzzy theory. Πειραματικά αποτελέσματα με standard test collections δεν είναι διαθέσιμα. Fuzzy Ανάκτηση Πληροφορίας