Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174)
Εισαγωγή (1/2) Αναπτύχθηκε στο City University London. Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους. Πειραματικά έχει πετύχει καλά αποτελέσματα στο TREC
Εισαγωγή (2/2) Βασίζεται στο πιθανοκράτικο μοντέλο. Επηρεάζεται από την συχνότητα εμφάνισης των όρων και το μήκος των εγγράφων. Μοντελοποιεί την συχνότητα εμφάνισης των λέξεων σαν μια μεικτή κατανομή Poisson δύο όρων. Η μία κατανομή είναι τα σχετικά έγγραφα και η άλλη είναι τα μη σχετικά.
OKAPI τύπος Αναζήτησης idf-weighting (1/2). Είναι απλούστερος τρόπος αναζήτησης των εγγράφων που περιέχουν τους όπως του ερωτήματος. N: πλήθος εγγράφων dft: πλήθος εγγράφων που περιέχουν τον όρο t
OKAPI τύπος Αναζήτησης idf-weighting (2/2). Αν ένας όρος υπάρχει σε παραπάνω από τα μισά έγγραφα της συλλογής, προκύπτει αρνητικό απότέλεσμα.
OKAPI τύπος Αναζήτησης χρήση tftd και Ld/ave. tftd: συχνότητα εμφάνισης του όρου t στο έγγραφο d. k1: παράμετρος που επηρεάζει την tftd b: παράμετρος που επηρεάζει το μήκος του εγγράφου Ld: μήκος εγγράφου d Lave: μέσος όρος του μήκους των εγγράφων
OKAPI τύπος Αναζήτησης χρήση tftq. tftq: συχνότητα εμφάνισης του όρου t στην ερώτηση q. k3: παράμετρος που επηρεάζει την tftq
OKAPI τύπος Αναζήτησης πλήρης τύπος. Πειραματικά έχει επιδεχθεί ότι αποδοτικές τιμές για τις παραμέτρους είναι: 1.2=<k1=<2 b=0.75 1.2=<k3=<2
Άσκηση Documents d1: a, b d2: a, b, a, b d3: a, b, a, b, c d4: a, b, c d5: a, a, c Queries q1: a, b q2: a q3: c q4: a, c
Κάνοντας πράξεις έχουμε: Ερώτημα S a ,b d1, d2, d3 a d2, d3, d4, d5 c d1, d3, d5 a ,c d2, d3, d5 S sa sb sc ca cb cc q1 3 - log(7/5) q2 4 2 log3 q3 log(10/6) q4 Επιπλέον N=5 dfa=5, dfb=4, dfc=3 10
Παραδείγματα εφαρμογής Για q=a, b υπολογίζουμε αναλυτικά των τύπο ομοιότητας tfad1=1, tfbd1=1, tfaq1=1, tfbq1=1 k1=1.5, k3=1.5, b=0.75, Ld= 2, Lave = 3.4
Document vectors <tfd,t> q1: a, b d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q1 Sim(d1,q1)=1,17 Sim(d2,q1)=1,29 Sim(d3,q1)=1,19 Sim(d4,q1)=1,01 Sim(d5,q1)=0,71
Document vectors <tfd,t> q2: a d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q2 Sim (d1,q2)= 1,92 Sim (d2,q2)= 2,13 Sim (d3,q2)= 1,95 Sim (d4,q2)= 1,66 Sim (d5,q2)= 2,33
Document vectors <tfd,t> q3: c d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q3 Sim (d1,q3)= 0 Sim (d2,q3)= 0 Sim (d3,q3)= 0,6 Sim (d4,q3)= 0,77 Sim (d5,q3)= 0,77
Document vectors <tfd,t> q4: a, c d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q4 Sim (d1,q4)= 0,63 Sim (d2,q4)= 0,83 Sim (d3,q4)= 1,45 Sim (d4,q4)= 1,32 Sim (d5,q4)= 1,89
Ευχαριστούμε για την προσοχή σας!!