Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΕΡΩΤΗΜΑΤΑ ΕΠΙΛΟΓΗΣ ΜΑΘΗΜΑ 6. SELECTSELECT SELECT * FROM όνομα_πίνακα ; • Με τη εντολή SELECT ανασύρουμε δεδομένα από την βάση δεδομένων. • Το αστεράκι.
Advertisements

LIBRARY THING ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Πληκτρολογούμε την διεύθυνση Επιλέγουμε το.
Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΜΑΘΗΜΑ 5.
Ταλαντωσεις – Συνθεση Ταλαντωσεων – Εξαναγκασμενες Ταλαντωσεις
1 • Το μέγεθος του ‘παραθύρου’ πρέπει να αλλάζει με τον αριθμό των συνόδων. • Τόσο η ρυθμαπόδοση όσο και η καθυστέρηση δεν έχουν εγγυήσεις. • Για συνόδους.
Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση.
Ασκήσεις Συνδυαστικής
Ηλεκτρονικός Κατάλογος Βιβλιοθήκης (OPAC). ΤΕΙ ΗΠΕΙΡΟΥ. Βιβλιοθήκη Από την αρχική σελίδα της βιβλιοθήκης (
ΠΡΟΗΓΜΕΝΗ ΕΥΡΕΤΗΡΙΑΣΗ ΔΕΔΟΜΕΝΩΝ Ταξινόμηση – Αναζήτηση.
Ο Αντεστραμμένος Κατάλογος
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Βαθμολόγηση.
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Παραδείγματα χρήσης ουρών Μ/Μ/c/K και αξιολόγησης συστημάτων αναμονής Β. Μάγκλαρης
Σήματα και Φασματικές Μέθοδοι στη Γεωπληροφορική
ΣΧΕΣΙΑΚΟ ΜΟΝΤΕΛΟ ΜΑΘΗΜΑ 3.
Προβλήματα πολλαπλασιαστικών δομών
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΕΜΠΟΡΙΚΟΣ ΣΥΛΛΟΓΟΣ ΛΑΡΙΣΑΣ ετήσια έρευνα για την πορεία της τοπικής αγοράς.
Hierarchical Organization and Description of Music Collections at the Artist Level Ιεραρχική Οργάνωση και Περιγραφή Μουσικών Συλλογών σε Επίπεδο Καλλιτέχνη.
Το Διαδίκτυο ως πηγή πληροφοριών Πλεονεκτήματα και επιφυλάξεις
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
ΠΡΟΛΟΓΟΣ Η ερώτηση: Μπορεί μια ενιαία στατιστική μεθοδολογία να απαντήσει σε προβλήματα επεξεργασίας φυσικής γλώσσας πού εμφανίζουν μια ομοιότητα ως προς.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
Μοντέλα - Αλγόριθμοι – Ταξινόμηση Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Ανάπτυξη μεθοδολογίας για το συστηματικό θεμελιώδη μηχανοτρονικό σχεδιασμό. Εφαρμογή στην ανάπτυξη ευφυούς συστήματος για το σχεδιασμό ρομποτικών αρπαγών.
MELVYL the catalog of the universities of California Digital Libraries MELVYL ο κατάλογος των ψηφιακών βιβλιοθηκών των πανεπιστημίων της Καλιφόρνια.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 25/04/13 Παραδείγματα χρήσης ουρών Μ/Μ/c/K.
Χρονική Πολυπλοκότητα και Μοντέλα
E-metrics στις Ελληνικές Ακαδημαϊκές Βιβλιοθήκες Δήμητρα Τσάμη Πανεπιστήμιο Ιωαννίνων Μονάδα Ολικής Ποιότητας Ακαδημαϊκών Βιβλιοθηκών Βιβλιοθήκη & Κέντρο.
ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ ΔΙΑΚΡΙΤΩΝ ΚΑΙ ΣΥΝΕΧΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Έρευνα για την ανάπτυξη ψηφιακών βιβλιοθηκών από τις ελληνικές ακαδημαϊκές βιβλιοθήκες Δρ. Εμμανουήλ Γαρουφάλλου και Παναγιώτης Μπαλατσούκας
Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(α): Συμπίεση.
ΠΕΡΙΕΧΟΜΕΝΑ  Ευρώπη: Ήπειρος Ευρώπη: Ήπειρος  Η ιδέα της Ευρωπαϊκής Ένωσης Η ιδέα της Ευρωπαϊκής Ένωσης  Διεύρυνση Διεύρυνση  Τα σύμβολα της Ε. Ε.
Η ADD ADVANTAGE είναι μια νέα εταιρεία παροχής ολοκληρωμένης λογιστικής υποστήριξης αλλά και υποβολής και σύνταξης Ευρωπαικών Προγραμμάτων.
Ήπιες Μορφές Ενέργειας Ε306 Από τον άνεμο στην οικονομική βιωσιμότητα (εισαγωγικές έννοιες)
Η ΕΠΑΝΑΣΤΑΣΗ ΣΤΗ ΔΙΑΧΕΙΡΙΣΗ ΑΣΦΑΛΙΣΤΙΚΟΥ ΠΡΑΚΤΟΡΕΙΟΥ.
Μαγνητικός δίσκος (magnetic disk) Εισαγωγή στην Πληροφορκή1 Ο μαγνητικός δίσκος χρησιμοποιείται για μόνιμη αποθήκευση δεδομένων, παρέχοντας σχετικά μικρό.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο Ι Στις ανθρωπιστικές επιστήμες επικράτησαν δύο ερευνητικές κατευθύνσεις: Η στατιστική ανάλυση (συνυπολογίζει.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΕΝΩΣΗ ΕΛΛΗΝΩΝ ΓΟΝΕΩΝ ΕΥΡΩΠΑΪΚΟΥ ΣΧΟΛΕΙΟΥ ΒΡΥΞΕΛΛΕΣ ΙΙΙ
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Μέτρα μεταβλητότητας ή διασποράς
Δυναμικός Κατακερματισμός
Χαρακτηριστικά μιας Κατανομής
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας
Παιδαγωγικές εφαρμογές Η/Υ
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Δομές δεδομένων.
Παράδειγμα a Έστω ότι θέλουμε να υπολογίσουμε το μήκος της λωρίδας αριστερών στροφών σε μια διασταύρωση, ωστε να περιέχει με πιθανότητα 96%, τα οχήματα.
ΘΕΜΑ ΕΡΓΑΣΙΑΣ: ΜΑΧΑΤΜΑ ΓΚΑΝΤΙ ΟΝΟΜΑ: ΜΑΡΚΕΛΛΑ ΣΟΥΤΗ ΤΑΞΗ:Γ’3
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Σύγχρονες μεθοδολογίες ανάπτυξης και διαχείρισης Πληροφοριακών Συστημάτων 2ο Κεφάλαιο.
ΜΕΤΑΔΟΣΗ ΘΕΡΜΟΤΗΤΑΣ - ΑΓΩΓΙΜΟΤΗΤΑ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Κατανομή Poisson Η κατανομή αυτή χρησιμοποιείται όταν θέλουμε να μετρήσουμε τον αριθμό των γεγονότων που εμφανίζονται μέσα σ’ ένα διάστημα (0, t).
Ηλεκτρονικός κατάλογος ΒΚΠ
Σχεσιακεσ βασεισ δεδομενων
H “Βοήθεια” στον Η/Υ 10/11/2018 Β' ΤΑΞΗ ΒΟΗΘΕΙΑ.
Ερωτήματα Επιλογής σε ACCESS
Σημειώσεις : Μιχάλης Φίλης
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Δυναμικός Κατακερματισμός
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems
Μεταγράφημα παρουσίασης:

Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174)

Εισαγωγή (1/2) Αναπτύχθηκε στο City University London. Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους. Πειραματικά έχει πετύχει καλά αποτελέσματα στο TREC

Εισαγωγή (2/2) Βασίζεται στο πιθανοκράτικο μοντέλο. Επηρεάζεται από την συχνότητα εμφάνισης των όρων και το μήκος των εγγράφων. Μοντελοποιεί την συχνότητα εμφάνισης των λέξεων σαν μια μεικτή κατανομή Poisson δύο όρων. Η μία κατανομή είναι τα σχετικά έγγραφα και η άλλη είναι τα μη σχετικά.

OKAPI τύπος Αναζήτησης idf-weighting (1/2). Είναι απλούστερος τρόπος αναζήτησης των εγγράφων που περιέχουν τους όπως του ερωτήματος. N: πλήθος εγγράφων dft: πλήθος εγγράφων που περιέχουν τον όρο t

OKAPI τύπος Αναζήτησης idf-weighting (2/2). Αν ένας όρος υπάρχει σε παραπάνω από τα μισά έγγραφα της συλλογής, προκύπτει αρνητικό απότέλεσμα.

OKAPI τύπος Αναζήτησης χρήση tftd και Ld/ave. tftd: συχνότητα εμφάνισης του όρου t στο έγγραφο d. k1: παράμετρος που επηρεάζει την tftd b: παράμετρος που επηρεάζει το μήκος του εγγράφου Ld: μήκος εγγράφου d Lave: μέσος όρος του μήκους των εγγράφων

OKAPI τύπος Αναζήτησης χρήση tftq. tftq: συχνότητα εμφάνισης του όρου t στην ερώτηση q. k3: παράμετρος που επηρεάζει την tftq

OKAPI τύπος Αναζήτησης πλήρης τύπος. Πειραματικά έχει επιδεχθεί ότι αποδοτικές τιμές για τις παραμέτρους είναι: 1.2=<k1=<2 b=0.75 1.2=<k3=<2

Άσκηση Documents d1: a, b d2: a, b, a, b d3: a, b, a, b, c d4: a, b, c d5: a, a, c Queries q1: a, b q2: a q3: c q4: a, c

Κάνοντας πράξεις έχουμε: Ερώτημα S a ,b d1, d2, d3 a d2, d3, d4, d5 c d1, d3, d5 a ,c d2, d3, d5 S sa sb sc ca cb cc q1 3 - log(7/5) q2 4 2 log3 q3 log(10/6) q4 Επιπλέον N=5 dfa=5, dfb=4, dfc=3 10

Παραδείγματα εφαρμογής Για q=a, b υπολογίζουμε αναλυτικά των τύπο ομοιότητας tfad1=1, tfbd1=1, tfaq1=1, tfbq1=1 k1=1.5, k3=1.5, b=0.75, Ld= 2, Lave = 3.4

Document vectors <tfd,t> q1: a, b d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q1 Sim(d1,q1)=1,17 Sim(d2,q1)=1,29 Sim(d3,q1)=1,19 Sim(d4,q1)=1,01 Sim(d5,q1)=0,71

Document vectors <tfd,t> q2: a d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q2 Sim (d1,q2)= 1,92 Sim (d2,q2)= 2,13 Sim (d3,q2)= 1,95 Sim (d4,q2)= 1,66 Sim (d5,q2)= 2,33

Document vectors <tfd,t> q3: c d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q3 Sim (d1,q3)= 0 Sim (d2,q3)= 0 Sim (d3,q3)= 0,6 Sim (d4,q3)= 0,77 Sim (d5,q3)= 0,77

Document vectors <tfd,t> q4: a, c d Document vectors <tfd,t> dl a b c 1 1.0 2 2.0 4 3 5 q4 Sim (d1,q4)= 0,63 Sim (d2,q4)= 0,83 Sim (d3,q4)= 1,45 Sim (d4,q4)= 1,32 Sim (d5,q4)= 1,89

Ευχαριστούμε για την προσοχή σας!! 