Μετρικές Εκτίμησης Απόδοσης

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
Advertisements

ΑΞΙΟΛΟΓΗΣΗ ΕΙΣΑΓΩΓΗ Στη διδακτική διαδικασία ο διδάσκων θέτει στόχους, στη συνέχεια μεριμνά για την επίτευξή τους και τέλος αξιολογεί το έργο του, το υλικό.
Τι είναι ο προγραμματισμός
Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8α: Αξιολόγηση.
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Διαδικασία ανάπτυξης Προσδιορισμός απαιτήσεων Αρχιτεκτονικός Σχεδιασμός Λεπτομερής Σχεδιασμός Κωδικοποίηση Έλεγχος Παράδοση Συστήματος Λειτουργία - Συντήρηση.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Μεθοδολογία αναζήτησης. Χαρακτηριστικά των ερευνητών του διαδικτύου.
Robustness in Geometric Computations Christoph M. Hoffmann.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Τμήμα Πληροφορικής ΑΠΘ
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Η ποιότητα της πληροφορίας στο εκπαιδευτικό υλικό που χρησιμοποιείται ή διανέμεται μέσω του Internet Χρήστος Σαβρανίδης Πανεπιστήμιο Ιωαννίνων Τμήμα ΦΠΨ.
Αναγνώριση Προτύπων.
Μοντέλο Διδασκαλίας Φυσικών Επιστήμων, για την Υποχρεωτική Εκπαίδευση, στην Κατεύθυνση της Ανάπτυξης Γνώσεων και Ικανοτήτων. Π. Κουμαράς.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων.
Τεχνολογίες και Εφαρμογές Πολυμέσων
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
1 HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ. Καθηγητής, Ε.Μ.Π.
ΘΕΩΡΙΑ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ ΠΑΡΟΥΣΙΑΣΗ ΣΤΑ ΚΕΦΑΛΑΙΑ 7.4 – 7.6 NP ΠΛΗΡΟΤΗΤΑ.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ " Διοίκηση και Οργάνωση Βιβλιοθηκών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Ερευνητικές Εργασίες: Πόσο
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Δίνονται το ονοματεπώνυμο κάθε μαθητή μιας τάξης και η βαθμολογία του σε κάθε μάθημά του και θέλουμε να υπολογίσουμε το μέσο όρο της βαθμολογίας όλων των.
Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.
ΠΑΡΟΥΣΙΑΣΗ ΤΟΥ COLLATE PROJECT COLLATE:Collaboratory for Annotaton,Indexing and Retrieval of Digitized Historical Archive Material(συνεργασία για σχολιασμό,
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου.
TRUST MODELS FOR P2P E-COMMERCE ΔΗΜΗΤΡΗΣ ΠΑΝΑΓΙΩΤΟΥ ΑΜ: ΑΘΗΝΑ, 12/10/2006 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Τι είναι η Κατανομή (Distribution)
Ορισμός Έργου Δρ. Α. Ραφαηλίδης Τμ. Διοίκησης Επιχειρήσεων (Πάτρα) ΤΕΙ Δυτ. Ελλάδας.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Κεφάλαιο 5 Συμπεριφορά των ΣΑΕ Πλεονεκτήματα της διαδικασίας σχεδίασης ΣΑΕ κλειστού βρόχου Συμπεριφορά των ΣΑΕ στο πεδίο του χρόνου Απόκριση ΣΑΕ σε διάφορα.
ΠΛΕ70: Ανάκτηση Πληροφορίας
Στατιστικές Υποθέσεις
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΧΡΟΝΙΚΟυ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟυ ΕΡΓΩΝ
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
ΜΥΕ03: Ανάκτηση Πληροφορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Κατηγορίες και Προδιαγραφές Λογισμικού Η/Υ (Software)
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Κύρια βήματα της έρευνας Πρωτόκολλο έρευνας
Μεθοδολογία Έρευνας Διάλεξη 9η Σύνταξη Πτυχιακής Εργασίας
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΧΡΟΝΙΚΟυ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟυ ΕΡΓΩΝ
Στατιστικές Υποθέσεις
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Λήψη απόφασης για Ενεργειακό Σχεδιασμό
Εννοιολογική Χαρτογράφηση
ΜΥΕ03: Ανάκτηση Πληροφορίας
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Αξιολόγηση της επίδοσης ενός οργανισμού σε θέματα ασφάλειας
Σκοπός Η συνοπτική παρουσίαση
Μεταγράφημα παρουσίασης:

Μετρικές Εκτίμησης Απόδοσης Βασική πηγη το βιβλίο R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/) Βασική πηγη το βιβλίο R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/) Μετρικές Εκτίμησης Απόδοσης Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)

Κλασσικές Μετρικές (Εκτίμηση Απόδοσης) Κλασσικές Μετρικές (Εκτίμηση Απόδοσης) Χωρικές/χρονικές πολυπλοκότητες δομών δεικτοδότησης Επικοινωνία με το Λειτουργικό Σύστημα Καθυστερήσεις στους διαύλους επικοινωνίας Επιβαρύνσεις από ύπαρξη πολλών επιπέδων λογισμικού

Ειδικές Μετρικές (Εκτίμηση Απόδοσης Ανάκτησης) Συλλογή Κειμένων Αναφοράς συλλογή κειμένων συλλογή προτύπων πληροφοριακών αναγκών Q συλλογή σχετικών κειμένων για κάθε q  Q Κατάλληλη μετρική απόδοσης ανάκτησης

Κείμενα Αναφοράς TREC (TREC evaluation collections: WSJ (Wall Street Journal, AP (Associated Press), ZIFF, FR, DOE, PATents) GOV2 (25 million page GOV2 web page collections – terabyte track) NTCIR (NII Test Collections for IR systems, focusing on East Asian, cross language information retrieval) CLEF (Cross Language Evaluation Forum: http://www.clef-campaign.org) Reuters (Reuters-21578 and Reuters Corpus Volume 1 collection) Cranfield (1398 abstract of aerodynamics journal articles, 225 queries) CACM collection ISI (Institute of Scientific Information) collection Newsgroups

Ανάκληση (Recall) και Ακρίβεια (Precision) Έστω Ι μία πρότυπη πληροφοριακή ανάγκη και R το σύνολο των σχετικών της κειμένων. Υποθέστε ότι μία δοσμένη στρατηγική ανάκτησης παράγει ένα σύνολο κειμένων απάντησης Α. Έστω Rα το σύνολο των κειμένων που είναι κοινά στα σύνολα R και A. Ανάκληση = Ακρίβεια=

Σχέση Ακρίβειας/Ανάκλησης D R A Rα

Σχέση Ακρίβειας/Ανάκλησης

Σχεδίαση Διαγράμματος Έστω ερώτημα q το οποίο ανήκει στη συλλογή των προτύπων πληροφοριακών αναγκών και έστω Rq το σύνολο των σχετικών κειμένων για το ερώτημα q όπως έχει καθοριστεί από ειδικούς. Για παράδειγμα ας υποθέσουμε ότι το σύνολο Rq περιέχει τα ακόλουθα κείμενα Rq={d1, d3, d5,d7, d9,d13, d21, d41, d43, d45}. 1. d7 6. d5 11. d4 2. d2 7. d28 12. d40 3. d3 8. d12 13. d10 4. d6 9. d22 14. d36 5. d8 10. d13 15. d1

Σχεδίαση Διαγράμματος Θεωρώντας ότι ο αριθμός των επιστρεφόμενων κειμένων είναι 30, σχεδιάστε τα γραφήματα ανάκλησης ακρίβειας, για τα ακόλουθα ερωτήματα (δίνονται ο αριθμός των σχετικών κειμένων και η θέση τους στο αποτέλεσμα) : Μηχανή1,Αριθμός: 10, Θέση: 1, 5, 7, 8, 9, 13, 17, 26, 27, 28 Μηχανή2.Αριθμός: 10, Θέση: 2, 3, 4, 5, 7, 10, 11, 12, 16, 27.   Με βάση τα δύο προκύπτοντα γραφήματα συγκρίνετε μεταξύ τους τις δύο μηχανές.

Σχεδίαση Διαγράμματος Συνήθως το διάγραμμα αυτό βασίζεται σε 11 πρότυπα επίπεδα ανάκλησης τα 0%, 10%, ..., 100%, όπου σε κάθε επίπεδο η ακρίβεια υπολογίζεται με χρήση μίας διεργασίας παρεμβολής (interpolation) της ακόλουθης μορφής: έστω rj, j{0,1,2,…,10} το j-οστό επίπεδο ανάκλησης τότε: P(rj)=max rjrrj+1 P(r) Βήματα Ανάλυσης (τυπικό για TREC) Υπολόγισε interpolated precision για recall levels 0.0, 0.1, … Υπολόγισε για κάθε ερώτηση σε κάθε evaluation benchmark Υπολόγισε μέσες τιμές για κάθε ερώτημα

Σύνοψη Διαγραμμάτων Μέση ακρίβεια για κάθε σχετικό κείμενο που ανακτάται (Mean Average Precision (latest TREC Conferences)) -- μπορεί να θεωρηθεί και ότι αναπαριστά το συνολικό εμβαδόν R-Ακρίβεια παράγεται μία τιμή σύνοψης που υπολογίζεται ως η ακρίβεια στη R-οστή θέση διάταξης, όπου R είναι ο συνολικός αριθμός των σχετικών κειμένων για την τρέχουσα ερώτηση (δηλαδή ο αριθμός των κειμένων στο σύνολο Rq). Ιστογράμματα Ακρίβειας Έστω RPA(i) και RPB(i) οι τιμές της R-ακρίβειας για δύο αλγόρίθμους ανάκτησης A,B για το i-οστό ερώτημα. Ορίζουμε την ακόλουθη διαφορά: RPA/B(i)=RPA(i)-RPB(i).

Receiver Operating Characteristics true positives (tp): retrieved and relevant false positives (fp): retrieved and non relevant true negatives (tn): non relevant and non-retrieved false negatives (fn): non relevant and retrieved sensitivity=tp/(tp+fn), false-positive rate or 1-specificity=fp/(fp+tn). P=tp/(tp+fp), R=tp/(tp+fn)

Καταλληλότητα Ακρίβειας/Ανάκλησης Απαιτείται λεπτομερή γνώση όλων των κειμένων της συλλογής που σε μεγάλες συλλογές δεν είναι διαθέσιμη Η καταγραφή μίας μόνο μετρικής αντί για δύο είναι συνήθως εύχρηστη Σε μοντέρνα συστήματα η διεπαφή και η αλληλεπίδραση με τον χρήστη αποτελούν σημείο κλειδί στην επεξεργασία ενός ερωτήματος, κάτι που καθιστά επιτακτική την υιοθέτηση μετρικών που τις λαμβάνουν υπόψη. Oι μετρικές ανάκλησης και ακρίβειας είναι κατάλληλες όταν υπάρχει μία γραμμική διάταξη στα ανακτώμενα κείμενα, διαφορετικά μπορεί να είναι ανακριβείς.

Εναλλακτικές Μετρικές Αρμονικός Μέσος Όρος Η Μετρική Ε Μετρικές Προσανατολισμένες προς τον Χρήστη

Αρμονικός Μέσος Όρος Ο αρμονικός μέσος όρος F ανάκλησης και ακρίβειας ορίζεται ως εξής: όπου R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j). Αιτία για την επιλογή αυτή, είναι ότι ο αρμονικός μέσος όρο προσεγγίζει το ελάχιστο των δύο τιμών και όχι το μέγιστο.

Η Μετρική Ε Η μετρική Ε ορίζεται ως εξής: -- R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j). -- τιμές b>1, σημαίνει ότι ο χρήστης ενδιαφέρεται πιο πολύ για ακρίβεια, τιμές b<1 ότι ενδιαφέρεται για ανάκληση.

Μετρικές Προσανατολισμένες προς τον Χρήστη (1) Έστω R το σύνολο των σχετικών κειμένων για την πληροφοριακή ανάγκη I, A το σύνολο των κειμένων που έχει ανακτηθεί και U  R το σύνολο των κειμένων που είναι γνωστό στο χρήστη ότι είναι σχετικά προς το ερώτημα του. Έστω Rk η τομή των συνόλων Α και U και|Ru| o αριθμός των σχετικών κειμένων, που δεν γνώριζε πριν ο χρήστης και τα οποία έχουν ανακτηθεί. Βαθμός κάλυψης (coverage ratio) = Bαθμός καινοτομίας (novelty ratio)=

Άλλες Μετρικές Σχετική ανάκληση (relative recall) ορίζεται ως το πηλίκο ανάμεσα στον αριθμό των σχετικών κειμένων που έχουν ανακτηθεί και των σχετικών κειμένων που ο χρήστης περιμένει να ανακτηθούν. Κόστος ανάκλησης (recall effort) ορίζουμε το πηλίκο ανάμεσα στα σχετικά κείμενα που ο χρήστης αναμένει να εντοπίσει και τα κείμενα που εξετάζει μέχρις ότου εντοπίσει αυτά που αναμένει.

‘Αλλες Μετρικές Μηχανής Ψαξίματος Πόσο γρήγορα δεικτοδοτεί Αριθμός κειμένων/ώρα μέσο μέγεθος κειμένου Πόσο γρήγορα απαντά Εκφραστικότητα γλώσσας ερώτησης Ικανότητα διατύπωσης πολύπλοκων πληροφοριακών αναγκών Ταχύτητα πολύπλοκων ερωτήσεων

Μέτρηση Ικανοποίησης Χρήστη Θέμα: ποιον χρήστη θέλουμε να ικανοποιήσουμε; εξαρτάται από την εφαρμογή Web engine: ο χρήστης εντοπίζει αυτό που θέλει και επιστρέφει στην ίδια μηχανή Καταγραφή ρυθμού επιστροφής χρήστη eCommerce site: ο χρήστης βρίσκει αυτό που θέλει και κάνει αγορά Είναι ο end-user, ή το eCommerce site το οποίο μετράμε; Μέτρηση χρόνου αγοράς, η ποσοστό χρηστών που έγιναν αγοραστές;

Μέτρηση Ικανοποίησης Χρήστη Enterprise (company/govt/academic): Care about “user productivity” How much time do my users save when looking for information? breadth of access, secure access, etc.

Web Search Evaluation - H ανάκληση είναι δύσκολο να υπολογιστεί στο Web - Οι μηχανές ψαξίματος συχνά χρησιμοποιούν ακρίβεια στα πρώτα k, π.χ., k = 10 κείμενα ή μετρικές που πριμοδοτούν, την γρήγορη ανάκτηση κορυφαίων σελίδων - Οι μηχανές χρησιμοποιούν επίσης non-relevance-based μετρικές. Παράδειγμα 1: clickthrough στο πρώτο αποτέλεσμα (αν και όχι πολύ αξιόπιστη μετρική είναι αξιόπιστη κατά μέσο όρο). Παράδειγμα 2: Νέες τεχνικές που ακόμη δεν έχουν κυριαρχήσει στη περιοχή Παράδειγμα 3: A/B testing

Τεστάρισμα Καινοτόμου Αλγορίθμου Α/Β Μετρική Τεστάρισμα Καινοτόμου Αλγορίθμου Προαπαιτούμενο: ύπαρξη μίας μηχανής ψαξίματος Μετατόπιση ενός μικρού ποσοστού της κυκλοφορίας (περίπου 1%) σε ένα νέο σύστημα, που συμπεριλαμβάνει την καινοτομία Αξιολόγηση με μία “αυτόματη” μετρική όπως clickthrough στο πρώτο αποτέλεσμα Παραλλαγή: δώστε στους χρήστες τη δυνατότητα να μετακινηθούν στο νέο αλγόριθμο.

Benchmark collection Συλλογή κειμένων - αντιπροσωπευτική των κειμένων που διαχειριζόμαστε Συλλογή πληροφοριακών αναγκών - ... λανθασμένα αναφέρονται ως ερωτήματα - αντιπροσωπευτικά αυτών που αναμένουμε Καταγραφή σχετικότητας - απαραίτητη η χρήση κριτών ή διαφορετικά εκτιμητών συσχέτισης - διαδικασία ακριβή και χρονοβόρα - οι κρίσεις πρέπει να είναι αντιπροσωπευτικές της εκτίμησης των χρηστών - οι κρίσεις πρέπει να είναι μεταξύ τους συνεπείς - πως μπορεί να αξιολογηθεί η συνέπεια των χρηστών (kappa μετρική) - τιμές του k από 2/3 ως 1 θεωρούνται ικανοποιητικές.

K μετρική K είναι μετρική που αξιολογεί κατά πόσο δύο κριτές συμφωνούν ή διαφωνούν Σχεδιασμένη για κατηγορικά ορίσματα P(A) είναι το ποσοστό συμφωνίας των δύο κριτών - P(E) είναι το ποσοστό συμφωνίας από τύχη Η μετρική K υπολογίζεται ως εξής: K=(P(A)-P(E))/(1-P(E)) Και οι δύο πιθανότητες υπολογίζονται από πίνακες αξιολογήσεων των δύο κριτών. Πιο συγκεκριμένα P(E)=P(relevant)2+P(non_relevant)2 όπου και στις δύο αξιολογήσεις παίρνουμε υπόψην μας όλες τις αξιολογήσεις των referee.

Συλλογή Cranfield - Από τις πρώτες συλλογές δεδομένων, με παροχή αντιποσωπευτικών μέτρων για καταγραφή ποσοτική της αποτελεσματικότητας συλλογής. Τέλη 1950, UK 1938 abstracts άρθρων σε περιοδικά αεροδυναμικής, σύνολο 225 ερωτημάτων, εξαντλητικές κρίσεις σχετικότητας για όλα τα ζεύγη ερωτημάτων-κειμένων - Αρκετά μικρή, και όχι τόσο τυπική για σοβαρή αξιολόγηση ανάκτηση πληροφορίας σήμερα.

Συλλογή TREC TREC (Text Retrieval Conference) Οργανώθηκε από U.S. National Institute of Standards Organization (NIST) TREC είναι μία συλλογή από διαφορετικά benchmarks Γνωστή ως TREC Ad Hoc, χρησιμοποιήθηκε για τις πρώτες 8 TREC αξιολογήσεις 1992-1999. 1.89 εκατομμύρια κείμενα, κυρίως άρθρα, 450 πληροφοριακές ανάγκες Όχι εξαντλητικές αξιολογήσεις, αρκετά ακριβές Βασικά εκτιμήσεις αξιολόγησης υπάρχουν μόνο για κείμενα που ήταν ανάμεσα στα k πρώτα που ήταν στην TREC συλλογή και επιστράφηκαν στη διάρκεια απάντησης μίας πληροφοριακής ανάγκης.

Συλλογές GOV2 -- μία άλλη TREC/NIST συλλογή -- 25 εκατομμύρια web σελίδες -- από τις μεγαλύτερες διαθέσιμες συλλογές -- 3 τάξεις μεγέθους μικρότερη από Google/Yahho/MSN NTCIR -- East Asian Language και Cross Language Information Retrieval Cross Language Evaluation Forum (CLEF) -- Αυτή η συλλογή έχει επικεντρωθεί σε Ευρωπαϊκές γλώσσες και cross language information retrieval

Λίστα Αποτελεσμάτων Πιο συχνά: title, url, λίστα μεταδεδομένων Μία περίληψη Πως υπολογίζεται η περίληψη; Δύο βασικά είδη περίληψης, στατικά και δυναμικά: - στατική: ανεξάρτητη ερώτησης - δυναμική: εξαρτώμενη από ερώτηση.

Στατική Περίληψη Περίληψη του περιεχομένου του κειμένου Οι πρώτες περίπου 50 λέξεις του κειμένου Πιο πολύπλοκες περιλήψεις, χρήση τεχνικών NLP - NLP heuristics για μαρκάρισμα προτάσεων - περίληψη παράγεται από τις κορυφαίες προτάσεις Πιο πολύπλοκες προσεγγίσεις εφαρμόζουν NLP για παραγωγή προτάσεων: - όχι έτοιμη για χρήση σε εφαρμογές

Δυναμικές Περιλήψεις Παρουσίαση ενός ή περισσοτέρων παράθύρων ή snippets στο κείμενο που παρουσιάζουν μερικούς από τους όρους ερώτησης Παράγονται σε συνδυασμό με την απάντηση στους όρους ερώτησης Συνήθως προτιμώνται snippets όπου οι όροι εμφανίζονται σαν μία φράση ή όπου η εγγύτητά τους μέσα στη φράση πραγματοποιείται σε ένα παράθυρο που ορίζεται από τον χρήστη Η περίληψη η οποία υπολογίζεται έτσι εμφανίζει όλους τους όρους του παραθύρου, όχι μόνο αυτούς που εμπεριέχονται στην ερώτηση.

Τεχνικά Θέματα Για την γρήγορη υλοποίηση υπολογισμού των snippets θα πρέπει να κάνουμε cache documents στα οποία θα γίνει ο υπολογισμός (επικινδυνότητα τελικά αυτά να είναι outdated) Λύση το caching να γίνεται σε ένα prefix του κειμένου κατάλληλου μεγέθους Ιδανικά: τα snippets θα πρέπει να είναι μικρά και να μεταφέρουν ιδανικά το περιεχόμενο του κειμένου Η ύπαρξη δυναμικών περιλήψεων είναι σημαντικό θέμα το οποίο πρέπει να προσεχθεί έτσι ώστε να είναι ευχαριστημένος ο τελικός χρήστης.

Μοντελοποίηση Τα Συστήματα Α.Π. χρησιμοποιούν όρους δεικτοδότησης για να αντιμετωπίσουν τις πληροφοριακές ανάγκες του χρήστη. Όρος Δεικτοδότησης: ένα keyword ή ομάδα επιλεγόμενων λέξεων κάθε λέξη (πιο γενικά) Απομάκρυνση καταλήξεων (stemming) μπορεί να χρησιμοποιηθεί: connect: connecting, connection, connections Ένα ανεστραμμένο αρχείο χτίζεται για τους δοσμένους όρους δεικτοδότησης.

Κείμενα Όροι Δεικτοδότησης Κείμενο Ταίριασμα Πληροφοριακή Ανάγκη Κατάταξη Ερώτημα

Ad-Hoc Ανάκτηση και Φιλτράρισμα Q1 Q2 Συλλογή Πεπερασμένου Μεγέθους Q3 Q4 Q5

Ad-Hoc Ανάκτηση και Φιλτράρισμα Χρήστης2 Προφίλ Κείμενα για Χρήστη2 Χρήστης1 Προφίλ Κείμενα για Χρήστη1 Ροή Κειμένων

Κατάταξη είναι μία ταξινόμηση των ανακτημένων κειμένων που αναπαριστά τη σχετικότητα των κειμένων με το ερώτημα του χρήστη. Μία κατάταξη βασίζεται σε υποθέσεις σχετικά με την έννοια της σχετικότητας όπως: Κοινό σύνολο όρων δεικτοδότησης Διαμοίραση ζυγισμένων όρων Πιθανότητα συσχέτισης Διαφορετικά σύνολο υποθέσεων οδηγούν σε διαφορετικά μοντέλα Α.Π.

Τυπικός Ορισμός Μοντέλων Α.Π. Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)] όπου: 1)   - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής 2)      - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα 3)      - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους - R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πραγματικό αριθμό με ένα ερώτημα qi  Q και μια αναπαράσταση κειμένου dj  D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα κείμενα πάντα με βάση το ερώτημα. q­i.

Μοντέλα Α.Π.

Μοντέλα Α.Π. Το Μοντέλο Α.Π., η λογική όψη των κειμένων και η διεργασία ανάκτησης αποτελούν διακριτές όψεις του συστήματος.