Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το."— Μεταγράφημα παρουσίασης:

1 Μετρικές Εκτίμησης Α π όδοσης

2 Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το Λειτουργικό Σύστημα Καθυστερήσεις στους διαύλους ε π ικοινωνίας Ε π ιβαρύνσεις α π ό ύ π αρξη π ολλών ε π ι π έδων λογισμικού

3 Ειδικές Μετρικές (Εκτίμηση Απόδοσης Ανάκτησης) Συλλογή Κειμένων Αναφοράς συλλογή κειμένων συλλογή π ροτύ π ων π ληροφοριακών αναγκών Q συλλογή σχετικών κειμένων για κάθε q  Q Κατάλληλη μετρική α π όδοσης ανάκτησης

4 Κείμενα Αναφοράς TREC (TREC evaluation collections: WSJ (Wall Street Journal, AP (Associated Press), ZIFF, FR, DOE, PATents) GOV2 (25 million page GOV2 web page collections – terabyte track) NTCIR (NII Test Collections for IR systems, focusing on East Asian, cross language information retrieval) CLEF (Cross Language Evaluation Forum: Reuters (Reuters and Reuters Corpus Volume 1 collection) Cranfield (1398 abstract of aerodynamics journal articles, 225 queries) CACM collection ISI (Institute of Scientific Information) collection Newsgroups

5 Ανάκληση (Recall) και Ακρίβεια (Precision) Ανάκληση = Ακρίβεια = Έστω Ι μία π ρότυ π η π ληροφοριακή ανάγκη και R το σύνολο των σχετικών της κειμένων. Υ π οθέστε ότι μία δοσμένη στρατηγική ανάκτησης π αράγει ένα σύνολο κειμένων α π άντησης Α. Έστω R α το σύνολο των κειμένων π ου είναι κοινά στα σύνολα R και A.

6 Σχέση Ακρίβειας/Ανάκλησης D RA RαRα

7

8 Σχεδίαση Διαγράμματος 1.d 7 6.d 5 11.d 4 2.d 2 7.d d 40 3.d 3 8.d d 10 4.d 6 9.d d 36 5.d 8 10.d d 1 Έστω ερώτημα q το ο π οίο ανήκει στη συλλογή των π ροτύ π ων π ληροφοριακών αναγκών και έστω R q το σύνολο των σχετικών κειμένων για το ερώτημα q ό π ως έχει καθοριστεί α π ό ειδικούς. Για π αράδειγμα ας υ π οθέσουμε ότι το σύνολο Rq π εριέχει τα ακόλουθα κείμενα R q ={d 1, d 3, d 5,d 7, d 9,d 13, d 21, d 41, d 43, d 45 }.

9 Σχεδίαση Διαγράμματος Θεωρώντας ότι ο αριθμός των επιστρεφόμενων κειμένων είναι 30, σχεδιάστε τα γραφήματα ανάκλησης ακρίβειας, για τα ακόλουθα ερωτήματα (δίνονται ο αριθμός των σχετικών κειμένων και η θέση τους στο αποτέλεσμα) : Μηχανή1,Αριθμός: 10, Θέση:1, 5, 7, 8, 9, 13, 17, 26, 27, 28 Μηχανή2.Αριθμός: 10,Θέση:2, 3, 4, 5, 7, 10, 11, 12, 16, 27. Με βάση τα δύο προκύπτοντα γραφήματα συγκρίνετε μεταξύ τους τις δύο μηχανές.

10 Σχεδίαση Διαγράμματος Συνήθως το διάγραμμα αυτό βασίζεται σε 11 πρότυπα επίπεδα ανάκλησης τα 0%, 10%,..., 100%, όπου σε κάθε επίπεδο η ακρίβεια υπολογίζεται με χρήση μίας διεργασίας παρεμβολής (interpolation) της ακόλουθης μορφής: έστω r j, j  {0,1,2,…,10} το j-οστό επίπεδο ανάκλησης τότε: P(r j )=max r j  r  r j+1 P(r) Βήματα Ανάλυσης (τυπικό για TREC) 1.Υπολόγισε interpolated precision για recall levels 0.0, 0.1, … 2.Υπολόγισε για κάθε ερώτηση σε κάθε evaluation benchmark 3.Υπολόγισε μέσες τιμές για κάθε ερώτημα

11 Σύνοψη Διαγραμμάτων Μέση ακρίβεια για κάθε σχετικό κείμενο που ανακτάται (Mean Average Precision (latest TREC Conferences)) -- μπορεί να θεωρηθεί και ότι αναπαριστά το συνολικό εμβαδόν R-Ακρίβεια παράγεται μία τιμή σύνοψης που υπολογίζεται ως η ακρίβεια στη R-οστή θέση διάταξης, όπου R είναι ο συνολικός αριθμός των σχετικών κειμένων για την τρέχουσα ερώτηση (δηλαδή ο αριθμός των κειμένων στο σύνολο R q ). Ιστογράμματα Ακρίβειας Έστω RP A (i) και RP B (i) οι τιμές της R-ακρίβειας για δύο αλγόρίθμους ανάκτησης A,B για το i-οστό ερώτημα. Ορίζουμε την ακόλουθη διαφορά: RP A/B (i)=RP A (i)-RP B (i).

12 Receiver Operating Characteristics - true positives (tp): retrieved and relevant - false positives (fp): retrieved and non relevant - true negatives (tn): non relevant and non-retrieved - false negatives (fn): non relevant and retrieved sensitivity=tp/(tp+fn), false-positive rate or 1-specificity=fp/(fp+tn). P=tp/(tp+fp), R=tp/(tp+fn)

13 Καταλληλότητα Ακρίβειας/Ανάκλησης Απαιτείται λεπτομερή γνώση όλων των κειμένων της συλλογής που σε μεγάλες συλλογές δεν είναι διαθέσιμη Η καταγραφή μίας μόνο μετρικής αντί για δύο είναι συνήθως εύχρηστη Σε μοντέρνα συστήματα η διεπαφή και η αλληλεπίδραση με τον χρήστη αποτελούν σημείο κλειδί στην επεξεργασία ενός ερωτήματος, κάτι που καθιστά επιτακτική την υιοθέτηση μετρικών που τις λαμβάνουν υπόψη. Oι μετρικές ανάκλησης και ακρίβειας είναι κατάλληλες όταν υπάρχει μία γραμμική διάταξη στα ανακτώμενα κείμενα, διαφορετικά μπορεί να είναι ανακριβείς.

14 Εναλλακτικές Μετρικές Αρμονικός Μέσος Όρος Η Μετρική Ε Μετρικές Προσανατολισμένες προς τον Χρήστη

15 Αρμονικός Μέσος Όρος Ο αρμονικός μέσος όρος F ανάκλησης και ακρίβειας ορίζεται ως εξής: ό π ου R (j) είναι η ανάκληση για το j- οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j- οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R (j), P(j). Αιτία για την ε π ιλογή αυτή, είναι ότι ο αρμονικός μέσος όρο π ροσεγγίζει το ελάχιστο των δύο τιμών και όχι το μέγιστο.

16 Η Μετρική Ε Η μετρική Ε ορίζεται ως εξής: -- R (j) είναι η ανάκληση για το j- οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j- οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R (j), P(j). -- τιμές b>1, σημαίνει ότι ο χρήστης ενδιαφέρεται π ιο π ολύ για ακρίβεια, τιμές b<1 ότι ενδιαφέρεται για ανάκληση.

17 Μετρικές Προσανατολισμένες προς τον Χρήστη (1) Έστω R το σύνολο των σχετικών κειμένων για την πληροφοριακή ανάγκη I, A το σύνολο των κειμένων που έχει ανακτηθεί και U  R το σύνολο των κειμένων που είναι γνωστό στο χρήστη ότι είναι σχετικά προς το ερώτημα του. Έστω R k η τομή των συνόλων Α και U και|R u | o αριθμός των σχετικών κειμένων, που δεν γνώριζε πριν ο χρήστης και τα οποία έχουν ανακτηθεί. Βαθμός κάλυψης (coverage ratio) = B αθμός καινοτομίας (novelty ratio) =

18 Άλλες Μετρικές Σχετική ανάκληση (relative recall) ορίζεται ως το πηλίκο ανάμεσα στον αριθμό των σχετικών κειμένων που έχουν ανακτηθεί και των σχετικών κειμένων που ο χρήστης περιμένει να ανακτηθούν. Κόστος ανάκλησης (recall effort) ορίζουμε το πηλίκο ανάμεσα στα σχετικά κείμενα που ο χρήστης αναμένει να εντοπίσει και τα κείμενα που εξετάζει μέχρις ότου εντοπίσει αυτά που αναμένει.

19 ‘Αλλες Μετρικές Μηχανής Ψαξίματος Πόσο γρήγορα δεικτοδοτεί –Αριθμός κειμένων/ώρα –μέσο μέγεθος κειμένου Πόσο γρήγορα απαντά Εκφραστικότητα γλώσσας ερώτησης –Ικανότητα διατύπωσης πολύπλοκων πληροφοριακών αναγκών –Ταχύτητα πολύπλοκων ερωτήσεων

20 Μέτρηση Ικανοποίησης Χρήστη Θέμα: ποιον χρήστη θέλουμε να ικανοποιήσουμε; εξαρτάται από την εφαρμογή Web engine: ο χρήστης εντοπίζει αυτό που θέλει και επιστρέφει στην ίδια μηχανή –Καταγραφή ρυθμού επιστροφής χρήστη eCommerce site: ο χρήστης βρίσκει αυτό που θέλει και κάνει αγορά –Είναι ο end-user, ή το eCommerce site το οποίο μετράμε; –Μέτρηση χρόνου αγοράς, η ποσοστό χρηστών που έγιναν αγοραστές;

21 Μέτρηση Ικανοποίησης Χρήστη Enterprise (company/govt/academic): Care about “user productivity” –How much time do my users save when looking for information? –breadth of access, secure access, etc.

22 Web Search Evaluation - H ανάκληση είναι δύσκολο να υπολογιστεί στο Web - Οι μηχανές ψαξίματος συχνά χρησιμοποιούν ακρίβεια στα πρώτα k, π.χ., k = 10 κείμενα ή μετρικές που πριμοδοτούν, την γρήγορη ανάκτηση κορυφαίων σελίδων - Οι μηχανές χρησιμοποιούν επίσης non-relevance-based μετρικές. Παράδειγμα 1: clickthrough στο πρώτο αποτέλεσμα (αν και όχι πολύ αξιόπιστη μετρική είναι αξιόπιστη κατά μέσο όρο). Παράδειγμα 2: Νέες τεχνικές που ακόμη δεν έχουν κυριαρχήσει στη περιοχή Παράδειγμα 3: A/B testing

23 Α/Β Μετρική Τεστάρισμα Καινοτόμου Αλγορίθμου Προαπαιτούμενο: ύπαρξη μίας μηχανής ψαξίματος Μετατόπιση ενός μικρού ποσοστού της κυκλοφορίας (περίπου 1%) σε ένα νέο σύστημα, που συμπεριλαμβάνει την καινοτομία Αξιολόγηση με μία “αυτόματη” μετρική όπως clickthrough στο πρώτο αποτέλεσμα Παραλλαγή: δώστε στους χρήστες τη δυνατότητα να μετακινηθούν στο νέο αλγόριθμο.

24 Benchmark collection Συλλογή κειμένων - αντιπροσωπευτική των κειμένων που διαχειριζόμαστε Συλλογή πληροφοριακών αναγκών -... λανθασμένα αναφέρονται ως ερωτήματα - αντιπροσωπευτικά αυτών που αναμένουμε Καταγραφή σχετικότητας - απαραίτητη η χρήση κριτών ή διαφορετικά εκτιμητών συσχέτισης - διαδικασία ακριβή και χρονοβόρα - οι κρίσεις πρέπει να είναι αντιπροσωπευτικές της εκτίμησης των χρηστών - οι κρίσεις πρέπει να είναι μεταξύ τους συνεπείς - πως μπορεί να αξιολογηθεί η συνέπεια των χρηστών (kappa μετρική) - τιμές του k από 2/3 ως 1 θεωρούνται ικανοποιητικές.

25 K μετρική -K είναι μετρική που αξιολογεί κατά πόσο δύο κριτές συμφωνούν ή διαφωνούν - Σχεδιασμένη για κατηγορικά ορίσματα -P(A) είναι το ποσοστό συμφωνίας των δύο κριτών - P(E) είναι το ποσοστό συμφωνίας από τύχη -Η μετρική K υπολογίζεται ως εξής: K=(P(A)-P(E))/(1-P(E)) -Και οι δύο πιθανότητες υπολογίζονται από πίνακες αξιολογήσεων των δύο κριτών. Πιο συγκεκριμένα P(E)=P(relevant) 2 +P(non_relevant) 2 όπου και στις δύο αξιολογήσεις παίρνουμε υπόψην μας όλες τις αξιολογήσεις των referee.

26 Συλλογή Cranfield - Από τις πρώτες συλλογές δεδομένων, με παροχή αντιποσωπευτικών μέτρων για καταγραφή ποσοτική της αποτελεσματικότητας συλλογής. -Τέλη 1950, UK abstracts άρθρων σε περιοδικά αεροδυναμικής, σύνολο 225 ερωτημάτων, εξαντλητικές κρίσεις σχετικότητας για όλα τα ζεύγη ερωτημάτων-κειμένων - Αρκετά μικρή, και όχι τόσο τυπική για σοβαρή αξιολόγηση ανάκτηση πληροφορίας σήμερα.

27 Συλλογή TREC -TREC (Text Retrieval Conference) -Οργανώθηκε από U.S. National Institute of Standards Organization (NIST) - TREC είναι μία συλλογή από διαφορετικά benchmarks - Γνωστή ως TREC Ad Hoc, χρησιμοποιήθηκε για τις πρώτες 8 TREC αξιολογήσεις εκατομμύρια κείμενα, κυρίως άρθρα, 450 πληροφοριακές ανάγκες - Όχι εξαντλητικές αξιολογήσεις, αρκετά ακριβές - Βασικά εκτιμήσεις αξιολόγησης υπάρχουν μόνο για κείμενα που ήταν ανάμεσα στα k πρώτα που ήταν στην TREC συλλογή και επιστράφηκαν στη διάρκεια απάντησης μίας πληροφοριακής ανάγκης.

28 Συλλογές - GOV2 -- μία άλλη TREC/NIST συλλογή εκατομμύρια web σελίδες -- από τις μεγαλύτερες διαθέσιμες συλλογές -- 3 τάξεις μεγέθους μικρότερη από Google/Yahho/MSN -NTCIR -- East Asian Language και Cross Language Information Retrieval -Cross Language Evaluation Forum (CLEF) -- Αυτή η συλλογή έχει επικεντρωθεί σε Ευρωπαϊκές γλώσσες και cross language information retrieval

29 Λίστα Αποτελεσμάτων Πιο συχνά: title, url, λίστα μεταδεδομένων Μία περίληψη Πως υπολογίζεται η περίληψη; Δύο βασικά είδη περίληψης, στατικά και δυναμικά: - στατική: ανεξάρτητη ερώτησης - δυναμική: εξαρτώμενη από ερώτηση.

30 Στατική Περίληψη Περίληψη του περιεχομένου του κειμένου Οι πρώτες περίπου 50 λέξεις του κειμένου Πιο πολύπλοκες περιλήψεις, χρήση τεχνικών NLP - NLP heuristics για μαρκάρισμα προτάσεων - περίληψη παράγεται από τις κορυφαίες προτάσεις Πιο πολύπλοκες προσεγγίσεις εφαρμόζουν NLP για παραγωγή προτάσεων: - όχι έτοιμη για χρήση σε εφαρμογές

31 Δυναμικές Περιλήψεις Παρουσίαση ενός ή περισσοτέρων παράθύρων ή snippets στο κείμενο που παρουσιάζουν μερικούς από τους όρους ερώτησης Παράγονται σε συνδυασμό με την απάντηση στους όρους ερώτησης Συνήθως προτιμώνται snippets όπου οι όροι εμφανίζονται σαν μία φράση ή όπου η εγγύτητά τους μέσα στη φράση πραγματοποιείται σε ένα παράθυρο που ορίζεται από τον χρήστη Η περίληψη η οποία υπολογίζεται έτσι εμφανίζει όλους τους όρους του παραθύρου, όχι μόνο αυτούς που εμπεριέχονται στην ερώτηση.

32 Τεχνικά Θέματα Για την γρήγορη υλοποίηση υπολογισμού των snippets θα πρέπει να κάνουμε cache documents στα οποία θα γίνει ο υπολογισμός (επικινδυνότητα τελικά αυτά να είναι outdated) Λύση το caching να γίνεται σε ένα prefix του κειμένου κατάλληλου μεγέθους Ιδανικά: τα snippets θα πρέπει να είναι μικρά και να μεταφέρουν ιδανικά το περιεχόμενο του κειμένου Η ύπαρξη δυναμικών περιλήψεων είναι σημαντικό θέμα το οποίο πρέπει να προσεχθεί έτσι ώστε να είναι ευχαριστημένος ο τελικός χρήστης.

33 Μοντελοποίηση Τα Συστήματα Α.Π. χρησιμοποιούν όρους δεικτοδότησης για να αντιμετωπίσουν τις πληροφοριακές ανάγκες του χρήστη. Όρος Δεικτοδότησης: –ένα keyword ή ομάδα επιλεγόμενων λέξεων –κάθε λέξη (πιο γενικά) Απομάκρυνση καταλήξεων (stemming) μπορεί να χρησιμοποιηθεί: –connect: connecting, connection, connections Ένα ανεστραμμένο αρχείο χτίζεται για τους δοσμένους όρους δεικτοδότησης.

34 Κείμενα Πληροφοριακή Ανάγκη Όροι Δεικτοδότησης Κείμενο Ερώτημα Κατάταξη Ταίριασμα

35 Ad-Hoc Ανάκτηση και Φιλτράρισμα Ad hoc ανάκτηση : Συλλογή Πεπερασμένου Μεγέθους Q2 Q3 Q1 Q4 Q5

36 Ad-Hoc Ανάκτηση και Φιλτράρισμα Φιλτράρισμα Ροή Κειμένων Χρήστης1 Προφίλ Χρήστης2 Προφίλ Κείμενα για Χρήστη2 Κείμενα για Χρήστη1

37 Κατάταξη είναι μία ταξινόμηση των ανακτημένων κειμένων που αναπαριστά τη σχετικότητα των κειμένων με το ερώτημα του χρήστη. Μία κατάταξη βασίζεται σε υποθέσεις σχετικά με την έννοια της σχετικότητας όπως: –Κοινό σύνολο όρων δεικτοδότησης –Διαμοίραση ζυγισμένων όρων –Πιθανότητα συσχέτισης –Διαφορετικά σύνολο υποθέσεων οδηγούν σε διαφορετικά μοντέλα Α.Π.

38 Τυπικός Ορισμός Μοντέλων Α.Π. Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(q i, d j )] όπου: 1) - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής 2) - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα 3) - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους - R(q i, d j ) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πραγματικό αριθμό με ένα ερώτημα q i  Q και μια αναπαράσταση κειμένου d j  D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα κείμενα πάντα με βάση το ερώτημα. q­ i.

39 Μοντέλα Α.Π.

40 Το Μοντέλο Α.Π., η λογική όψη των κειμένων και η διεργασία ανάκτησης αποτελούν διακριτές όψεις του συστήματος.


Κατέβασμα ppt "Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google