Browsing Τεχνικές που χρησιμοποιούνται για τη διευκόλυνση του χρήστη στην αναζήτηση κειμένων.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΕΙΣΑΓΩΓΗ ΣΤΟ DOS (Disk Operating System)
Advertisements

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8α: Αξιολόγηση.
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΔΙΑΓΡΑΜΜΑ ΔΡΑΣΤΗΡΙΟΤΗΤΩΝ
Λειτουργίες επί των Κειμένων
Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Ενότητα 8 Τ ΕΛΕΙΑ Γ ΡΑΦΗΜΑΤΑ Σταύρος Δ. Νικολόπουλος 1.
ΕΚΤΙΜΗΣΗ ΠΡΟΣΠΑΘΕΙΑΣ ΠΕΡΙΠΤΩΣΕΩΝ ΧΡΗΣΗΣ Use case estimation effort 1.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Κείμενο, Ήχος, Εικόνα & Video KEIMENO Κείμενο n Κυρίαρχος τρόπος απεικόνισης πληροφορίας n Αποκλειστικό μέσο επικοινωνίας ανθρώπου - μηχανής n Aδυναμία.
1 Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007 Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας –
ΗΥ Παπαευσταθίου Γιάννης1 Clock generation.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
6/26/2015HY220: Ιάκωβος Μαυροειδής1 HY220 Asynchronous Circuits.
Week 11 Quiz Sentence #2. The sentence. λαλο ῦ μεν ε ἰ δότες ὅ τι ὁ ἐ γείρας τ ὸ ν κύριον Ἰ ησο ῦ ν κα ὶ ἡ μ ᾶ ς σ ὺ ν Ἰ ησο ῦ ἐ γερε ῖ κα ὶ παραστήσει.
WRITING B LYCEUM Teacher Eleni Rossidou ©Υπουργείο Παιδείας και Πολιτισμού.
ΜΕΤΑΣΧΗΜΑΤΙΣΤΕΣ TRANSFORMERS Reference : ΤΕΙ Κρήτης - Ηλεκτρικές Μηχανές Συλλιγνάκης.
Ο PID έλεγχος. Integral Lag Distance velocity lag Υλοποιούμε την.
Τελική εργασία του μαθήματος “Σχεδιασμός Δημιουργικού & Διαφημιστικών Μηνυμάτων” Ιανουάριος 2054 Ομάδα Χ Ονοματεπώνυμο 1 Ονοματεπώνυμο 2 Ονοματεπώνυμο.
Διοίκηση Απόδοσης Επιχειρηματικών Διαδικασιών Ενότητα #5: Key result indicators (KRIs), Performance Indicators (PIs), Key Performance Indicators (KPIs)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στην Ανθρωπολογία της Τέχνης Η έννοια της Τέχνης (What is art 1) Διδάσκων: Καθηγητής Χρήστος.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στην Ανθρωπολογία της Τέχνης Κουλτούρα, πολιτισμός και εθνική ταυτότητα (CULTURE &I DENTITY.
Time Management Matrix Assignment Submitted By Safwan Zubair October 21, 2013 BUS Contemporary Business Practice Professor Nankin.
Διδασκαλια και Μαθηση με Χρηση ΤΠΕ_2 Βασιλης Κολλιας
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΑΔΟΣΗ 1Οη (Θ) Στοιχεία Επαγωγικής Στατιστικής.
Διαχείριση Διαδικτυακής Φήμης! Do the Online Reputation Check! «Ημέρα Ασφαλούς Διαδικτύου 2015» Ε. Κοντοπίδη, ΠΕ19.
Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Δημοσιεύσεις Καθηγήτρια: Αφροδίτη Τσαλγατίδου
Guide to Business Planning The Value Chain © Guide to Business Planning A principal use of value chain analysis is to identify a strategy mismatch between.
Μετρικές Εκτίμησης Απόδοσης
Αντικειμενοστραφής Προγραμματισμός ΙΙ
Αντικειμενοστραφής Προγραμματισμός ΙΙ
Τμήμα Εφαρμοσμένης Πληροφορικής και Πολυμέσων Εργαστήριο Ρομποτικής
Επανασχεδιασμός του Ευρωπαϊκού Συστήματος Ενδοκοινοτικών Συναλλαγών (Revised Intrastat) Η συγκεκριμένη παρουσίαση συνοψίζει την ανάλυση των αποτελεσμάτων.
ΜΥΕ03: Ανάκτηση Πληροφορίας
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Matrix Analytic Techniques
Κεφάλαιο 12 Δάση.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
DREMEL: Interactive Analysis of Web-Scale Datasets
Keystroke-Level Model
ΒΧΔ Πολλαπλών κλιμάκων
Δημοςιευςη επιςτημονικης ερευνας
Οσμές στη Σχεδίαση του Λογισμικού
Γεώργιος Σ. Γκουμάς MD,PhD, FESC
Ποιος: ταυτότητα του ομιλητή Τι: φύση της γλώσσας (γνώση/ χρήση)
Aρχιτεκτονική άμεσων ενισχύσεων
Μία πρακτική εισαγωγή στην χρήση του R
ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΚΑΙ ΠΟΛΙΤΙΣΜΟΥ
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
Δημοςιευςη επιςτημονικης ερευνας
aka Mathematical Models and Applications
ΜΥΕ03: Ανάκτηση Πληροφορίας
ΕΝΣΤΑΣΕΙΣ ΠΟΙΟΣ? Όμως ναι.... Ένα σκάφος
Find: minimum B [ft] γcon=150 [lb/ft3] γT=120 [lb/ft3] Q φ=36˚
ΤΙ ΕΙΝΑΙ ΤΑ ΜΟΆΙ;.
Find: ρc [in] from load γT=110 [lb/ft3] γT=100 [lb/ft3]
Find: ρc [in] from load γT=106 [lb/ft3] γT=112 [lb/ft3]
Find: σ1 [kPa] for CD test at failure
Find: Force on culvert in [lb/ft]
Τεχνολογία & εφαρμογές μεταλλικών υλικών
ΜΥΕ003: Ανάκτηση Πληροφορίας
Find: ρc [in] from load (4 layers)
CPSC-608 Database Systems
I have to take the MAP again?
Μεταγράφημα παρουσίασης:

Browsing Τεχνικές που χρησιμοποιούνται για τη διευκόλυνση του χρήστη στην αναζήτηση κειμένων.

Ανάκτηση Πληροφορίας2 Μοντέλα για Browsing Flat Structure Guided Hypertext

Ανάκτηση Πληροφορίας3 Flat Δεν υπάρχει συγκεκριμένη οργάνωση στα κείμενα Ο χρήστης επιλέγει τα κείμενα από μία λίστα ή από μία άλλη αναπαράσταση (π.χ. σημεία από ένα 2-D ή 3-D γράφημα) Πολλές μηχανές αναζήτησης παρέχουν κάποιον κατάλογο για browsing

Ανάκτηση Πληροφορίας4 Structure Guided Χρησιμοποιείται κάποιος τρόπος οργάνωσης των κειμένων για να διευκολυνθεί η αναζήτηση (π.χ. ιεραρχική δομή). Τα κείμενα ομαδοποιούνται ανάλογα με το θέμα που διαπραγματεύονται. Συνήθως υπάρχει και ένας χάρτης ιστορικού (history map) ώστε να γνωρίζουμε ποια κείμενα έχουμε εξετάσει πρόσφατα.

Ανάκτηση Πληροφορίας5 Hypertext Κατευθυνόμενος γράφος, ο οποίος μπορεί να περιέχει κύκλους. Η ύπαρξη σύνδεσης μεταξύ δύο κόμβων δηλώνει οτι οι κόμβοι σχετίζονται. Σε μεγάλα κείμενα ο χρήστης μπορεί να «χάσει το δρόμο του». Χρήση hypertext map ο οποίος δείχνει κάθε φορά σε ποιο σημείο του γράφου βρίσκεται ο χρήστης.

Ανάκτηση Πληροφορίας6 Σύνοψη Μοντέλων Υπάρχουν 3 τύποι συστημάτων τα οποία κερδίζουν άμεσα από την ύπαρξη πιο ευέλικτων μοντέλων IR συστήματα βιβλιοθήκης εξειδικευμένα συστήματα IR WEB

Ανάκτηση Πληροφορίας7 Συστήματα Βιβλιοθήκης Ερευνάται η χρήση μοντέλων τα οποία να αποδίδουν με καλύτερο τρόπο το πως ο χρήστης αντιλαμβάνεται τη χρησιμότητα ενός κειμένου. Συστηματοποίηση του τρόπου με τον οποίο ο χρήστης αναζητά κείμενα.

Ανάκτηση Πληροφορίας8 Εξειδικευμένα Συστήματα IR Παράδειγμα: σύστημα LEXIS-NEXIS το οποίο διαχειρίζεται πολλά κείμενα που σχετίζονται με νομικές έννοιες σχετικά με επιχειρήσεις. Οι ανάγκες σε ένα τέτοιο σύστημα μπορεί να διαφέρουν σημαντικά από ένα γενικής χρήσης IR σύστημα. Για παράδειγμα, αναζητώντας το νόμο 433/89 είναι χρήσιμο να έχουμε και όλες τις τροπολογίες και τα προεδρικά διατάγματα που έχουν αλλάξει το νόμο κατά καιρούς.

Ανάκτηση Πληροφορίας9 WEB google altavista infoseek Μόνο 2% των συνολικών κειμένων που δεικτοδοτούνται είναι κοινά σε όλα τα search engines

Μέτρα Απόδοσης Τρόποι με τους οποίους μετρούμε την ποιότητα ενός IR συστήματος

Ανάκτηση Πληροφορίας11 Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών σχετικών κειμένων Ο στόχος είναι να μεγιστοποιηθούν και τα δύο. Συνήθως, η σχετικότητα (Relevance) ενός κειμένου ως προς κάποιο ερώτημα είναι κάτι το υποκειμενικό

Ανάκτηση Πληροφορίας12 Μέτρηση Απόδοσης – Πόσο καλό είναι ένα σύστημα – Συγκρίσεις μεταξύ συστημάτων Τι πρέπει να μετρήσουμε – Πόσο είναι ικανοποιημένος ο χρήστης από το αποτέλεσμα – Κάλυψη πληροφορίας – Τρόπος παρουσίασης – Δυσκολία που υπάρχει – Αποδοτικό ως προς χρόνο και χώρο – Recall τμήμα των σχετικών κειμένων που ανακτώνται – Precision τμήμα των ανακτώμενων κειμένων που είναι σχετικά Εισαγωγή αποδοτικότητα

Ανάκτηση Πληροφορίας13 Εισαγωγή Πως μετράμε την απόδοση? – Test reference collections: TIPSTER/TREC CACM CISI Cystic Fibrosis

Ανάκτηση Πληροφορίας14 IR Evaluation Recall = |Ra| / |R| Precision = |Ra| / |A| Collection Answer set (A) Relevant documents (R) relevant & retrieved (Ra)

Ανάκτηση Πληροφορίας15 Relevance Το σύνολο R δεν είναι γνωστό Relevance: – Υποκειμενική – Μπορεί να μετρηθεί μέχρι κάποιο βαθμό Πως ένα κείμενο χαρακτηρίζεται ως σχετικό προς το ερώτημα; – Σαφής απάντηση σε σαφές ερώτημα – Partial Matching – Προτείνεται πηγή για περισσότερες πληροφορίες – Πληροφορίες για το background

Ανάκτηση Πληροφορίας16 Precision/ Recall Καμπύλη Precision - Recall trade-off Μετρούμε το Precision σε διαφορετικά επίπεδα Recall precision recall x x x x

Ανάκτηση Πληροφορίας17 Precision/ Recall Καμπύλη Είναι δύσκολο να διακρίνουμε ποια από τις παρακάτω καμπύλες είναι η καλύτερη: precision recall x x x x

Ανάκτηση Πληροφορίας18 Παράδειγμα

Ανάκτηση Πληροφορίας19 Average Precision Average precision at each recall level: - average precision at recall level r; N q - the number of queries used; P i (r) – the precision at recall level r for the i-th query.

Ανάκτηση Πληροφορίας20 Standard Recall Levels & Interpolation Procedure Η καμπύλη δημιουργείται με 11 επίπεδα recall: 0%, 10%, 20%, …, 100% Έστω το j-ιοστό επίπεδο recall. Τότε,

Ανάκτηση Πληροφορίας21 Interpolated Precision Interpolated precision at 11 standard recall levels

Ανάκτηση Πληροφορίας22 Document Cutoff Levels Άλλος τρόπος υπολογισμού: – Σταθεροποιούμε τον αριθμό των κειμένων ανά επίπεδο: top 5, top 10, top 20, top 50, top 100, top 500 – Μέτρηση του precision για αυτά τα επίπεδα – Μέση τιμή Τρόπος να εστιάσουμε σε high precision

Ανάκτηση Πληροφορίας23 Single Value Summaries Average Precision vs Recall είναι χρήσιμες τιμές για την περιγραφή της απόδοσης ενός συστήματος σε ένα σύνολο ερωτημάτων. Πως θα μετρήσουμε την απόδοση για κάθε ερώτημα χωριστά; Single value measures: – Average Precision at Seen Relevant Documents; – R-Precision; – Precision Histograms; – Summary Table Statistics.

Ανάκτηση Πληροφορίας24 Single Value Summaries Average Precision at Seen Relevant Documents – a single value summary generated by averaging the precision values obtained after each relevant document is observed. Average precision at seen 5 relevant docs = ( )/5 = R-Precision - a single value summary generated by computing the precision at the R-th position in the ranking; – R is the total number of relevant docs for the current query (e.g. number of docs in the set Rq) R-precision = 0.4

Ανάκτηση Πληροφορίας25 Single Value Summaries Precision Histograms – are used to compare the retrieval history of two algorithms. – RPA(i) and RPB(i) – R-Precision values of the retrieval algorithms A & B for the i- th query; – If RPA/B(i) = 0 – the both algorithms have equivalent performance (in terms of R- Precision); – If RPA/B(i) > 0 – better retrieval performance of algorithm A.

Ανάκτηση Πληροφορίας26 Single Value Summaries Summary Table Statistics – used to store single value measures in a table and to provide a statistical summary regarding the set of all queries in a retrieval task; – Usually includes: The number of queries used in the task; The total number of docs retrieved by all queries; The total number of relevant docs, which were effectively retrieved; The total number of relevant docs, which could have been retrieved; And etc...

Ανάκτηση Πληροφορίας27 Precision & Recall Problems using these 2 measures: – The proper estimation of max recall for the query requires detailed knowledge of all the documents in the collection; – Recall & Precision are related measures which capture different aspects of the set of retrieved docs; – Recall & Precision measure the effectiveness over a set queries processed in batch mode; – Recall & Precision are easy to define when a linear ordering of the retrieved docs is enforced. Alternative Measures: – To combine Recall & Precision into single measure; – Measure the informativeness of the retrieval process; – Etc…

Ανάκτηση Πληροφορίας28 The Harmonic Mean The harmonic mean combines Recall & Precision into a single number ranging from 0 to 1: P(j) - precision of j-th document in ranking; r(j) – recall of j-th document in ranking; If F(j) = 0 – no relevant docs have been retrieved; If F(j) = 1 – all ranked docs are relevant; The harmonic mean assumes high value only when both recall & precision are high.

Ανάκτηση Πληροφορίας29 E-Measure Combine Precision and Recall into one number and allow user to specify whether s/he is more interested in recall or precision: P(j) – precision of j-th document in ranking; r(j) – recall of j-th document in ranking; b - measure of relative importance of precision or recall: b > 1 emphasizes precision, b < 1 emphasizes recall

Ανάκτηση Πληροφορίας30 User-Oriented Measures Different users might have a different interpretation of which document is relevant or not User-oriented measures: – Coverage ratio: – Novelty ratio: – Relative ratio – the ratio between the # of relevant docs found and the # of relevant docs the user expected to find – Recall effort – the ratio between the # of relevant docs the user expected to find and the # of docs examined in an attempt to find the expected relevant docs.

Ανάκτηση Πληροφορίας31 User-Oriented Measures Answer set (A) Relevant documents (R) Relevant Docs known to user (U) Relevant Docs known to user which were retrieved (Rk) Relevant Docs previously unknown to user which were retrieved (Ru)

Ανάκτηση Πληροφορίας32 Other measures Expected search length – useful for dealing with sets of docs weakly ordered Satisfaction – takes into account only the relevant docs Frustration – only the non-relevant docs.

Ανάκτηση Πληροφορίας33 Reference Collections TREC collection (Text REtrieval Conference) – 5.8 GB, >1.5 Million Docs; CACM - computer science – 3024 articles; ISI (CISI) – library science – 1460 docs; Cystic Fibrosis (CF) - medicine – 1239 docs; CRAN – aeronautics – 1400 docs; Time – general articles – 423 docs; NPL – electrical engineering – docs; Etc…

Ανάκτηση Πληροφορίας34 TREC Benefits: – made research systems scale to large collections; – allows for somewhat controlled comparisons; Drawbacks: – emphasis on high recall, which may be unrealistic for what most users want; – very long queries, also unrealistic; – comparisons still difficult to make, because systems are quite; different on many dimensions; – focus on batch ranking rather than interaction; – no focus on the WWW.

Ανάκτηση Πληροφορίας35 TREC is changing Emphasis on specialized “tracks”: – Interactive task – Natural Language Processing (NLP) task – Multilingual tracks (Chinese, Spanish) – Filtering track – High-Precision – High-Performance

Ανάκτηση Πληροφορίας36 Web Search Engine Evaluation Evaluation principles: – Representative query set (e.g. from user logs) – Documents rated from –1 to 2 -1: spam, broken link 0: unrelated 1: related 2: good and relevant – Document weight according to position in result set

Ανάκτηση Πληροφορίας37 Σύνοψη Basic measures for evaluating the effectiveness of a retrieval system: – Recall & Precision; – Single value summaries; – Alternative measures; – User-oriented measures; Test collections.