1 Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007 Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Μεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας
2 XML Ανάκτηση XML (Extensible Markup Language) INEX (Initiative for the Evaluation of XML Retrieval)
3 XML Ανάκτηση Content-oriented Κάθε στοιχείο αποτελεί ανεξάρτητη δομική μονάδα, η οποία είναι ανακτήσιμη Toc (Table of Contents) Περιλήψεις μπορούν να συσχετιστούν με κάθε στοιχείο του εγγράφου
4 Στόχος πειράματος Χρήση των περιλήψεων στην XML ανάκτηση Zoltan Szlávik, Anastasios Tombros Mounia Lalmas ( Department of Computer Science, Queen Mary University of London) Πως οι χρήστες αλληλεπιδρούν με τις περιλήψεις Αν διευκολύνονται κατά τη διαδικασία αναζήτησης
5 Οργάνωση Πειράματος Διεπαφή χρήστη
6 Οργάνωση Πειράματος Διεπαφή χρήστη
7 Οργάνωση Πειράματος Δημιουργία περιλήψεων query-biased αλγόριθμος Συλλογή άρθρα από τη συλλογή του οργανισμού IEEE XML Μηχανή Ανάκτησης Hyspirit retrieval framework Χρήστες 9 άντρες – 3 γυναίκες
8 Οργάνωση Πειράματος Πρώτο επίπεδο: Ολόκληρο το άρθρο Δεύτερο επίπεδο: Κυρίως μέρος (body) Προκαταρκτικά μέρη (frontmatters) Τελικά μέρη (backmatters) Τρίτο επίπεδο Περίληψη (abstract) Ενότητες (sections) Παραρτήματα (appendices) Τέταρτο επίπεδο Υποενότητες (subsections) Παράγραφοι (paragraphs) Σύστημα Ελέγχου (System Control – Sc)
9 Οργάνωση Πειράματος Πειραματικό Σύστημα (Experimental System Se) Τρία πρώτα επίπεδα δόμησης Καθήκοντα (tasks) Background-type List-type 20 λεπτά για την ολοκλήρωση κάθε καθήκοντος Συνεδρία αναζήτησης (search session) Μοντέλο Αναζήτησης Ομάδες των 4 ατόμων Δεδομένα - Ενέργειες χρήστη σύμφωνα με τα κλικ του ποντικιού - Κάθε πότε εμφανιζόταν μία περίληψη
10 Ανάλυση Χρόνος περιλήψεων Sc – 3.98s ο μέσος χρόνος εμφάνισης των περιλήψεων Se – 4.58s ο μέσος χρόνος εμφάνισης των περιλήψεων
11 Ανάλυση Αριθμός περιλήψεων που διαβαστηκαν Se – 12.5 περιλήψεις σε κάθε συνεδρία αναζήτησης Sc – περιλήψεις σε κάθε συνεδρία αναζήτησης
12 Ανάλυση Χρόνος περιλήψεων vs Αριθμός περιλήψεων Αρνητική συσχέτιση (-0.5) Se Διάβασαν λιγότερες περιλήψεις αλλά για περισσότερη ώρα Sc Διάβασαν περισσότερες περιλήψεις αλλά για λιγότερη ώρα
13 Ανάλυση Χρήση ToC (Table of Contents) και Άρθρο Περισσότερα από τα μισά στοιχεία που εμφανίστηκαν προέρχονταν από τον Toc Το άρθρο εμφανίστηκε σε ποσοστό 6.12%
14 Συμπεράσματα - Προβληματισμοί Οι χρήστες χρησιμοποίησαν τις περιλήψεις των XML στοιχείων που τους προσέφερε το σύστημα και ξόδεψαν και αρκετό χρόνο για να τις διαβάσουν Οι χρήστες εκμεταλλέυτηκαν τη λογική δομή των εγγράφων και πλοηγήθηκαν στον Πίνακα Περιεχομένων (ToC) Θεωρώντας δεδομένη τη στενή συσχέτιση ανάμεσα στον πίνακα περιεχομένων και τις περιλήψεις, μέχρι ποιο επίπεδο δόμησης πρέπει να φτάσει κανείς για τη δημιουργία περιλήψεων; Ο Πίνακας Περιεχομένων (ToC) πρέπει να εμφανίζει όλα τα δομικά στοιχεία ή μόνο αυτά που σχετίζονται με το ερώτημα του χρήστη;
15 Βιβλιογραφία 1) Z. Szlávik, A. Tombros and M. Lalmas. The use of summaries in XML retrieval. Proceedings of the 10th European Conference on Research and Advanced Technology for Digital Libraries, pp Alicante, Spain, September th European Conference on Research and Advanced Technology for Digital Libraries 2) Zoltán Szlávik, Anastasios Tombros and Mounia Lalmas. Investigating the use of summarization for interactive XML retrieval. In Proceedings of the 21st ACM Symposium on Applied Computing, Information Access and Retrieval Track (SAC-IARS'06), pp Dijon, France, April st ACM Symposium on Applied Computing, Information Access and Retrieval Track (SAC-IARS'06) 3) A.Tombros, S. Malik, and B. Larsen.Report on the INEX 2004 interactive track. ACM SIGIR Forum, 39(1): 43–49, June ) A.Tombros and M. Sanderson. Advantages of query biased summaries in information retrieval. In SIGIR’98, pages 2–10. ACM Press, ) A.Tombros, S. Malik, and B.Larsen.Report on the INEX 2004 interactive track. ACM SIGIR Forum, 39(1):43–49, June ) Charles L.A. Clarke. Controlling overlap in content-oriented XML retrieval. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, pp Salvador, Brazil, ) INEX
16 Ευχαριστώ Ερωτήσεις - Απορίες