Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.

Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen Kan: ‘Corpus-Based Query Expansion in Online Public Access Catalogs’ Ευαγγελία Μουμόλη Αθήνα Ιούνιος 2007

2 Ανάκτηση της Πληροφορίας Τρόπος έκφρασης των αναγκών πληροφόρησης (ερωτήματα) Εντοπισμός και ανάκτηση πληροφοριών που ικανοποιούν τις ανάγκες Αξιολόγηση των αποτελεσμάτων αναζήτησης

3 Αναπαράσταση Συστήματος IR InputInput Document classification Processor Search strategy Documents queries Output feedback

4 Πρόβλημα Λεξιλόγιο –Χρήση διαφορετικών λέξεων για την περιγραφή των ερωτημάτων από αυτές που χρησιμοποιούνται στα δημοσιεύματα. Αναποτελεσματικότητα Σύντομων Ερωτημάτων –Πολλά αποτελέσματα –Διφορούμενα αποτελέσματα Αποτελέσματα Μελέτης Περίπτωσης (Μάρτιος – Σεπτέμβριος 2003) –Απεστάλησαν 2.815 λέξεις σε ερωτήματα στο LINC –Τα σύντομα ερωτήματα είναι πολυσήμαντα π.χ. Flash, Java, κλπ. –“Java” ανάκτησε 32,000 τίτλους –953 δημοσιεύματα ήταν 100% σχετικά.

5 The Big Picture Experiments & Instruments Simulations facts answers questions Εισροή – οργάνωση δεδομένων Ανάπτυξη εργαλείων ερωτημάτων DB / OPAC Πρόβλημα Literature Other Archives facts

6 Επέκταση Ερωτήματος Προτεινόμενη Λύση: η διαδικασία επέκτασης ερωτήματος χρηστών, με πρόσθετες σχετικές λέξεις και φράσεις Τεχνικές –Global –Local –External

7 Global Techniques Αναλύουν το περιεχόμενο ενός συγκεκριμένου σώματος κειμένου ώστε να προσδιορίσουν σημασιολογικά παρόμοιους όρους. Συγκεντρώνουν στατιστικά της επανάληψης των όρων σε ένα σώμα κειμένου και «χτίζουν» τις στατιστικές σχέσεις των όρων ώστε να επαναχρησιμοποιηθούν για την επέκταση των ερωτημάτων. Παραδείγματα: Terms clustering, Global Similarity, Thesauri, Latent Semantic Indexing και Phrasefinder Προσφέρουν μερική λύση στο πρόβλημα της λανθάνουσας ταύτισης λέξεων, διότι επικεντρώνονται στα δημοσιεύματα χωρίς να λαμβάνουν υπόψη τα ερωτήματα.

8 Local Techniques  Χρησιμοποιούν μόνο ένα υποσύνολο των δημοσιευμάτων που ανακτώνται από ένα ερώτημα.  Διαιρούνται σε 2 κατηγορίες: Αλληλεπίδρασης (Relevance feedback) ή αυτόματες (local feedback)  Relevance feedback  Οι σχετικοί όροι προέρχονται από τα προσδιοριζόμενα από τους χρήστες σχετικά δημοσιεύματα.  Πρόβλημα: οι χρήστες συνήθως δεν παρέχουν οποιονδήποτε τύπο ανατροφοδότησης.  Local feedback  Οι όροι των ανώτατων στην κατάταξη δημοσιευμάτων μπορούν να χρησιμοποιηθούν για την επέκταση του ερωτήματος  Βασική προϋπόθεση τα ανώτατα, στην κατάταξη της ανάκτησης, δημοσιεύματα πρέπει να είναι σχετικά με το ερώτημα

9 External Techniques  Χρησιμοποιούν εξωτερικές πηγές, όπως online θησαυρούς, για την επέκταση των ερωτημάτων (π.χ. Longman's Dictionary of Contemporary English, WordNet)  Δύσκολη η χρήση των θησαυρών: 1.Γενικοί όροι 2.Ύπαρξη εξειδικευμένων όρων για συγκεκριμένες συλλογές  Σημειώθηκαν βελτιώσεις της τάξης του 1% αλλά επίσης σημειώθηκε μείωση της απόδοσης

10 Έρευνες Αξιολόγησης OPAC’s  Οι χρήστες των βιβλιοθηκών: oΑδυναμία ταύτισης των όρων που χρησιμοποιούν σε ερωτήματα με αυτούς που ερευτηριάζονται στους OPAC’s oΑδυναμία κατανόησης των όρων των θεματικών επικεφαλίδων της LCSH  Σύσταση: αντιστοίχηση όρων ερωτημάτων με τους όρους του σώματος κειμένου Δημιουργία θησαυρού για το συγκεκριμένο σώμα κειμένου

11 Προτεινόμενη λύση Δημιουργία Θησαυρού Συνδυασμός ιστορικού αρχείου ερωτημάτων χρηστών και καταλόγου της βιβλιοθήκης ανάπτυξη συσχετίσεων ανάμεσα στους όρους των δημοσιευμάτων και των ερωτημάτων

12 Διαδικασία  Ανάλυση των ιστορικών αρχείων ερωτημάτων => επαναλαμβανόμενα ερωτήματα  Σχετικές θεματικές επικεφαλίδες από τα ανώτατα στην κατάταξη δημοσιεύματα.  Υπολογισμός «πιθανών» σχέσεων μεταξύ των ανακτημένων θεματικών επικεφαλίδων και των ερωτημάτων των χρηστών.  Χρησιμοποιήθηκαν οι παραπάνω των σχέσεων για την συλλογή σχετικών θεματικών επικεφαλίδων ώστε να συμπεριληφθούν στην επέκταση των ερωτημάτων

13 Πιο συγκεκριμένα Επανάληψη επαναλαμβανόμενων ερωτημάτων Για κάθε ερώτημα, –Χρησιμοποιήθηκε local feedback για να καθοριστούν τα σχετικά δημοσιεύματα Θεματικές επικεφαλίδες Αντιστοίχηση θεματικών επικεφαλίδων με κάθε όρο του ερωτήματος Υπολογισμός συχνότητας εμφάνισης των θεματικών επικεφαλίδων στα σχετικά δημοσιεύματα Οι Θεματικές Επικεφαλίδες που χρησιμοποιήθηκαν ως επέκταση των όρων ερωτημάτων –Αποτελούν ξεκάθαρους και ακριβείς όρους –Έχουν δημιουργηθεί από ειδικούς –Μείωση της ανάγκης χρήσης αλγόριθμων «τοποθέτησης βάρους, π.χ. TF*IDF

14 Συσχετίσεις ανάμεσα σε Όρους και Θεματικές Επικεφαλίδες

15 Συσχέτιση Ερωτημάτων και Όρων Δημοσιευμάτων Αυτόματη δημιουργία θησαυρού με την ταύτιση όρων με θεματικές επικεφαλίδες Java Java (Computer Programming Language) Internet Programming Application Software -- Development Internet (Computer Network) Jawa (Indonesia) -- Civilization 34 12 6 5 4 Frequency

16 Μοντέλο Επέκτασης Ερωτήματος Θεματικές Επικεφαλίδες που ταυτίζονται με τους περισσότερους όρους των ερωτημάτων θεωρούνται στον θησαυρό ως πιο σχετικές Μέτρηση της σχέσης των Θεματικών Επικεφαλίδων με το ερώτημα Υπολογισμός «Εξίσωσης Βάρους Συνάφειας» (Cohesion Weight) Ανάπτυξη νέου ερωτήματος με πρόσθεση των όρων των Θεματικών Επικεφαλίδων στο αρχικό ερώτημα

17 Αξιολόγηση Πειράματος  Σκοπός: Έλεγχος της βελτίωσης της αποτελεσματικότητας της ανάκτησης, με τη χρήση του θησαυρού που δημιουργήθηκε, σε σύγκριση με τα αρχικά ερωτήματα.  Η επέκταση ερωτημάτων αλλάζει την σειρά κατάταξης των δημοσιευμάτων που ανακτώνται  Πραγματοποιήθηκαν σύντομες συνεντεύξεις σε χρήστες ώστε να προσδιοριστούν οι πληροφοριακές τους ανάγκες  Συλλέχθηκαν 39 ερωτήματα και οι περιγραφές τους (οι χρήστες δήλωσαν τους όρους που χρησιμοποιούν στα ερωτήματά τους και θεματικές ενότητες που θεωρούν σχετικές ή μη σχετικές)  Βάση των παραπάνω περιγραφών, κρίθηκε η σχετικότητα των δημοσιευμάτων  Τα ερωτήματα περιείχαν κατά μέσο όρο 2 όρους και κάλυπταν διάφορα θέματα (π.χ. Πληροφορική ή Ιατρική)  Τα πειράματα πραγματοποιήθηκαν στον κατάλογο της NUS LINC που περιέχει 1.2 εκατομμύρια τίτλους

18 Ευρήματα Βελτίωση της απόδοσης λόγω του ότι σχετικά δημοσιεύματα που κατείχαν στην ανάκτηση χαμηλή θέση, κατά την υποβολή των αρχικών ερωτημάτων, προωθήθηκαν υψηλότερα διότι περιείχαν πολλές θεματικές επικεφαλίδες του θησαυρού

19 Συμπεράσματα Ο Θησαυρός που αναπτύχθηκε συσχέτισε λέξεις των ερωτημάτων με τους όρους των δημοσιευμάτων => Βελτίωση των ανακτημένων αποτελεσμάτων & αύξηση της ικανοποίησης των χρηστών Η ακρίβεια βελτιώθηκε κατά 30% Παρόλο που παρατηρείται αυξημένο ενδιαφέρον αναφορικά με την ανάλυση ερωτημάτων, απέχουμε από την επίλυση του συγκεκριμένου προβλήματος

Ευχαριστώ για την προσοχή σας καλό καλοκαίρι...

Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια