Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Διδακτικό βοήθημα 1 Καλύπτει το 60% του αντικειμένου του μαθήματος Είναι στην αγγλική 510 σελίδες 1η έκδοση (Μάιος, 1999) ~50 € Αναλυτικό & κατανοητό
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Διδακτικό βοήθημα 2 Καλύπτει το 30% του αντικειμένου του μαθήματος Είναι στην αγγλική 290 σελίδες 1η έκδοση (Μάιος, 2003) ~75 € Αναλυτικό & κατανοητό
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Διδακτικό βοήθημα 3 Καλύπτει το 10% του αντικειμένου του μαθήματος Είναι στην αγγλική 520 σελίδες 2η έκδοση (Μάιος, 1999) ~70 € Αναλυτικότατο & κατανοητό
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Διδακτικό βοήθημα 4 Καλύπτει το 10% του αντικειμένου του μαθήματος Είναι στην αγγλική 350 σελίδες 1η έκδοση (Μάιος, 1999) ~60 € Paper-like μορφή
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Διδακτικό βοήθημα 5 Καλύπτει το 5% του αντικειμένου του μαθήματος Είναι στην αγγλική 250 σελίδες 1η έκδοση (Σεπτέμβριος, 2003) ~60 € Ανεξάρτητα κεφάλαια
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Αντικείμενο IR Η Ανάκτηση Πληροφορίας μελετά προβλήματα που σχετίζονται με την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Ανάκτηση Πληροφορίας & Ανάκτηση Δεδομένων Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιμή του δίκλινου δωματίου είναι μικρότερη από 100 € τη βραδιά. (σαφές ερώτημα) Να βρεθούν κείμενα τα οποία αναφέρονται στο διαστημικό σταθμό MIR. (ασαφές ερώτημα)
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Σύγκριση
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Στόχος Συστήματος IR Η ανάκτηση «κειμένων» τα οποία σχετίζονται με την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειμένων που δε σχετίζονται με την ερώτηση του χρήστη. Τα τελικά αποτελέσματα ταξινομούνται ανάλογα με το ποσοστό συσχέτισης (relevance).
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Κείμενα Αίτηση για Πληροφορία Index Terms (keywords) κείμενο ερώτημα Βαθμ/ση ταίριασμα Σύστημα IR
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Λειτουργίες IR Ανάκτηση (Retrieval) Η δυνατότητα εύρεσης πληροφορίας σχετική με την ερώτηση του χρήστη. Αναζήτηση (Browsing) Η δυνατότητα «μετακίνησης» μεταξύ των αποτελεσμάτων (π.χ. Hypertext)
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Λογική Όψη Κειμένων (Logical View) 1. Πλήρες κείμενο 2. Απαλοιφή άρθρων και συνδέσμων 3. Απαλοιφή επιθέτων, ρημάτων, κλπ. 4. Άλλοι μετασχηματισμοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές μας ενδιαφέρει και η δομή (structure) του κειμένου (π.χ. αναπαράσταση με XML)
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Πλήρες Κείμενο -> Keywords document structure recognition accents spacing etc. stopwords noun groups stemming automatic or manual indexing structurefull textindex terms text + structure text
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας User Interface Text Operations Query Operations Indexing Searching Ranking Index Text query user need user feedback ranked docs retrieved docs logical view inverted file DB Manager Module Text Database Text Διαδικασία IR
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Χθες και Σήμερα Τα πρώτα διαθέσιμα συστήματα IR χρησιμοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων με βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγματοποιείται ανάκτηση με βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήμερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγμένα user interfaces, πιο γρήγορες μηχανές αναζήτησης, ανοιχτή αρχιτεκτονική.
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας WWW + Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο. Η προσπέλαση στις πηγές πληροφορίας πραγματοποιείται γρηγορότερα. Η ελευθερία στη δημοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW.
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Ερώτημα 1 Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήματα, ακόμη είναι δύσκολο να βρει την πληροφορία που επιθυμεί. Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται;
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Ερώτημα 2 Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστημάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σημαντική. Ποιες τεχνικές πρέπει να χρησιμοποιηθούν για να βελτιώσουν την απόδοση των συστημάτων;
Παν. ΘεσσαλίαςΑνάκτηση Πληροφορίας Ερώτημα 3 Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άμεσα με την αλληλεπίδραση χρήστη – συστήματος. Με ποιους τρόπους θα βελτιώσουμε την ανάκτηση πληροφορίας λαμβάνοντας υπόψη τις προτιμήσεις των χρηστών;