Ανάκτηση Πληροφορίας Το Boolean μοντέλο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γραφήματα & Επίπεδα Γραφήματα
Advertisements

Επιμέλεια: Τίκβα Χριστίνα
Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
Συνδυαστικά Κυκλώματα
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΚΑΘΟΡΙΣΜΟΣ ΚΑΙ ΚΑΤΑΝΟΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
ΔΙ.ΟΡΓΑΝΩ.ΣΗ Σύστημα ΔΙαχείρισης ΟΡΓΑΝΩσιακής ΓνώΣΗς για τις ελληνικές επιχειρήσεις. Μπίμπη Σταματία1 Σαμολαδάς Ιωάννης1 Σταμέλος Ιωάννης1 Κατσιαδάκης.
1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.
ΚΑΙΝΟΤΟΜΙΑ & ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΙΔΕΑ
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Μεθοδολογία αναζήτησης. Χαρακτηριστικά των ερευνητών του διαδικτύου.
Οι ιστοσελίδες ως πηγές πληροφόρησης και η αξιοπιστία τους
Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181)
Πνευματικό κέντρο Ερμουπόλεως Σύρου
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Δρ. Παναγιώτης Συμεωνίδης
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Τμήμα Πληροφορικής ΑΠΘ
1 iPac Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ. 26/6/2002 Ενημέρωση πάνω στις νέες ψηφιακές υπηρεσίες 2 Περιεχόμενα 1 iPac  Τί είναι το iPac  Δυνατότητες.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αναγνώριση Προτύπων.
Αναζήτηση στο διαδίκτυο Για να μπούμε στον κόσμο του διαδικτύου, θα πρέπει να ξέρουμε ποια πόρτα να κτυπήσουμε!
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων.
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
Τεχνικές Αναζήτησης στο Διαδίκτυο και όχι μόνο….
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΣΥΝΑΡΤΗΣΕΙΣ.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Συνδυαστικά Κυκλώματα
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 HMMY Τεχνολογία Λογισμικού Διδάσκων Κώστας Κοντογιάννης Αναπλ. Καθηγητής, Ε.Μ.Π.
1 MedioVis- Ένας φυλλομετρητής μεταδεδομένων MedioVis – A user-centred Library Metadata Browser Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων: Καπιδάκης Σαράντος.
Ανάκτηση Πληροφορίας Φροντιστήριο 8 Καφέζα Ευανθία Δεκέμβριος 2011.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακός Λογισμός.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Η περιληψη.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
ΣΥΝΟΛΑ.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.
Βασικά στοιχεία της Java
Βάσεις Δεδομένων Αρχιτεκτονική.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
ΤΡΟΠΟΣ ΣΥΓΓΡΑΦΗΣ ΕΠΙΣΤΗΜΟΝΙΚΩΝ ΕΡΓΑΣΙΩΝ
Γυμνάσιο Νέας Κυδωνίας
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Εφαρμογές Πληροφορικής
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Σκοπός Η συνοπτική παρουσίαση
Οι ιστοσελίδες ως πηγές πληροφόρησης και η αξιοπιστία τους
Γυμνάσιο Νέας Κυδωνίας
ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΓΑΣΙΑΣ
Μεταγράφημα παρουσίασης:

Ανάκτηση Πληροφορίας Το Boolean μοντέλο

Τμήμα Πληροφορικής ΑΠΘ Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Χαρακτηριστικά Μοντέλων IR D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Το πλήθος των όρων είναι συνήθως μεγάλο και προηγείται απαλοιφή τετριμμένων λέξεων (π.χ., άρθρα, σύνδεσμοι κλπ) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 … η γεωργική επανάσταση … η βιομηχανική επανάσταση … η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Παρατήρηση Όλες οι λέξεις κλειδιά (αλλιώς όροι) δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω ti ένας όρος και dj ένα έγγραφο. Το βάρος του όρου ti στο έγγραφο dj συμβολίζεται ως w(ti,dj) >= 0 (ή απλούστερα wij) και δηλώνει το πόσο σημαντικός είναι ο όρος ti σε σχέση με το έγγραφο dj. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Ορισμός Έστω m αριθμός των όρων και Τ={t1,…,tm} το σύνολο των μοναδικών όρων. Εάν ο όρος ti δεν εμφανίζεται στο έγγραφο dj τότε w(ti,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο dj αντιστοιχεί ένα m-διάστατο διάνυσμα βαρών (w1,j, w2,j, …, wm,j). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Κλασικά Μοντέλα IR ti ένας όρος (index term, keyword) dj ένα έγγραφο m συνολικός αριθμός όρων T = {t1, t2, …, tm} σύνολο keywords wij >= 0 βάρος μεταξύ ti, dj wij = 0 το ti δε βρίσκεται στο έγγραφο dj vec(dj) = (w1j, w2j, …, wtj) διάνυσμα που σχετίζεται με το έγγραφο dj gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα ti και dj Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική (exact semantics) απλός φορμαλισμός Ένας όρος είναι είτε παρόν είτε απών από το έγγραφο, επομένως wij Є {0,1} Για παράδειγμα q = (t1  t2)  t3 qdnf = (1,1,1)  (0,1,1)  (1,0,1) (disjunctive normal form) conjunctive components (qcc) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1  t2)  t3 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο Ομοιότητα στο Boolean μοντέλο Sim(q,dj) = 1, αν  vec(qcc) Є vec(qdnf) | ti, gi(vec(dj)) = gi(vec(qcc) 0, διαφορετικά Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο q = (t1  t2)  t3 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλες τις κατηγορίες χρηστών. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Το Boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά έγγραφα (απλές λογικές εκφράσεις) και άλλοτε πάρα πολύ λίγα (πολύπλοκες λογικές εκφράσεις). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ