1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

© 2002 Thomson / South-Western Slide 2-1 Κεφάλαιο 2 Διαγράμματα και Γραφήματα Περιγράφικής Στατιστικής.
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Μάρτιος 2011 Βαρόμετρο ΕΒΕΘ - Καταναλωτές. “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Matching.
HTML.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
Εισαγωγή στη Βιοπληροφορική
Δεικτοδότηση και Αναζήτηση (Indexing & Searching)
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
Τμήμα Πληροφορικής ΑΠΘ
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Καλώς ήρθατε στις Οικονομικές Επιστήμες
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
ΚΕΦΑΛΑΙΟ 3 Περιγραφική Στατιστική
Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Σοφία Τζελέπη, App Inventor ΜΕΡΟΣ B’ Σοφία Τζελέπη,
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Dr. Holbert Νικ. Α. Τσολίγκας Χρήστος Μανασής
ΓΕΝΙΚΕΣ ΟΔΗΓΙΕΣ ΔΙΔΑΣΚΑΛΙΑΣ & ΕΝΔΕΙΚΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΛΗΣ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ουρά Προτεραιότητας: Heap
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
ΣΥΓΚΟΜΙΔΗ ΜΕΤΑΔΕΔΟΜΕΝΩΝ (METADATA HARVESTING) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ - ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις.
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
ΤΑ ΔΟΝΤΙΑ ΜΑΣ.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.
Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Μεταγράφημα παρουσίασης:

1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο

2 Ανάκτηση Πληροφορίας  ΠΩΣ εκφράζουμε ανάγκες πληροφόρησης (queries)  ΠΩΣ εντοπίζουμε και ανακτούμε πληροφορίες που ικανοποιούν τις ανάγκες  ΠΩΣ αξιολογούμε τα αποτελέσματα της αναζήτησης

3 Information Retrieval System InputInput Document classification Processor Search strategy Documents queries Output feedback

4 Information retrieval process Docs database DB manager Index User Interface Text Operations (tokenization, stopwords, stemming, etc.) Indexing Searching Ranking Query operations text user need query Retrieved docs user feedback ranked docs

5 Ανακεφαλαίωση IR = D: documents Q: queries F: πλαίσιο αναπαράστασης κειμένων R: συνάφεια query q i με κείμενο d j αριθμός  0-1

6 Κατηγορίες Documents  Δομημένα (structured) –εγγραφές, πεδία (Βάσεις Δεδομένων)  Πλήρως αδόμητα –ελεύθερο κείμενο  Προεπεξεργασία (pre-processing) –Metadata –Stemming

7 Παρελκόμενα  Document identifier  Ταξινομικό πεδίο  Λέξεις - φράσεις κλειδιά (keywords)  Περίληψη (abstract)  Εξαγωγές (extraction) - εκτός συγγραφέα  Ανασκοπήσεις (reviews)- εκτός συγγραφέα

8 Τυπικός ορισμός document  Λεξιλόγιο V, ελεγχόμενο (controlled) ή όχι  όροι w i,  document α  συχνότητα όρου w i στο α

9 Boolean model (1/2)  Βασισμένο στη θεωρία συνόλων –Οι όροι του query συνδέονται με τους τελεστές AND, OR, NOT  Παράδειγμα: –Query: restaurants AND (Mideastern OR vegeterian) AND inexpensive –Απάντηση: κείμενα που περιλαμβάνουν τις λέξεις restaurants, Mideastern, inexpensive ή τις λέξεις restaurants, vegeterian, inexpensive  Το query μεταγράφεται σε Disjunctive normal form (συνιστώσα είναι όπου υπάρχει αληθής τιμή στον πίνακα αληθείας)

10 Disjunctive normal form kaka kbkb KcKc ¬ K c ka kbka kb k a  ¬ K c (k a  k b )  (k a  ¬ K c ) q = k a  (k b  ¬ K c )  DNF= (k a  k b )  (k a  ¬ K c )  (1,1,1)  (1,1,0)  (1,0,0)

11 Boolean model (2/2)  Similarity query - documents: όταν τουλάχιστον μία συνιστώσα του query Disjunctive normal form ταυτίζεται με ένα document –Τιμές similarity 0 ή 1  Παράδειγμα: –q = k a  (k b  ¬ K c )  (1,1,1)  (1,1,0)  (1,0,0) –d = (0,1,0) –Similarity = 0 (αν και υπάρχει στο document ο όρος k b ).

12 Μειονεκτήματα Boolean model  Δεν ορίζεται η Αξία κάθε όρου  Σειρά εμφάνισης του κάθε όρου  Ο παράγοντας NOT  Δυσκολία σύνταξης boolean expressions  Data retrieval και όχι information retrieval  Δεν προβλέπει –Ranking –Partial match  Επιστρέφει είτε πολύ λίγα είτε πάρα πολλά

13 Vector Model (1/2)  Similarity: Συνημίτονο γωνίας δύο documents d k, d j  Υπολογίζεται από το εσωτερικό γινόμενο των διανυσμάτων των documents

14 Vector model (2/2)  Επιλογή με κατώφλι (threshold) στο βαθμό ομοιότητας (similarity)  Πρόβλημα η μέτρηση των συχνοτήτων των όρων: αντιπροσωπευτική μέτρηση της βαρύτητας των όρων

15 Πλεονεκτήματα - μειονεκτήματα  Πλεονεκτήματα –Κατάταξη – αξιολόγηση κειμένων με βάση τους όρους τους –Partial matching –Καλύτερη απόδοση  Μειονέκτηματα –Θεώρηση ανεξαρτησίας των index terms –Οι όροι που λείπουν

16 TFIDF Model  N documents, n i πλήθος documents με τον όρο k i, freq ij η συχνότητα του όρου στο document d j.  Term frequency  Inverse document frequency  Term weighting: tf * idf

17 Πλεονεκτήματα – μειονεκτήματα  Καλύτερη απόδοση  Προσέγγιση partial matching  Ranking με βάση την τιμή του συνημίτονου  Μειονέκτημα: θεώρηση ότι οι index terms είναι ανεξάρτητοι

18 Η έννοια της ομαδοποίησης κειμένων (document clustering)  Συλλογή C από κείμενα (index terms)  Query: Σύνολο Α από index terms  Ποια κείμενα ανήκουν στο Α: –Ποια χαρακτηριστικά στοιχεία περιγράφουν τους όρους του Α (intra – cluster similarity, tf) –Ποια χαρακτηριστικά στοιχεία διακρίνουν τα μέλη του Α (inter-cluster similarity, idf)

19 Clustering  Δεδομένης μιας συλλογής τεκμηρίων, να δημιουργηθεί μια ιεραρχική ομαδοποίηση (taxonomy) βασισμένη σε ένα μέτρο συνάφειά τους (similarity) (π.χ. Yahoo)  Μέτρα συνάφειας τεκμηρίων –Αναπαράσταση με βάση TFIDF –Ευκλείδιες αποστάσεις μεταξύ τεκμηρίων –Συνημίτονο της γωνίας των τεκμηρίων  Προβλήματα –Θόρυβος: μεγάλος αριθμός άχρηστων όρων –Η έννοια του θορύβου εξαρτάται από τη συλλογή

20 Top-down clustering  k-Means: Repeat… –Choose k arbitrary ‘centroids’ –Assign each document to nearest centroid –Recompute centroids

21 Bottom-up clustering  Initially G is a collection of singleton groups, each with one document  Repeat –Find ,  in G with max s(  ) –Merge group  with group   For each  keep track of best 

22 Probabilistic Model (1/2)  Υπάρχει υποσύνολο R, των σχετικών κειμένων με το query  Ο χρήστης υποδεικνύει τα σχετικά κείμενα  Εκτίμηση πιθανότητας το document να είναι στις επιλογές του χρήστη  w ij Є {0,1}: δυαδική αναπαράσταση των όρων, όπως το boolean model

23 Probabilistic Model (2/2)  Τα επιστρεφόμενα κείμενα ικανοποιούν το query με μια πιθανότητα μεγαλύτερη από ένα κατώφλι (threshold)

24 Extended similarity  Που μπορώ να φτιάξω τη μηχανή μου?  Ένα καλό συνεργείο για να επιδιορθώσεις το 2κυκλο είναι στη …  αυτοκίνητο and αμάξι συχνά απαντώνται μαζί (co-occur)  Κείμενα με σχετικές λέξεις είναι σχετικά  Βασικές προσεγγίσεις για αναζήτηση και ομαδοποίηση –Θησαυροί (WordNet) –Συσχέτιση όρων που απαντώνται μαζί … car … … auto … … auto …car … car … auto … auto …car … car … auto … auto …car … car … auto car  auto 

25 Latent Semantic Indexing  Στόχος: –Η απεικόνιση του πίνακα documents-terms σε ένα μικρότερων διαστάσεων πίνακα που αντιστοιχεί σε έννοιες (concepts)  Όχι λεξική ομοιότητα αλλά εννοιολογική  Μαθηματικά πολύπλοκο μοντέλο βασισμένο στη γραμμική άλγεβρα

26 k k-dim vector Latent Semantic Indexing A Documents Terms U d t r DV d SVD TermDocument car auto

27 Extended Boolean Στόχος: Να δώσουμε «βάρη» στους όρους των Boolean queries * : λογικός τελεστής (and, or κ.λπ.)

28 Άλλα μοντέλα  Θεωρία συνόλων –Fuzzy set  Αλγεβρικά –Generalised Vector model –Neural networks  Θεωρία Πιθανοτήτων –Bayesian networks –Inference networks –Belief networks

29 Αξιολόγηση Ανάκτησης  Precision –Relevant answers (Ra)/ Total answers (A)  Recall –Relevant answers / Relevant documents Documents AR Ra

30 Παράδειγμα  Σε ένα ερώτημα q, τα σχετικά κείμενα είναι: d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123  Η μηχανή αναζήτησης επέστρεψε με σειρά σχετικότητας τα κείμενα: d 123, d 84, d 56, d 6, d 8, d 9, d 511, d 129, d 187, d 25, d 38, d 48, d 250, d 113, d 3  Ακρίβεια (precision) = Ra/A = 5/15= 33,3%  Ανάκληση (recall) = Ra/R = 5/10 = 50%

31 Καμπύλη ακρίβειας / ανάκλησης ΑπάντησηΑκρίβειαΑνάκληση 11/11/ /32/ /63/ / /155/10

32 Αξιολόγηση ανάκτησης  Μέτρα συνδυασμού precision – recall –Μέσοι αρμονικοί –Άλλα στατιστικά  Μέτρα βασισμένα στο χρήστη –V σχετικά κείμενα, γνωστά στο χρήστη –R k,απαντημένα και γνωστά (A  V) –R u, απαντημένα και άγνωστα στο χρήστη –Κάλυψη αναγκών (coverage) χρήστη = |R k | / |V| –Καινοτομία (novelty) ποσοστό νέων σχετικών κειμένων = |R u | / (|R k | + |R u | )  Συλλογές κειμένων για αξιολόγηση μεθόδων –TREC –ISI

33 Query Languages  Βοηθούν το χρήστη στην υποβολή ερωτημάτων και στην κατάταξη των αποτελεσμάτων (οι data retrieval γλώσσες δεν κάνουν ranking)  Πρωτόκολλα: γλώσσες που δεν απευθύνονται στο χρήστη αλλά χρησιμοποιούνται από συστήματα (π.χ. για υποβολή queries σε CD-ROM archive ή σε on- line databases, Ζ39.50, CCL, WAIS)  Δυνατότητες γλωσσών υποβολής ερωτημάτων: –Keywords (Single words, Context, boolean, natural language) –Pattern matching (Λέξεις, προθέματα, επιθέματα, διαχείριση λαθών, διαστήματα, τυπικές εκφράσεις και επεκτάσεις) –Structural queries (Forms, hypertext, hierarchical)

34 Keyword based querying (1/2)  Υποβολή απλών λέξεων  Υποβολή φράσεων (αναζήτηση συνόλου λέξεων που σχηματίζουν μια φράση)  Μέτρηση εγγύτητας (proximity) Υποβάλλονται λέξεις ή φράσεις και μια μέγιστη επιτρεπτή απόσταση μεταξύ τους  Ερωτήματα σε φυσική γλώσσα – ερωτήματα και κείμενα μετατρέπονται σε διανύσματα όρων με βάρη για κάθε όρο –αναζήτηση κειμένων που «μοιάζουν» περισσότερο με τα ερωτήματα –«εξαγωγή» αντιπροσωπευτικών λέξεων – κλειδιών από τα ερωτήματα

35 Keyword based querying (2/2)  Boolean queries: αποτελούνται από – απλά queries (atoms) που ανακτούν κείμενα – boolean τελεστές (operators, AND, OR, NOT BUT) που εφαρμόζονται σε σύνολα κειμένων – Ορίζεται δέντρο ερωτήματος που τα φύλλα είναι στα queries και οι εσωτερικοί κόμβοι στους τελεστές –Παράδειγμα: μετάφραση AND (σύνταξη OR συντακτικό) μετάφραση AND OR σύνταξη συντακτικό

36 Αναγνώριση προτύπων (pattern matching) (1/3)  Αναζήτηση λεκτικών προτύπων (patterns) μέσα σε κείμενα  Τα πρότυπα συνδυάζονται μεταξύ τους με boolean operators για το σχηματισμό keyword queries  Substrings –π.χ. any flow  many flowers  Διαστήματα (ranges): αλφαβητική αναζήτηση λέξεων ανάμεσα σε ένα διάστημα από strings –π.χ. αναζήτηση σε λεξικά

37 Αναγνώριση προτύπων (2/3)  Ερωτήματα με λάθη (allowing errors): δίνεται string το οποίο μεταβάλλεται για να βρεθούν παρόμοιες λέξεις –Μεταβολή: εισαγωγή διαγραφή, αντικατάσταση γραμμάτων και θέσης τους –Threshold στις μεταβολές (edit distance): το ελάχιστο πλήθος των μεταβολών που απαιτούνται για να γίνουν ίδια δύο strings.  Τυπικές εκφράσεις (regular expressions): strings ή οι ακόλουθοι συνδυασμοί από strings: –Concatenation (σύζευξη) strings (τη λε)  τηλε –Union (εναλλακτική χρήση) (με|σε) –Επανάληψη ενός string e* –π.χ. pro (tein|blem) (ε|0|1|2)*  protein ή problem02, ε το κενό string

38 Αναγνώριση προτύπων (3/3)  Extended patterns –Classes of characters: συνδυασμός συνόλου χαρακτήρων ανάμεσα στις θέσεις ενός patterns (π.χ. εισαγωγή αριθμών στις θέσεις ενός pattern) –Wild characters (π.χ. τηλε*  τηλεόραση, τηλε-εκπαίδευση, τηλε-διάσκεψη κ.λπ.) –Conditional expressions: αναζήτηση ή όχι ενός μέρους από ένα pattern.

39 Structural queries (1/3)  Επιτρέπουν την αναζήτηση συνδυάζοντας το περιεχόμενο των documents με τη δομή τους  Forms –Τα documents είναι δομημένα σε πεδία που δεν επικαλύπτονται, ούτε είναι φωλιασμένα –Αναζήτηση patterns σε συγκεκριμένο πεδίο

40 Structural queries (2/3)  Υπερκείμενα –Κείμενα που έχουν συνδέσεις είτε •μεταξύ τους •σε συγκεκριμένα σημεία του κειμένου –Αναζητούνται patterns σε σελίδες ή σε γειτονικές τους  Ιεραρχική δομή –Αναζητούνται patterns σε συγκεκριμένες δομές –Οι δομές κωδικοποιούνται από tags (όπως στην HTML), τα οποία καθορίζουν περιοχές στο κείμενο –Οι περιοχές μπορεί να ακολουθούν η μία την άλλη, να είναι επικαλυπτόμενες, ή να είναι φωλιασμένες –Γίνεται indexing όχι μόνο στους όρους αλλά και στις περιοχές

41 Structural queries (3/3) Παράδειγμα ιεραρχικής δομής και ερωτήματος Κεφάλαιο Εισαγωγή Σε αυτό το κεφάλαιο … 4.4 Δομημένα ερωτήματα κεφάλαιο παράγραφος τίτλος σχήμα Query: το σχήμα μιας παραγράφου με τίτλο «δομημένα»

42 Τεχνικές Βελτίωσης (expansion) Query  Ο χρήστης υποδεικνύει τα σχετικά κείμενα (User relevance feedback)  Χωρίς ανάμιξη του χρήστη –Πληροφορίες από τα επιστραφέντα κείμενα (automatic local analysis) –Πληροφορίες από τη συλλογή κειμένων (automatic global analysis)

43 User Relevance Feedback (1/2)  Ο χρήστης αξιολογεί τα επιστραφέντα κείμενα (relevant, non-relevant clusters)  Υπόθεση: τα σχετικά κείμενα έχουν «παρόμοιους όρους»  Στόχος: Τροποποίηση του ερωτήματος με συναφείς όρους  Τεχνικές: –query expansion, –term reweighting

44 User Relevance Feedback (2/2)  query expansion –αναζήτηση εκείνου του query vector που διακρίνει καλύτερα τα relevant από τα irrelevant documents –Χρησιμοποιείται στο vector model.  term reweighting –αναπροσδιορισμός των συντελεστών βαρύτητας στους όρους του query –Χρησιμοποιείται στα vector και probabilistic models

45 Ανάλυση Επιστραφέντων (local analysis)  Αυτόματος προσδιορισμός σχετικών όρων με τους όρους του query  Local clustering –Οι όροι υπόκεινται σε stemming –Κατασκευή term-document matrix m (συχνότητες των όρων στα κείμενα) –Term – term matrix s = mm t, ο οποίος δείχνει για κάθε όρο την ομοιότητά του με τους υπόλοιπους (m t ο ανάστροφος πίνακας του m) –Για κάθε όρο του query επιλέγεται από τον πίνακα s η ομάδα (cluster) με τους πιο σχετικούς όρους

46 Local Context Analysis  Βασίζεται στη χρήση ομάδων όρων (αντί για απλά keywords) από τα σχετικότερα κείμενα που επιστρέφονται (top ranked documents)  Οι ομάδες των όρων αντιστοιχούν σε έννοιες (concepts) και χρησιμοποιούνται για βελτίωση του query  Τα top ranked documents σπάζουν σε passages δηλ. σε κομμάτια κειμένου σταθερού μήκους (π.χ. 300 λέξεις)

47 Local Context Analysis (αλγόριθμος)  Ανάκτηση των Ν top ranked documents που θα επιστραφούν από την εκτέλεση του query  Χωρισμός των top ranked documents σε passages  Προσδιορισμός των ομάδων των όρων (concepts) ελέγχοντας τη συνύπαρξή τους με τους όρους του query  Προσδιορισμός της σχετικότητας similarity(concept, query) με μέθοδο παρόμοια της tf*idf και κατάταξη των εννοιών σύμφωνα με την ομοιότητά τους με όλο το query  To query επεκτείνεται με τα m top ranked concepts με βαρύτητα 1-0.9*(i/m), I η θέση του concept στην κατάταξη των concepts

48 Automatic Global Analysis  Similarity thesaurus –Index terms, similarity query-index term  Statistical Thesaurus –Ομαδοποίηση κειμένων με κριτήριο το similarity –Επιλογή των όρων για κάθε ομάδα

49 Similarity thesaurus  Index terms = concepts  Αναζητείται η σχέση (similarity) μεταξύ των index terms μιας συλλογής κειμένων  Inverse term frequency itf j = log(t/t j ), t το πλήθος των όρων της συλλογής, t j το πλήθος των όρων ενός κειμένου d j  Με βάση τα itf υπολογίζονται οι βαρύτητες του κάθε όρου σε κάθε κείμενο  Κατασκευή term – document πίνακα με τιμές τις βαρύτητες των όρων στα κείμενα  Υπολογισμός similarity των όρων στα κείμενα: το εσωτερικό γινόμενο των γραμμών του παραπάνω πίνακα  Κατασκευή similarity thesaurus: ένας term-term πίνακας με τιμές τα similarities

50 Query Expansion με Similarity thesaurus  Προσδιορίζονται οι βαρύτητες των όρων του query, με τον ίδιο τρόπο που υπολογίζονται οι βαρύτητες των όρων στο θησαυρό  Υπολογισμός του similarity των όρων του θησαυρού k v με το query sim(q, k v )  Επιλέγονται για επέκταση οι top r ranked terms, σύμφωνα με το sim(q, k v )

51 Statistical Thesaurus  Ο θησαυρός απαρτίζεται από κλάσεις σχετικών όρων από τη συλλογή κειμένων  Απαίτηση: οι κλάσεις να έχουν μεγάλο βαθμό διαφορετικότητας (διακριτικότητας), έτσι ώστε να διακρίνονται εύκολα  Αυτή η ιδιότητα εξασφαλίζεται από όρους με χαμηλή συχνότητα εμφάνισης δηλ. πολύ ειδικούς όρους  Μέθοδος: –ομαδοποίηση (clustering) κειμένων –από τις ομάδες κειμένων επιλέγονται οι όροι με χαμηλή συχνότητα για τον καθορισμό των κλάσεων του θησαυρού

52 Ομαδοποίηση κειμένων: complete link algorithm  Αρχικά τοποθετείται κάθε κείμενο σε ένα ξεχωριστό cluster  Υπολογισμός σχετικότητας για κάθε ζευγάρι από clusters με τη χρήση του vector model και τη μέθοδο του συνημίτονου  Συγχώνευση του ζευγαριού των clusters με τη μεγαλύτερη ομοιότητα. Το νέο cluster που σχηματίζεται έχει ένα similarity value ίσο με το similarity των clusters που συγχωνεύθηκαν  Επανάληψη των παραπάνω δύο βημάτων μέχρι να μην υπάρχουν clusters για συγχώνευση  Αποτέλεσμα της διαδικασίας είναι μια ιεραρχία από ομάδες κειμένων

53 Επιλογή όρων θησαυρού  Επιλογή των clusters που θα χρησιμοποιηθούν –επιλέγονται οι clusters με similarity values μεγαλύτερες από ένα threshold  Επιλογή των κειμένων που θα ληφθούν υπ’ όψη από τους επιλεχθέντες clusters –χρήση threshold για το πλήθος των κειμένων των clusters που θα επεξεργαστούν  Επιλογή των όρων θησαυρού – για κάθε όρο από τα επιλεχθέντα κείμενα υπολογίζεται το Minimum inverse document frequency (MIDF) –επιλέγονται οι όροι με τιμές MIDF μικρότερες από ένα threshold

54 Query Expansion με Statistical thesaurus  Υπολογισμός της βαρύτητας κάθε όρου που ανήκει σε μια κλάση  Με βάση τον παραπάνω υπολογισμό υπολογίζεται η βαρύτητα της κάθε κλάσης  Επιλογή της κλάσης όρων που θα χρησιμοποιηθούν για query expansion

55 Web searching  Search Engines  Web directories  Hyperlink structure exploitation

56 Προβλήματα  Κατανεμημένα δεδομένα  Ασταθή δεδομένα  Μεγάλος όγκος δεδομένων  Ποιότητα  Ανομοιογενή δεδομένα - πολυμέσα

57 Search Engines  Διαφορά από IR: –Δεν γίνεται αναζήτηση σε κείμενα αλλά σε (κεντρικό) index  Indexing: inverted files User Interface Query Engine Crawler Indexer Index Web

58 Query Engine  Boolean, proximity, stemming, stop words –Alta-vista: ένωση σελίδων που περιλαμβάνουν τουλάχιστον ένα όρο –Hot Bot: ένωση σελίδων που περιλαμβάνουν ΟΛΟΥΣ τους όρους  Πολλές search engines με το ίδιο query engine (Magellan, Excite)

59 Ranking  Tf-idf model  Boolean spread: Επέκταση του boolean model 1.Πόσοι όροι ανήκουν σε κάθε σελίδα της απάντησης 2.Πόσοι όροι ανήκουν σε κάθε σελίδα στην οποία υπάρχουν links από τις σελίδες της απάντησης  Vector spread: Επέκταση του vector model υπολογίζοντας το similarity και με τις σελίδες στις οποίες υπάρχουν links από τις σελίδες της απάντησης  Most cited: μόνο όροι των σελίδων που έχουν links στις σελίδες της απάντησης  Web query: πόσο συνδεδεμένες είναι οι web pages  HITS: hubs & authorities

60 Crawling  Στόχος: ενημέρωση κεντρικού καταλόγου για νέες σελίδες  Περιοδική ενημέρωση (μέχρι 2 μήνες), ενημέρωση και από διαχειριστές των σελίδων  Τεχνικές: –Depth first: επέκταση σε βάθος ενός link –Breadth first: όλα τα links μιας σελίδας

61 Harvesting  Distributed architecture  Πλεονεκτήματα (μειονεκτήματα crawlers) –Επιβάρυνση λειτουργίας web servers –Κυκλοφοριακό πρόβλημα: ανάκτηση σελίδων, το περιεχόμενο «πετάγεται» –Ανεξαρτησία engines: χωρίς συντονισμό  Μειονεκτήματα: απαίτηση πολλών servers

62 Αρχιτεκτονική User Broker Replication Manager GathererWeb site Object cache

63 Brokers - Gatherers  Gatherers: συλλογή πληροφοριών σε τακτά χρονικά διαστήματα –Πληροφορίες σε πολλούς brokers –Τρέχει για ένα server (no traffic)  Brokers: User Interface και indexing από gatherers και brokers –Θεματικοί και Κεντρικοί brokers –Συνεργασία brokers (filtering)

64 Replicator - Cache  Replicator: –Αντιγραφή brokers ανάλογα με τη ζήτηση και το μέγεθος –Ανάθεση gatherers σε brokers  Object cache: –μείωση φόρτου server, κυκλοφορίας

65 Web directories - Browsing  Ιεραρχικές ταξινομήσεις ανθρώπινης γνώσης (Yahoo)  Πλεονέκτημα: Ακρίβεια ανάκτησης  Μειονέκτημα: ταξινόμηση  Συνδυασμός searching – browsing (WebGlimpse, επιτρέπει αναζήτηση στο site – page indexing)  Meta-searchers

66 Hyperlink searching  Web Query Languages –Συνδυασμός content με link structure  Software Agents –Ψάχνουν στα Web pages ακολουθώντας τα links –Heuristics για επιλογή προτεραιότητας σελίδων

67 Recommendation systems  Social recommendation ή collaborative filtering: –Relevance feedback by many users for information ranking  Μέθοδος: –k-nearest neighbors (case-based reasoning)  Εφαρμογές: –User actions prediction –User profile learning –Links evaluation – recommendation (Letizia, Syskil & Webert)

68 OPACs  1η γενεά –μικρές, non-stadard εγγραφές –αναζήτηση με τίτλο, συγγραφέα  2η γενεά –αναζήτηση με θεματικές κεφαλίδες, λέξεις - κλειδιά  3η γενεά –λεξιλόγιο αναζήτησης, –αυξημένης πληροφορίας εγγραφές, –GUI, Z39.50, metadata