Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο."— Μεταγράφημα παρουσίασης:

1 1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο

2 2 Ανάκτηση Πληροφορίας  ΠΩΣ εκφράζουμε ανάγκες πληροφόρησης (queries)  ΠΩΣ εντοπίζουμε και ανακτούμε πληροφορίες που ικανοποιούν τις ανάγκες  ΠΩΣ αξιολογούμε τα αποτελέσματα της αναζήτησης

3 3 Από την αρχή…Αφαίρεση  Ο πραγματικός κόσμος εκφράζεται από δεδομένα (data) που συλλέγονται από παρατηρήσεις του πραγματικού κόσμου  Οι ανάγκες πληροφόρησης (queries) εκφράζονται (εξαρτώνται) από τη δομή, τη λειτουργία και το περιεχόμενο του Πληροφοριακού συστήματος

4 4 Πληροφοριακό Σύστημα  Εισαγωγή δεδομένων  Εξαγωγή πληροφορίας  Πληροφορία = σύνολο δεδομένων που καλύπτουν μια ανάγκη πληροφόρησης (query)

5 5 Συστατικά Πληροφοριακού Συστήματος  Εσωτερικά συστατικά –μέσα (media) αποθήκευσης δεδομένων –συσκευές (devices) επεξεργασίας δεδομένων –αλγόριθμοι (algorithms)  Εξωτερικά –χρήστες (users) –χρηματοδότης (funder) –λειτουργοί (servers)

6 6 Μέτρα αξιολόγησης  Αποτελεσματικότητα (effectiveness, user)  Αποδοτικότητα (efficiency, server)  Οικονομικότητα (economy, funder)

7 7 Information Retrieval System InputInput Document classification Processor Search strategy Documents queries Output feedback

8 8 Information retrieval process Docs database DB manager Index User Interface Text Operations (tokenization, stopwords, stemming, etc.) Indexing Searching Ranking Query operations text user need query Retrieved docs user feedback ranked docs

9 9 Ανακεφαλαίωση IR = D: documents Q: queries F: πλαίσιο αναπαράστασης κειμένων R: συνάφεια query q i με κείμενο d j αριθμός  0-1

10 10 Ανάγκες, πληροφορίες = documents  Τι είναι documents?  Είναι documents τα queries? –Τα queries εκφράζονται σαν topics –Τα documents είναι πρότυπα για τα queries  Matching  queries = documents  Mapping  queries  documents

11 11 Κατηγορίες Documents  Δομημένα (structured) –εγγραφές, πεδία (Βάσεις Δεδομένων)  Πλήρως αδόμητα –ελεύθερο κείμενο  Προεπεξεργασία (pre-processing) –Metadata –Stemming

12 12 Παρελκόμενα  Document identifier  Ταξινομικό πεδίο  Λέξεις - φράσεις κλειδιά (keywords)  Περίληψη (abstract)  Εξαγωγές (extraction) - εκτός συγγραφέα  Ανασκοπήσεις (reviews)- εκτός συγγραφέα

13 13 Documents  Multilingual documents - searching –Character encoding (Unicode 16-bit)  Multimedia Documents –αναπαράσταση, περιγραφή, αναζήτηση (query) και ανάκτηση  Structured Documents –metadata descriptions  Distributed Collections –Federated search

14 14 Βασικό Παράδειγμα  Query: restaurants AND (Mideastern OR vegeterian) AND inexpensive  Απάντηση: κείμενα που περιλαμβάνουν τις λέξεις restaurants, Mideastern, inexpensive ή τις λέξεις restaurants, vegeterian, inexpensive

15 15 Restaurants Inexpensive Mideastern restaurants, mideastern, inexpensive Restaurants Inexpensive Vegeterian restaurants, vegetarian, inexpensive OR

16 16 Query Languages  Βοηθούν το χρήστη στην υποβολή ερωτημάτων και στην κατάταξη των αποτελεσμάτων (οι data retrieval γλώσσες δεν κάνουν ranking)  Πρωτόκολλα: γλώσσες που δεν απευθύνονται στο χρήστη αλλά χρησιμοποιούνται από συστήματα (π.χ. για υποβολή queries σε CD-ROM archive ή σε on- line databases, Ζ39.50, CCL, WAIS)  Δυνατότητες γλωσσών υποβολής ερωτημάτων: –Keywords (Single words, Context, boolean, natural language) –Pattern matching (Λέξεις, προθέματα, επιθέματα, διαχείριση λαθών, διαστήματα, τυπικές εκφράσεις και επεκτάσεις) –Structural queries (Forms, hypertext, hierarchical)

17 17 Keyword based querying (1/2)  Υποβολή απλών λέξεων  Υποβολή φράσεων  Μέτρηση εγγύτητας (proximity) Υποβάλλονται λέξεις ή φράσεις και μια μέγιστη επιτρεπτή απόσταση μεταξύ τους  Ερωτήματα σε φυσική γλώσσα – ερωτήματα και κείμενα μετατρέπονται σε διανύσματα όρων με βάρη για κάθε όρο –αναζήτηση κειμένων που «μοιάζουν» περισσότερο με τα ερωτήματα –«εξαγωγή» αντιπροσωπευτικών λέξεων – κλειδιών από τα ερωτήματα

18 18 Keyword based querying (2/2)  Boolean queries: αποτελούνται από – απλά queries (atoms) που ανακτούν κείμενα – boolean τελεστές (operators, AND, OR, NOT BUT) που εφαρμόζονται σε σύνολα κειμένων – Ορίζεται δέντρο ερωτήματος που τα φύλλα είναι στα queries και οι εσωτερικοί κόμβοι στους τελεστές –Παράδειγμα: μετάφραση AND (σύνταξη OR συντακτικό) μετάφραση AND OR σύνταξη συντακτικό

19 19 Αναγνώριση προτύπων (pattern matching) (1/3)  Αναζήτηση λεκτικών προτύπων (patterns) μέσα σε κείμενα  Τα πρότυπα συνδυάζονται μεταξύ τους με boolean operators για το σχηματισμό keyword queries  Substrings –π.χ. any flow  many flowers  Διαστήματα (ranges): αλφαβητική αναζήτηση λέξεων ανάμεσα σε ένα διάστημα από strings –π.χ. αναζήτηση σε λεξικά

20 20 Αναγνώριση προτύπων (2/3)  Ερωτήματα με λάθη (allowing errors): δίνεται string το οποίο μεταβάλλεται για να βρεθούν παρόμοιες λέξεις –Μεταβολή: εισαγωγή διαγραφή, αντικατάσταση γραμμάτων και θέσης τους –Threshold στις μεταβολές (edit distance): το ελάχιστο πλήθος των μεταβολών που απαιτούνται για να γίνουν ίδια δύο strings.  Τυπικές εκφράσεις (regular expressions): strings ή οι ακόλουθοι συνδυασμοί από strings: –Concatenation (σύζευξη) strings (τη λε)  τηλε –Union (εναλλακτική χρήση) (με|σε) –Επανάληψη ενός string e* –π.χ. pro (tein|blem) (ε|0|1|2)*  protein ή problem02, ε το κενό string

21 21 Αναγνώριση προτύπων (3/3)  Extended patterns –Classes of characters: συνδυασμός συνόλου χαρακτήρων ανάμεσα στις θέσεις ενός patterns (π.χ. εισαγωγή αριθμών στις θέσεις ενός pattern) –Wild characters (π.χ. τηλε*  τηλεόραση, τηλε-εκπαίδευση, τηλε-διάσκεψη κ.λπ.) –Conditional expressions: αναζήτηση ή όχι ενός μέρους από ένα pattern.

22 22 Structural queries (1/3)  Επιτρέπουν την αναζήτηση συνδυάζοντας το περιεχόμενο των documents με τη δομή τους  Forms –Τα documents είναι δομημένα σε πεδία που δεν επικαλύπτονται, ούτε είναι φωλιασμένα –Αναζήτηση patterns σε συγκεκριμένο πεδίο

23 23 Structural queries (2/3)  Υπερκείμενα –Κείμενα που έχουν συνδέσεις είτε μεταξύ τους σε συγκεκριμένα σημεία του κειμένου –Αναζητούνται patterns σε σελίδες ή σε γειτονικές τους  Ιεραρχική δομή –Αναζητούνται patterns σε συγκεκριμένες δομές –Οι δομές κωδικοποιούνται από tags (όπως στην HTML), τα οποία καθορίζουν περιοχές στο κείμενο –Οι περιοχές μπορεί να ακολουθούν η μία την άλλη, να είναι επικαλυπτόμενες, ή να είναι φωλιασμένες –Γίνεται indexing όχι μόνο στους όρους αλλά και στις περιοχές

24 24 Structural queries (3/3) Παράδειγμα ιεραρχικής δομής και ερωτήματος Κεφάλαιο 4 4.1 Εισαγωγή Σε αυτό το κεφάλαιο … 4.4 Δομημένα ερωτήματα κεφάλαιο παράγραφος τίτλος σχήμα Query: το σχήμα μιας παραγράφου με τίτλο «δομημένα»

25 25 Αξιολόγηση Ανάκτησης  Precision –Relevant answers (Ra)/ Total answers (A)  Recall –Relevant answers / Relevant documents Documents AR Ra

26 26 Παράδειγμα  Σε ένα ερώτημα q, τα σχετικά κείμενα είναι: d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123  Η μηχανή αναζήτησης επέστρεψε με σειρά σχετικότητας τα κείμενα: d 123, d 84, d 56, d 6, d 8, d 9, d 511, d 129, d 187, d 25, d 38, d 48, d 250, d 113, d 3  Ακρίβεια (precision) = Ra/A = 5/15= 33,3%  Ανάκληση (recall) = Ra/R = 5/10 = 50%

27 27 Καμπύλη ακρίβειας / ανάκλησης ΑπάντησηΑκρίβειαΑνάκληση 11/11/10 2 32/32/10 4 5 63/63/10 7 8 9 104/10 11 12 13 14 155/155/10

28 28 Αξιολόγηση ανάκτησης  Μέτρα συνδυασμού precision – recall –Μέσοι αρμονικοί –Άλλα στατιστικά  Μέτρα βασισμένα στο χρήστη –V σχετικά κείμενα, γνωστά στο χρήστη –R k,απαντημένα και γνωστά (A  V) –R u, απαντημένα και άγνωστα στο χρήστη –Κάλυψη αναγκών (coverage) χρήστη = |R k | / |V| –Καινοτομία (novelty) ποσοστό νέων σχετικών κειμένων = |R u | / (|R k | + |R u | )  Συλλογές κειμένων για αξιολόγηση μεθόδων –TREC –ISI

29 29 Αρχές Σχεδιασμού Interfaces  Offer informative feeback –relationship among retrieved documents –retrieved documents and collection metadata  Reduce working memory load –track the choices –return to abandoned strategies –suggestions of related terms, metadata  Alternative interfaces for novice and experts

30 30 Εξέλιξη  Command Lines and Boolean queries  Forms and menus  «Τμηματικά queries» και συνδυασμός τους  Φράσεις και απόσταση όρων  Ελεύθερο κείμενο

31 31 Context  Abstract  Query Term Hits within document –keyword-in-context  Query Term Hits between documents –υποσύνολα των όρων του query στα κείμενα  Hyperlinks και πίνακες για συσχέτιση αποτελεσμάτων

32 32 Web searching  Search Engines  Web directories  Hyperlink structure exploitation

33 33 Προβλήματα  Κατανεμημένα δεδομένα  Ασταθή δεδομένα  Μεγάλος όγκος δεδομένων  Ποιότητα  Ανομοιογενή δεδομένα - πολυμέσα

34 34 Search Engines  Διαφορά από IR: –Δεν γίνεται αναζήτηση σε κείμενα αλλά σε (κεντρικό) index  Indexing: inverted files User Interface Query Engine Crawler Indexer Index Web

35 35 Query Engine  Boolean, proximity, stemming, stop words –Alta-vista: ένωση σελίδων που περιλαμβάνουν τουλάχιστον ένα όρο –Hot Bot: ένωση σελίδων που περιλαμβάνουν ΟΛΟΥΣ τους όρους  Πολλές search engines με το ίδιο query engine (Magellan, Excite)

36 36 Crawling  Στόχος: ενημέρωση κεντρικού καταλόγου για νέες σελίδες  Περιοδική ενημέρωση (μέχρι 2 μήνες), ενημέρωση και από διαχειριστές των σελίδων  Τεχνικές: –Depth first: επέκταση σε βάθος ενός link –Breadth first: όλα τα links μιας σελίδας

37 37 Harvesting  Distributed architecture  Πλεονεκτήματα (μειονεκτήματα crawlers) –Επιβάρυνση λειτουργίας web servers –Κυκλοφοριακό πρόβλημα: ανάκτηση σελίδων, το περιεχόμενο «πετάγεται» –Ανεξαρτησία engines: χωρίς συντονισμό  Μειονεκτήματα: απαίτηση πολλών servers

38 38 Αρχιτεκτονική User Broker Replication Manager GathererWeb site Object cache

39 39 Brokers - Gatherers  Gatherers: συλλογή πληροφοριών σε τακτά χρονικά διαστήματα –Πληροφορίες σε πολλούς brokers –Τρέχει για ένα server (no traffic)  Brokers: User Interface και indexing από gatherers και brokers –Θεματικοί και Κεντρικοί brokers –Συνεργασία brokers (filtering)

40 40 Replicator - Cache  Replicator: –Αντιγραφή brokers ανάλογα με τη ζήτηση και το μέγεθος –Ανάθεση gatherers σε brokers  Object cache: –μείωση φόρτου server, κυκλοφορίας

41 41 Web directories - Browsing  Ιεραρχικές ταξινομήσεις ανθρώπινης γνώσης (Yahoo)  Πλεονέκτημα: Ακρίβεια ανάκτησης  Μειονέκτημα: ταξινόμηση  Συνδυασμός searching – browsing (WebGlimpse, επιτρέπει αναζήτηση στο site – page indexing)  Meta-searchers

42 42 Hyperlink searching  Web Query Languages –Συνδυασμός content με link structure  Software Agents –Ψάχνουν στα Web pages ακολουθώντας τα links –Heuristics για επιλογή προτεραιότητας σελίδων

43 43 Βιβλιογραφικά Συστήματα  Διαφορές από IR –Καταγωγή –Περιεχόμενο - δομή –Χρήστες  IR σε Βάσεις Δεδομένων Κειμένων  Διαφορές Παραγωγών - Πωλητών –Data - Search mechanisms

44 44 Βάσεις Δεδομένων  19ος αι.: Abstracting & indexing tools  Επιστημονικές εταιρίες - Κυβερνητικοί Οργανισμοί  Προϊόντα που καλύπτουν ανάγκες πληροφόρησης  Δομή και πλήρες κείμενο  CCL, Z39.50, ISO 8777, boolean & proximity operators, index, thesaurus, natural language

45 45 OPACs  1η γενεά –μικρές, non-stadard εγγραφές –αναζήτηση με τίτλο, συγγραφέα  2η γενεά –αναζήτηση με θεματικές κεφαλίδες, λέξεις - κλειδιά  3η γενεά –λεξιλόγιο αναζήτησης, –αυξημένης πληροφορίας εγγραφές, –GUI, Z39.50, metadata

46 46 Τυπικός ορισμός document  Λεξιλόγιο V, ελεγχόμενο (controlled) ή όχι  όροι w i,  document α  συχνότητα όρου w i στο α

47 47 Boolean model  Βασισμένο στη θεωρία συνόλων –Οι όροι του query συνδέονται με τους τελεστές AND, OR, NOT  Παράδειγμα: –Query: restaurants AND (Mideastern OR vegeterian) AND inexpensive –Απάντηση: κείμενα που περιλαμβάνουν τις λέξεις restaurants, Mideastern, inexpensive ή τις λέξεις restaurants, vegeterian, inexpensive

48 48 Restaurants Inexpensive Mideastern restaurants, mideastern, inexpensive Restaurants Inexpensive Vegeterian restaurants, vegetarian, inexpensive OR

49 49 Boolean model (συνέχεια)  Το query μεταγράφεται σε κανονική διαζευκτική μορφή  Similarity query - documents: όταν τουλάχιστον μία συνιστώσα της κανονικής διαζευκτικής μορφής του query form ταυτίζεται με ένα document –Τιμές similarity 0 ή 1  Παράδειγμα: –q = k a  (k b  ¬ K c )  (1,1,1)  (1,1,0)  (1,0,0) –d = (0,1,0) –Similarity = 0 q = k a  (k b  ¬ K c )  DNF= (k a  k b )  (k a  ¬ K c )  (1,1,1)  (1,1,0)  (1,0,0)

50 50 Disjunctive normal form kaka kbkb KcKc ¬ K c ka kbka kb k a  ¬ K c (k a  k b )  (k a  ¬ K c ) 1110101 1101111 1010000 1001011 0110000 0101000 0010000 0001000 q = k a  (k b  ¬ K c )  DNF= (k a  k b )  (k a  ¬ K c )  (1,1,1)  (1,1,0)  (1,0,0) Το query μεταγράφεται σε Disjunctive normal form (συνιστώσα είναι όπου υπάρχει αληθής τιμή στον πίνακα αληθείας)

51 51 Μειονεκτήματα Boolean model  Δεν ορίζεται η Αξία κάθε όρου  Σειρά εμφάνισης του κάθε όρου  Ο παράγοντας NOT  Δυσκολία σύνταξης boolean expressions  Data retrieval και όχι information retrieval  Δεν προβλέπει –Ranking –Partial match  Επιστρέφει είτε πολύ λίγα είτε πάρα πολλά

52 52 Vector Model (1/2)  Similarity: Συνημίτονο γωνίας δύο documents d k, d j  Υπολογίζεται από το εσωτερικό γινόμενο των διανυσμάτων των documents

53 53 Vector model (2/2)  Επιλογή με κατώφλι (threshold) στο βαθμό ομοιότητας (similarity)  Πρόβλημα η μέτρηση των συχνοτήτων των όρων: αντιπροσωπευτική μέτρηση της βαρύτητας των όρων

54 54 Πλεονεκτήματα - μειονεκτήματα  Πλεονεκτήματα –Κατάταξη – αξιολόγηση κειμένων με βάση τους όρους τους –Partial matching –Καλύτερη απόδοση  Μειονέκτηματα –Θεώρηση ανεξαρτησίας των index terms –Οι όροι που λείπουν

55 55 TFIDF Model  N documents, n i πλήθος documents με τον όρο k i, freq ij η συχνότητα του όρου στο document d j.  Term frequency  Inverse document frequency  Term weighting: tf * idf

56 56 Πλεονεκτήματα – μειονεκτήματα  Καλύτερη απόδοση  Προσέγγιση partial matching  Ranking με βάση την τιμή του συνημίτονου  Μειονέκτημα: θεώρηση ότι οι index terms είναι ανεξάρτητοι

57 57 Web search engines Ranking  Tf-idf model  Boolean spread: Επέκταση του boolean model 1.Πόσοι όροι ανήκουν σε κάθε σελίδα της απάντησης 2.Πόσοι όροι ανήκουν σε κάθε σελίδα στην οποία υπάρχουν links από τις σελίδες της απάντησης  Vector spread: Επέκταση του vector model υπολογίζοντας το similarity και με τις σελίδες στις οποίες υπάρχουν links από τις σελίδες της απάντησης  Most cited: μόνο όροι των σελίδων που έχουν links στις σελίδες της απάντησης  Web query: πόσο συνδεδεμένες είναι οι web pages  HITS: hubs & authorities

58 58 Η έννοια της ομαδοποίησης κειμένων (document clustering)  Συλλογή C από κείμενα (index terms)  Query: Σύνολο Α από index terms  Ποια κείμενα ανήκουν στο Α: –Ποια χαρακτηριστικά στοιχεία περιγράφουν τους όρους του Α (intra – cluster similarity, tf) –Ποια χαρακτηριστικά στοιχεία διακρίνουν τα μέλη του Α (inter-cluster similarity, idf)

59 59 Latent Semantic Indexing  Στόχος: –Η απεικόνιση του πίνακα documents-terms σε ένα μικρότερων διαστάσεων πίνακα που αντιστοιχεί σε έννοιες (concepts)  Όχι λεξική ομοιότητα αλλά εννοιολογική  Μαθηματικά πολύπλοκο μοντέλο  Πολύ καλές αποδόσεις

60 60 Άλλα μοντέλα  Θεωρία συνόλων –Fuzzy set  Αλγεβρικά –Generalised Vector model –Neural networks  Θεωρία Πιθανοτήτων –Bayesian networks –Inference networks –Belief networks

61 61 Τεχνικές Βελτίωσης (expansion) Query  Ο χρήστης υποδεικνύει τα σχετικά κείμενα (User relevance feedback)  Χωρίς ανάμιξη του χρήστη –Πληροφορίες από τα επιστραφέντα κείμενα (automatic local analysis) –Πληροφορίες από τη συλλογή κειμένων (automatic global analysis)

62 62 User Relevance Feedback (1/2)  Ο χρήστης αξιολογεί τα επιστραφέντα κείμενα (relevant, non-relevant clusters)  Υπόθεση: τα σχετικά κείμενα έχουν «παρόμοιους όρους»  Στόχος: Τροποποίηση του ερωτήματος με συναφείς όρους  Τεχνικές: –query expansion, –term reweighting

63 63 User Relevance Feedback (2/2)  query expansion –αναζήτηση εκείνου του query vector που διακρίνει καλύτερα τα relevant από τα irrelevant documents –Χρησιμοποιείται στο vector model.  term reweighting –αναπροσδιορισμός των συντελεστών βαρύτητας στους όρους του query –Χρησιμοποιείται στα vector και probabilistic models

64 64 Automatic Global Analysis  Similarity thesaurus –Index terms, similarity query-index term  Statistical Thesaurus –Ομαδοποίηση κειμένων με κριτήριο το similarity –Επιλογή των όρων για κάθε ομάδα

65 65 Relevance feedback interfaces  Σημαντικά σε επίπεδο στρατηγικής  Συστατικό collaborative filtering  Interface: –Check the relevant –Select a value  Πρόβλημα: 2ο judgment –Λύση: more links

66 66 Recommendation systems  Social recommendation ή collaborative filtering: –Relevance feedback by many users for information ranking  Μέθοδος: –k-nearest neighbors (case-based reasoning)  Εφαρμογές: –User actions prediction –User profile learning –Links evaluation – recommendation (Letizia, Syskil & Webert)


Κατέβασμα ppt "1 Ανάκτηση Πληροφοριών Χρήστος Παπαθεοδώρου Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google