Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
Κατηγορηματικός Λογισμός
Ανάδραση Σχετικότητας (Relevance Feedback ή RF)
Αποτελέσματα Μελέτης για το Μέγαρο Πολιτισμού Κύπρου Ετοιμάστηκε για την Εταιρεία KPMG Από την Εταιρεία RAI Consultants Public Ltd Μάρτιος 2008.
Μετά από έρευνα που διενήργησε εταιρεία ερευνών, διαπιστώθηκε πως στην εταιρεία μας οι εργαζόμενοι χρησιμοποιούν μεταξύ τους ένα λεξιλόγιο κάπως ανάρμοστο.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Βασικές Συναρτήσεις Πινάκων
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Ασκήσεις Συνδυαστικής
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
Ημερομηνία: 13/12/2006 Τμήμα: Πληροφορικής του Ιονίου Πανεπιστημίου
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Ο Αντεστραμμένος Κατάλογος
Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181)
Δρ. Παναγιώτης Συμεωνίδης
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
Τμήμα Πληροφορικής ΑΠΘ
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
Κώστας Διαμαντάρας Τμήμα Πληροφορικής ΤΕΙ Θεσσαλονίκης 2011 Συστολικοί επεξεργαστές.
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Β΄ ΓΕΛ ΕισΑρχΕπ Η/Υ παρ – 2.2.5
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
ΣΤΟΙΧΕΙΑ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΛΟΓΙΣΜΟΥ
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Βάσεις Δεδομένων II Διαχείριση Δοσοληψιών Πάνος Βασιλειάδης Σεπτέμβρης 2002
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
Ηλεκτρονική Ενότητα 5: DC λειτουργία – Πόλωση του διπολικού τρανζίστορ
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Γράφοι: Προβλήματα και Αλγόριθμοι
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
Συνδυαστικά Κυκλώματα
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
Ενότητα Α.4. Δομημένος Προγραμματισμός
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακός Λογισμός.
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Διαχείριση Συναλλαγών Πάνος Βασιλειάδης Μάρτιος 2014
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
8 MRB, Συλλογή στοιχείων: 24 Νοεμβρίου έως 5 Δεκεμβρίου 2005 Θεσμοί/ Οργανισμοί 1 8 ΘΕΣΜΟΙ /ΟΡΓΑΝΙΣΜΟΙ (Βαθμός επιρροής, Αναγκαιότητα επιρροής, Βαθμός.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες:
Κλασσικά Μοντέλα Ανάκτησης Πληροφορίας Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley,
1 Βάσεις Δεδομένων ΙI Επιμέλεια: ΘΟΔΩΡΗΣ ΜΑΝΑΒΗΣ SQL (3 από 3) T Manavis.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αγγελική Γεωργιάδου- Αναστασία Πεκτέσογλου Δράμα 2006
Μοντελοποίηση Μοντέλα IR που έχουν προταθεί και χρησιμοποιούνται από υπάρχοντα συστήματα.
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Μεταγράφημα παρουσίασης:

Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική (exact semantics) απλός φορμαλισμός q = ka  (kb  kc) To keyword είναι είτε παρόν είτε απόν wij  {0,1} Για παράδειγμα vec(qdnf) = (1,1,1)  (1,1,0)  (1,0,0) vec(qcc) = (1,1,0) ένα conjunctive component Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Boolean Μοντέλο q = ka  (kb  kc) sim(q,dj) = 1 if  vec(qcc) | (vec(qcc)  vec(qdnf))  (ki, gi(vec(dj)) = gi(vec(qcc))) 0 otherwise (1,1,1) (1,0,0) (1,1,0) Ka Kb Kc Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Μέθοδοι Υπολογισμού Ομοιότητας Μέθοδοι υπολογισμού ομοιότητας: μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ομοιότητα Ερώτημα Έγγραφα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Χρήση Καταλόγων Κατάλογος Έγγραφα Ερώτημα Μηχανισμός υπολογισμού ομοιότητας μεταξύ ερωτήματος και εγγράφων της συλλογής. Λίστα εγγράφων με σειρά βαθμού ομοιότητας Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Το Βασικό Πρόβλημα Πρόβλημα: Πόσο μοιάζουν δύο έγγραφα; Ιδέα: Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d1 ant ant bee d2 dog bee dog hog dog ant dog d3 cat gnu dog eel fox Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). wij = 1 αν ο i-οστός όρος εμφανίζεται στο dj wij = 0 διαφορετικά Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Διανυσματικό Μοντέλο: δυαδικά βάρη t3 διάνυσμα εγγράφου d1 w31 t2 w11 w21 t1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Διανυσματικό Μοντέλο: δυαδικά βάρη document text terms d1 ant ant bee ant bee d2 dog bee dog hog dog ant dog ant bee dog hog d3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog d1 1 1 d2 1 1 1 1 d3 1 1 1 1 1 3 διανύσματα 8 διαστάσεις wij = 1 αν το dj περιέχει τον i-οστό όρο Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Ομοιότητα Εγγράφων t3 Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ. d1 d2 t2  t1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Μαθηματικές Έννοιες x = (x1, x2, x3, ..., xn) διάνυσμα στο χώρο των n διαστάσεων Μέτρο του x δίνεται με βάση το Πυθαγόρειο θεώρημα |x|2 = x12 + x22 + x32 + ... + xn2 Αν x1 και x2 είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x1.x2 = x11x21 + x12x22 + x13x23 + ... + x1nx2n Συνημίτονο γωνίας μεταξύ των διανυσμάτων x1 and x2: cos () = x1.x2 |x1| |x2| Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Παράδειγμα: δυαδικά βάρη ant bee cat dog eel fox gnu hog length d1 1 1 2 d2 1 1 1 1 4 d3 1 1 1 1 1 5 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Παράδειγμα: δυαδικά βάρη Πίνακας ομοιότητα εγγράφων d1 d2 d3 d1 1 0.71 0 d2 0.71 1 0.22 d3 0 0.22 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Ομοιότητα Ερωτήματος-Εγγράφου t3 Η ομοιότητα μεταξύ ενός ερωτήματος q και ενός εγγράφου d προσδιορίζεται πάλι με το συνημίτονο της μεταξύ τους γωνίας. Στην πράξη, ένα ερώτημα έχει πολύ μικρότερο μήκος από ένα έγγραφο q d t2  t1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Ομοιότητα Ερωτήματος-Εγγράφου ερώτημα q ant dog έγγραφα περιεχόμενα διαφορετικοί όροι d1 ant ant bee ant bee d2 dog bee dog hog dog ant dog ant bee dog hog d3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog q 1 1 d1 1 1 d2 1 1 1 1 d3 1 1 1 1 1 Ο πίνακας έχει μηδενικά στις υπόλοιπες θέσεις. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Ομοιότητα Ερωτήματος-Εγγράφου d1 d2 d3 q 1/2 1/√2 1/√10 0.5 0.71 0.32 Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς q είναι το d2, μετά το d1 και τέλος το d3. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα q το σύστημα επιστρέφει τα k έγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Μερικά Σύμβολα Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Γενίκευση: μη δυαδικά βάρη Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών wij. Μερικές από τις πληροφορίες αυτές είναι οι εξής: Το πλήθος των εγγράφων που περιέχουν τον όρο, Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, Το μήκος των εγγράφων. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). wij > 0 αν ο i-οστός όρος εμφανίζεται στο dj wij = 0 διαφορετικά Η τιμή wij ορίζεται ως το βάρος του i-οστού όρου στο j-οστό έγγραφο. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Η γενική μορφή προσδιορισμού των βαρών wij είναι: wij = TFij x IDFi Όπου TFij είναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο. Ο παράγοντας IDFi εξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο ti. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Στη βιβλιογραφία έχουν προταθεί διάφοροι μαθηματικοί τύποι υπολογισμού των ποσοτήτων TF και IDF (και κατά συνέπεια των βαρών wij). Έστω, N συνολικός αριθμός εγγράφων ni αριθμός εγγράφων που περιέχουν τον όρο ti freq(i,j) συχνότητα εμφάνισης του όρου ti στο έγγραφο dj Ο κανονικοποιημένος παράγοντας μπορεί να υπολογιστεί ως: TFij = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλους τους όρους που περιέχονται στο dj O παράγοντας IDFi μπορεί να υπολογιστεί ως: IDFi = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Εναλλακτικές μορφές του TFt,d Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Εναλλακτικές μορφές του IDFt Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Εναλλακτικές μορφές του Ld, Lq Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Προσδιορισμός Βαρών Εναλλακτικές μορφές υπολογισμού ομοιότητας Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Ένα Παράδειγμα Συγκεκριμένου Μοντέλου Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Παράδειγμα Υπολογισμού Ομοιότητας Έστω το ερώτημα q = {κομήτης, Χάλεϋ} που αποτελείται από δύο όρους t1 = κομήτης και t2 = Χάλλεϋ Ενδιαφερόμαστε για το βαθμό ομοιότητας του ερωτήματος q με καθένα από τα έγγραφα της συλλογής εγγράφων D … Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Παράδειγμα Υπολογισμού Ομοιότητας Συλλογή εγγράφων d1 : Ο κομήτης του Χάλλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια. d2 : Ο κομήτης του Χάλλεϋ πήρε το όνομά του από τον αστρονόμo Έντμοντ Χάλλεϋ. d3 : Ένας κομήτης διαγράφει ελλειπτική τροχιά. d4 : Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο και το Φόβο. d5 : Ο πλανήτης Δίας έχει 63 γνωστούς φυσικούς δορυφόρους. d6 : Ένας κομήτης έχει μικρότερη διάμετρο από ότι ένας πλανήτης. d7 : Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ + και - Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση εγγράφων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα έγγραφα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι οι όροι είναι ανεξάρτητοι μεταξύ τους (η εμφάνιση ενός όρου δεν επηρεάζει την εμφάνιση ενός άλλου), κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει γενικά. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Σύνοψη Το διανυσματικό μοντέλο αποτελεί το πιο διαδεδομένο στα συστήματα ανάκτησης. Βασίζεται στη διανυσματική αναπαράσταση των εγγράφων (κάθε έγγραφο είναι ένα διάνυσμα σε έναν d-διάσταστο χώρο, όπου d ο αριθμός των όρων). Υπάρχουν πολλοί τρόποι προσδιορισμού των βαρών wij. Η απόδοση της κάθε μεθόδου εξαρτάται από τη συλλογή που χρησιμοποιείται και από τα ερωτήματα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ