Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση."— Μεταγράφημα παρουσίασης:

1 Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο

2 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις –ακριβής σημαντική (exact semantics) –απλός φορμαλισμός –q = ka  (kb   kc) To keyword είναι είτε παρόν είτε απόν wij  {0,1} Για παράδειγμα –q = ka  (kb   kc) –vec(qdnf) = (1,1,1)  (1,1,0)  (1,0,0) –vec(qcc) = (1,1,0) ένα conjunctive component

3 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 3 Boolean Μοντέλο q = ka  (kb   kc) sim(q,dj) = 1 if  vec(qcc) | (vec(qcc)  vec(qdnf))  (  ki, gi(vec(dj)) = gi(vec(qcc))) 0 otherwise (1,1,1) (1,0,0) (1,1,0) KaKb Kc

4 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 4 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα.

5 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 5 Μέθοδοι Υπολογισμού Ομοιότητας Μέθοδοι υπολογισμού ομοιότητας: μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ερώτημα Έγγραφα Ομοιότητα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα.

6 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 6 Χρήση Καταλόγων Ερώτημα ΈγγραφαΚατάλογος Μηχανισμός υπολογισμού ομοιότητας μεταξύ ερωτήματος και εγγράφων της συλλογής. Λίστα εγγράφων με σειρά βαθμού ομοιότητας

7 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 7 Το Βασικό Πρόβλημα Πρόβλημα: Πόσο μοιάζουν δύο έγγραφα; Ιδέα: Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d 1 ant ant bee d 2 dog bee dog hog dog ant dog d 3 cat gnu dog eel fox

8 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 8 Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο d j αναπαρίσταται ως διάνυσμα με συντεταγμένες w ij (όρος i, έγγραφο j). w ij = 1 αν ο i-οστός όρος εμφανίζεται στο d j w ij = 0 διαφορετικά

9 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 9 Διανυσματικό Μοντέλο: δυαδικά βάρη t1t1 t2t2 t3t3 d1d1 w 31 w 21 w 11 διάνυσμα εγγράφου

10 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 10 documenttextterms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dogant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog d d d w ij = 1 αν το d j περιέχει τον i-οστό όρο 3 διανύσματα 8 διαστάσεις Διανυσματικό Μοντέλο: δυαδικά βάρη

11 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 11 Ομοιότητα Εγγράφων t1t1 t2t2 t3t3 d1d1 d2d2  Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ.

12 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 12 Μαθηματικές Έννοιες x = (x 1, x 2, x 3,..., x n ) διάνυσμα στο χώρο των n διαστάσεων Μέτρο του x δίνεται με βάση το Πυθαγόρειο θεώρημα |x| 2 = x x x x n 2 Αν x 1 και x 2 είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x 1.x 2 = x 11 x 21 + x 12 x 22 + x 13 x x 1n x 2n Συνημίτονο γωνίας μεταξύ των διανυσμάτων x 1 and x 2: cos (  ) = x 1.x 2 |x 1 | |x 2 |

13 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 13 Παράδειγμα: δυαδικά βάρη ant bee cat dog eel fox gnu hog length d  2 d  4 d  5

14 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 14 Παράδειγμα: δυαδικά βάρη d 1 d 2 d 3 d d d Πίνακας ομοιότητα εγγράφων

15 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 15 Ομοιότητα Ερωτήματος-Εγγράφου t1t1 t2t2 t3t3 qd  Η ομοιότητα μεταξύ ενός ερωτήματος q και ενός εγγράφου d προσδιορίζεται πάλι με το συνημίτονο της μεταξύ τους γωνίας. Στην πράξη, ένα ερώτημα έχει πολύ μικρότερο μήκος από ένα έγγραφο

16 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 16 Ομοιότητα Ερωτήματος-Εγγράφου ant bee cat dog eel fox gnu hog q 1 1 d d d ερώτημα qant dog έγγραφαπεριεχόμεναδιαφορετικοί όροι d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dogant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu Ο πίνακας έχει μηδενικά στις υπόλοιπες θέσεις.

17 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 17 d 1 d 2 d 3 q 1/2 1/√2 1/√ Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς q είναι το d 2, μετά το d 1 και τέλος το d 3. Ομοιότητα Ερωτήματος-Εγγράφου

18 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 18 Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα q το σύστημα επιστρέφει τα k έγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q.

19 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 19 Μερικά Σύμβολα

20 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 20 Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών w ij. Μερικές από τις πληροφορίες αυτές είναι οι εξής: Το πλήθος των εγγράφων που περιέχουν τον όρο, Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, Το μήκος των εγγράφων. Γενίκευση: μη δυαδικά βάρη

21 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 21 Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο d j αναπαρίσταται ως διάνυσμα με συντεταγμένες w ij (όρος i, έγγραφο j). w ij > 0 αν ο i-οστός όρος εμφανίζεται στο d j w ij = 0 διαφορετικά Η τιμή w ij ορίζεται ως το βάρος του i-οστού όρου στο j-οστό έγγραφο.

22 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 22 Η γενική μορφή προσδιορισμού των βαρών w ij είναι: w ij = TF ij x IDF i Όπου TF ij είναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο. Ο παράγοντας IDF i εξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο t i. Προσδιορισμός Βαρών

23 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 23 Στη βιβλιογραφία έχουν προταθεί διάφοροι μαθηματικοί τύποι υπολογισμού των ποσοτήτων TF και IDF (και κατά συνέπεια των βαρών wij). Έστω, N συνολικός αριθμός εγγράφων ni αριθμός εγγράφων που περιέχουν τον όρο ti freq(i,j) συχνότητα εμφάνισης του όρου ti στο έγγραφο dj Ο κανονικοποιημένος παράγοντας μπορεί να υπολογιστεί ως: TFij = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλους τους όρους που περιέχονται στο dj O παράγοντας IDFi μπορεί να υπολογιστεί ως: IDFi = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Προσδιορισμός Βαρών

24 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 24 Προσδιορισμός Βαρών Εναλλακτικές μορφές του TF t,d

25 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 25 Προσδιορισμός Βαρών Εναλλακτικές μορφές του IDF t

26 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 26 Προσδιορισμός Βαρών Εναλλακτικές μορφές του L d, L q

27 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 27 Εναλλακτικές μορφές υπολογισμού ομοιότητας Προσδιορισμός Βαρών

28 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 28 Ένα Παράδειγμα Συγκεκριμένου Μοντέλου

29 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 29 Παράδειγμα Υπολογισμού Ομοιότητας Έστω το ερώτημα q = {κομήτης, Χάλεϋ} που αποτελείται από δύο όρους t 1 = κομήτης και t 2 = Χάλλεϋ Ενδιαφερόμαστε για το βαθμό ομοιότητας του ερωτήματος q με καθένα από τα έγγραφα της συλλογής εγγράφων D …

30 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 30 Παράδειγμα Υπολογισμού Ομοιότητας d 1 : Ο κομήτης του Χάλλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια. d 2 : Ο κομήτης του Χάλλεϋ πήρε το όνομά του από τον αστρονόμo Έντμοντ Χάλλεϋ. d 3 : Ένας κομήτης διαγράφει ελλειπτική τροχιά. d 4 : Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο και το Φόβο. d 5 : Ο πλανήτης Δίας έχει 63 γνωστούς φυσικούς δορυφόρους. d 6 : Ένας κομήτης έχει μικρότερη διάμετρο από ότι ένας πλανήτης. d 7 : Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος. Συλλογή εγγράφων

31 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 31 Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση εγγράφων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα έγγραφα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι οι όροι είναι ανεξάρτητοι μεταξύ τους (η εμφάνιση ενός όρου δεν επηρεάζει την εμφάνιση ενός άλλου), κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει γενικά. + και -

32 Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 32 Σύνοψη  Το διανυσματικό μοντέλο αποτελεί το πιο διαδεδομένο στα συστήματα ανάκτησης.  Βασίζεται στη διανυσματική αναπαράσταση των εγγράφων (κάθε έγγραφο είναι ένα διάνυσμα σε έναν d-διάσταστο χώρο, όπου d ο αριθμός των όρων).  Υπάρχουν πολλοί τρόποι προσδιορισμού των βαρών wij.  Η απόδοση της κάθε μεθόδου εξαρτάται από τη συλλογή που χρησιμοποιείται και από τα ερωτήματα.


Κατέβασμα ppt "Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο. Ανάκτηση ΠληροφορίαςΤμήμα Πληροφορικής ΑΠΘ 2 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google