Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάκτηση Πληροφορίας Φροντιστήριο 8 Καφέζα Ευανθία Δεκέμβριος 2011.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάκτηση Πληροφορίας Φροντιστήριο 8 Καφέζα Ευανθία Δεκέμβριος 2011."— Μεταγράφημα παρουσίασης:

1 Ανάκτηση Πληροφορίας Φροντιστήριο 8 Καφέζα Ευανθία Δεκέμβριος 2011

2 Περιεχόμενα Εξατομίκευση Μηχανών Αναζήτησης 2

3 Εναλλακτικά Πιθανοτικά Μοντέλα 3

4 4 Πιθανοτικά Μοντέλα Δυο μοντέλα ▫Bayesian Network ▫Inference Network ▫Belief Network

5 5 Bayesian Networks Χρησιμοποιούν διαφορετικές πηγές πληροφορίας για να αποδείξουν κάτι: ▫Παλιές ερωτήσεις ▫Διαφορετικές μορφές δεικτοδότησης Ένα Bayesian Network είναι ένας κατευθυνόμενος γράφος χωρίς κύκλους (DAG) όπου οι κόμβοι είναι τυχαίες μεταβλητές, οι ακμές δηλώνουν συσχέτιση μεταξύ των μεταβλητών, και η ισχύς μίας συσχέτισης δηλώνεται με υπό συνθήκη πιθανότητες.

6 6 Bayesian Networks Βασικά αξιώματα: 0 < P(A) < 1 ; P(sure)=1; P(A V B)=P(A)+P(B) αν τα A και B είναι αμοιβαία αποκλειόμενα

7 7 Bayesian Networks yi : parent nodes x : child node To yi προκαλεί το x Y σύνολο γονέων του x Η επίδραση του Y στο x εκφράζεται με τη σχέση F(x,Y) έτσι ώστε Σ F(x,Y) = 1 0 < F(x,Y) < 1 για κάθε χ Για παράδειγμα, F(x,Y)=P(x|Y)

8 8 Bayesian Networks P(X 1, X 2, X 3, X 4, X 5 ) = P(X 1 )P(X 2 |X 1 )P(X 3 |X 1 )P(X 4 |X 2,X 3 )P(X 5 |X 3 ), Όπου Ρ(Χ1) η αρχική πιθανότητα του αρχικού κόμβου του δικτύου και μπορεί να χρησιμοποιηθεί για την διαμόρφωση της γνώσης πάνω στη σημασιολογία της εφαρμογής. Από τις εξαρτήσεις του Bayesian Network, η κοινή πιθανότητα μπορεί να υπολογιστεί ως γινόμενο τοπικών υπό συνθήκη πιθανοτήτων.

9 9 Bayesian Networks Σε ένα Bayesian Network κάθε τυχαία μεταβλητή x είναι υπό συνθήκη ανεξάρτητη από τους μη απογόνους Για παράδειγμα: P(Χ4, Χ5| Χ2, Χ3)= P(Χ4| Χ2, Χ3)P( Χ5| Χ3)

10 Παράδειγμα Bayesian Network

11 11 Inference Network Model Επιστημολογική αντιμετώπιση του προβλήματος ανάκτησης πληροφορίας Τυχαίες μεταβλητές που σχετίζονται με κείμενα, index terms και ερωτήματα των χρηστών Μία τυχαία μεταβλητή που σχετίζεται με το κείμενο dj δηλώνει το γεγονός να παρατηρήσουμε αυτό το κείμενο

12 12 Inference Network Model Κόμβοι documents (dj) index terms (ki) queries (q, q1, και q2) ανάγκη πληροφορίας (I) Ακμές από dj σε index term nodes ki δηλώνουν ότι η παρατήρηση του dj αυξάνει την πίστη μας για τις μεταβλητές ki

13 13 Inference Network Model dj έχει k2, ki, και kt dj έχει k2, ki, και kt q έχει k1, k2, και ki q έχει k1, k2, και ki q1=((k1 ^ k2) v ki) q1=((k1 ^ k2) v ki) I = (q v q1) I = (q v q1) Η τυχαία μεταβλητή σχετίζεται με το ερώτημα ενός χρήστη καθορίζει πως η αιτούμενη πληροφορία έχει παρουσιαστεί.σχετίζεται με το ερώτημα ενός χρήστη καθορίζει πως η αιτούμενη πληροφορία έχει παρουσιαστεί. είναι κόμβος και η πίστη σε αυτή είναι μια συνάρτηση για την πίστη στους κόμβους που σχετίζονται με τους όρους του ερωτήματος.είναι κόμβος και η πίστη σε αυτή είναι μια συνάρτηση για την πίστη στους κόμβους που σχετίζονται με τους όρους του ερωτήματος.

14 14 Inference Network Model k 1, d j,, και q τυχαίες μεταβλητές. k=(k 1, k 2,...,k t ) διάνυσμα με t διαστάσεις k i,  i  {0, 1}, τότε k έχει 2 t δυνατές καταστάσεις d j,  j  {0, 1};  q  {0, 1} Ο βαθμός ενός κειμένου d j υπολογίζεται ως P(q  d j )

15 15 Inference Network Model P(q  d j )=   k P(q  d j | k) P(k) =   k P(q  d j  k) =   k P(q | d j  k) P(d j  k) =   k P(q | k) P(k | d j ) P( d j ) P(¬(q  d j )) = 1 - P(q  d j ) Η αμεσότητα ενός κόμβου dj χωρίζει τα παιδιά του (Index terms) ki κάνοντας τα ανεξάρτητα. η πίστη σε κάθε κόμβο ενός index term μπορεί να υπολογιστεί μεμονωμένα για ένα συγκεκριμένο dj.

16 16 Inference Network Model Η εκ των προτέρων πιθανότητα P(dj) δείχνει πόσο πιθανό είναι να παρατηρήσουμε ένα κείμενο dj Υπολογισμός: Ενιαία για N κείμενα P(dj) = 1/N P(¬dj) = 1 - 1/N Βάσει της νόρμας του διανύσματος dj P(dj)= 1/|dj| P(¬dj) = 1 - 1/|dj|

17 17 Inference Network Model Για το Boolean Model P(dj) = 1/N P(ki | dj) = 1 αν gi(dj)=1 ή P(ki | dj) = 0 αλλιώς P(¬ki | dj) = 1 - P(ki | dj) μόνο οι κόμβοι που συνδέονται με τα index terms του κειμένου dj ενεργοποιούνται

18 18 Belief Network Model Όπως και στο Inference Network Model ▫Επιστημολογική προσέγγιση ▫Τυχαίες μεταβλητές αντιστοιχούν σε κείμενα, index terms και ερωτήματα Αντίθετα με το Inference Network Model ▫Καλά ορισμένος δειγματοχώρος ▫Συνολοθεωρητική άποψη ▫Διαφορετική τοπολογία δικτύου

19 19 Belief Network Model Ο Χώρος Πιθανοτήτων Ορισμός: K={k1, k2,...,kt} ο δειγματοχώρος (χώρος εννοιών) u ένα υποσύνολο του K (μία έννοια) ki ένας index term (μία στοιχειώδης έννοια) k=(k1, k2,...,kt) ένα διάνυσμα που συνδέεται με κάθε u ki μία δυαδική τυχαία μεταβλητή που συνδέεται με ένα index term ki

20 20 Belief Network Model Συνολοθεωρητική Προσέγγιση Ορισμοί: ▫ένα κείμενο dj και μία ερώτηση q ως έννοιες στο K ▫μία γενική έννοια c στο K ▫μία κατανομή πιθανότητας P στο K P(c)=   u P(c|u) P(u) P(u)=(1/2) t ▫Το P(c) είναι ο βαθμός κάλυψης του χώρου K από το c

21 21 Belief Network Model query side document side

22 22 Belief Network Model Υπόθεση P(dj|q) είναι ο βαθμός σχετικότητας του κειμένου dj ως προς το ερώτημα q. Δείχνει το βαθμό κάλυψης στην έννοια dj από την έννοια q.

23 23 Belief Network Model Σύγκριση Inference Network Model το πρώτο που εμφανίστηκε Belief Network συνολοθεωρητική άποψη Belief Network καθορισμένος δειγματοχώρος Belief Network διαχωρισμός στοιχείων ερωτήματος και στοιχείων κειμένου Belief Network αναπαράγει κάθε βαθμολόγηση που παράγει το Inference Network ενώ το αντίθετο δεν ισχύει

24 24 Belief Network Model Υπολογιστικό Κόστος ▫Το Inference Network Model επεξεργάζεται ένα κείμενο τη φορά, και το κόστος επεξεργασίας είναι γραμμικό ως προς τον αριθμό των κειμένων ▫Στο Belief Network, επεξεργάζονται μόνο οι καταστάσεις που ενεργοποιούν τα query terms ▫Επειδή στα δίκτυα αυτά δεν υπάρχουν κύκλοι δεν έχουμε άλλο υπολογιστικό κόστος

25 Εξατομίκευση Μηχανών Αναζήτησης 25

26 26 Εισαγωγή Εξατομίκευση : Προσαρμογή της σελίδας ή των αποτελεσμάτων που μας εμφανίζει μια μηχανή αναζήτησης με βάση την προηγούμενη συμπεριφορά του χρήστη. Καταγράφονται οι προηγούμενες ενέργειες του χρήστη και στη συνέχεια χρησιμοποιούνται για να προσαρμοστούν τα δεδομένα που του εμφανίζονται.

27 27 Εισαγωγή Εξατομίκευση Μηχανών Αναζήτησης : Καταγράφουμε τα ερωτήματα που κάνει ο χρήστης και τα αποτελέσματα που επιλέγει και με βάση αυτά προσαρμόζουμε τα αποτελέσματα που του εμφανίζουμε στα επόμενα ερωτήματα. Η διαδικασία αυτή περιλαμβάνει μια σειρά από βήματα στα οποία ξεχωρίζουν η καταγραφή της συμπεριφοράς του χρήστη και ο αλγόριθμος εξατομίκευσης.

28 28 Καταγραφή Συμπεριφοράς Καταγραφή συμπεριφοράς του χρήστη : Σημαίνει ότι ο χρήστης καθώς πλοηγείται και βλέπει αποτελέσματα υπάρχει ένα σύστημα προσαρμοσμένο που καταγράφει όλες τις λειτουργίες που έχει κάνει. Λειτουργίες Που έχει κάνει ? 1. Ποια ερωτήματα έκανε. 2. Ποια αποτελέσματα διάλεξε. 3. Με ποια σειρά τα διάλεξε και τι σειρά είχαν στην μηχανή αναζήτησης. 4. Κτλ.

29 29 Καταγραφή Συμπεριφοράς Πως μπορεί να καταγραφεί η συμπεριφορά του χρήστη? 1.Με ένα πρόσθετο στον Internet Explorer ή στο Firefox. Με τον τρόπο αυτό μπορούμε καθώς πλοηγούμαστε να καταγράφεται συμπεριφορά μας χωρίς να χρειάζεται να αλλάξουμε κάτι στον τρόπο που λειτουργούμε. 2.Κατασκευάζοντας εφαρμογή που χρησιμοποιεί το Google API και υλοποιώντας από πίσω ένα σύστημα που καταγράφει τι έκανε ο χρήστης.

30 30 Πρόσθετο στον Internet Explorer ή Firefox Κατασκευή συστήματος εξατομίκευσης που αποτελείται από δυο βασικές εφαρμογές, την εφαρμογή του χρήστη και την εφαρμογή του εξυπηρετητή. Η εφαρμογή του χρήστη είναι αρμόδια για την καταγραφή της συμπεριφοράς του χρήστη και την εμφάνιση της νέας κατάταξης των αποτελεσμάτων για ένα ερώτημα. Η εφαρμογή του εξυπηρετητή αποθηκεύει την συμπεριφορά κάθε χρήστη, κατασκευάζει το εξατομικευμένο δένδρο της συμπεριφοράς (υλοποιώντας τους αλγορίθμους εξατομίκευσης) και υπολογίζει την καινούργια κατάταξη των αποτελεσμάτων μιας ερώτησης.

31 31 Πρόσθετο στον Internet Explorer ή Firefox Κάθε φορά που ο χρήστης επιθυμεί να κάνει εξατομίκευση σε μια ερώτηση, δηλαδή να δει τα εξατομικευμένα αποτελέσματα της ερώτησης που βρίσκεται, η εφαρμογή του χρήστη επικοινωνεί με την εφαρμογή του εξυπηρετητή και ζητάει την νέα εξατομικευμένη κατάταξη των αποτελεσμάτων της ερώτησης. Στην συνέχεια η εφαρμογή του χρήστη αλλάζει την σειρά των αποτελεσμάτων και την εμφανίζει σύμφωνα με τη σειρά που στάλθηκε από τον εξυπηρετητή.

32 32 Πρόσθετο στον Internet Explorer ή Firefox Η εφαρμογή του χρήστη περιλαμβάνει ένα σύστημα εξατομίκευσης στον Internet Explorer που υλοποιεί όλες τις λειτουργίες που χρειάζονται και εμφανίζεται παρακάτω. Η εφαρμογή του εξυπηρετητή υλοποιείται από ένα Web Service που καλείται από την εφαρμογή του χρήστη και υλοποιεί τις λειτουργίες που περιγράψαμε παραπάνω.

33 33 Κατασκευάζοντας εφαρμογή που χρησιμοποιεί το Google API Κατασκευή εφαρμογής που συνδέεται στο Google API και κάνει ερωτήματα σε αυτό. Το Google API μας επιστρέφει τα αποτελέσματα για το ερώτημα που κάναμε και εμείς τα εμφανίζουμε. Καθώς ο χρήστης πλοηγείται στην εφαρμογή μας καταγράφουμε τα αποτελέσματα που επιλέγει και στην συνέχεια τα αποθηκεύουμε. Δίνουμε στον χρήστη την δυνατότητα να εξατομικεύσει τα αποτελέσματά του χρησιμοποιώντας κάποιον από τους αλγόριθμους εξατομίκευσης.

34 34 Αλγόριθμοι Εξατομίκευσης Οι αλγόριθμοι εξατομίκευσης προσπαθούν να εκμεταλλευθούν τα χαρακτηριστικά της πληροφορίας που έχουμε ασχοληθεί σε προηγούμενες ερωτήσεις για να προβλέψουν κατά κάποιο τρόπο τι θα μας ενδιαφέρει στις επόμενες ερωτήσεις. Ένα πολύ σημαντικό στοιχείο που μπορούμε να εξάγουμε από προηγούμενες ερωτήσεις είναι η κατηγορία της σελίδας που διάλεξε πιο πριν ο χρήστης. Πως γίνεται αυτό? Χρησιμοποιώντας το Open Directory Project(ODP).

35 35 Αλγόριθμοι Εξατομίκευσης - ODP Ένα κομμάτι των σελίδων έχουν κατηγοριοποιηθεί σε κατηγορίες που προσδιορίζουν το περιεχόμενό τους. Το ODP είναι ένα γράφος θεματικών κατηγοριών στον οποίο κατατάσσονται οι σελίδες του Ιστού. Οι σελίδες που ανήκουν σε μια κατηγορία χαρακτηρίζονται από την κατηγορία που ανήκουν. Εφόσον ένας χρήστης επιλέξει μια σελίδα από μια κατηγορία, σημαίνει ότι ενδιαφέρεται για το θέμα της σελίδας, συνεπώς πολύ πιθανόν να τον ενδιαφέρουν και οι υπόλοιπες σελίδες της ίδιας κατηγορίας. Μέσω των κατηγοριών που επιλέγει ένας χρήστης μπορούμε να καταλάβουμε σε μεγάλο βαθμό ποιες σελίδες θα τον ενδιαφέρουν και μετά.

36 36 Αλγόριθμοι Εξατομίκευσης Η αλγόριθμοι που θα παρουσιάσουμε θα βασίζονται στο ODP. Θεωρούμε ότι για κάθε χρήστη κατασκευάζουμε ένα γράφημα κατηγοριών G(V,E) το οποίο προκύπτει από το γράφο του ODP, στο οποίο με vεV συμβολίζουμε τους κόμβους του γραφήματος, οι οποίοι είναι οι κατηγορίες του ODP που χρησιμοποιούμε, και με (v i, v j )εΕ συμβολίζουμε τις ακμές του γράφου, οι οποίες συμβολίζουν την σχέση που έχουν μεταξύ τους οι κατηγορίες. Σε κάθε ακμή αντιστοιχούμε ένα βάρος d(v i, v j ) που δείχνει την σημασιολογική σχέση των κατηγοριών.

37 37 Αλγόριθμοι Εξατομίκευσης Γενικά, παρουσιάζουμε την ιδέα της δημιουργίας, στην μεριά του χρήστη, ενός γραφήματος που είναι η επέκταση ενός κατάλληλα διαλεγμένου υπό- γραφήματος G user του G. Ανάλογα με τις προτιμήσεις του χρήστη κάθε κατηγορία v του G user θα πάρει ένα σχετικό βάρος β(v) > 0. Αυτά τα βάρη θα χρησιμοποιηθούν για την κατηγοριοποίηση των σελίδων που θα επιστραφούν στον χρήστη, όταν αυτός κάνει μια ερώτηση. Επίσης συμβολίζουμε με G’ το τοπικό γράφημα της ερώτησης. Συγκεκριμένα, η θέση μιας σελίδας p στο σύνολο των αποτελεσμάτων μιας ερώτησης θα δίνεται από μια συνάρτηση της μορφής : φ(β(γ(p)),σ(p))

38 38 Αλγόριθμοι Εξατομίκευσης Στην παραπάνω συνάρτηση, γ(p) είναι η κατηγορία που ανήκει η σελίδα p, σ(p) είναι η σχετικότητά της σύμφωνα με τον αλγόριθμο βαθμολόγησης της μηχανής, και η συνάρτηση φ() δηλώνει πως η τελική βαθμολόγηση θα διαφοροποιηθεί σε σχέση με την βαθμολόγηση της μηχανής (π.χ. φ(α, β) = (α + β)/2 ). Ουσιαστικά, παρουσιάζουμε την συνάρτηση φ() που συνδυάζει την βαθμολόγηση της μηχανής αναζήτησης και την προτεινόμενη από εμάς βαθμολόγηση με σκοπό να παρέχει καλύτερη κλιμάκωση των αποτελεσμάτων μας.

39 39 Αλγόριθμοι Εξατομίκευσης σε κάθε διαδικασία, άσχετα με την ερώτηση, οι χρήστες επιλέγουν να επισκέπτονται μόνο κάποια από τα αποτελέσματα που συνήθως δεν ανήκουν στις ίδιες κατηγορίες.Η μεθοδολογία μας βασίζεται στην ακόλουθη παρατήρηση : σε κάθε διαδικασία, άσχετα με την ερώτηση, οι χρήστες επιλέγουν να επισκέπτονται μόνο κάποια από τα αποτελέσματα που συνήθως δεν ανήκουν στις ίδιες κατηγορίες. Αυτό σημαίνει ότι οι κατηγορίες αυτές έχουν κάποια σχέση για τον συγκεκριμένο χρήστη. O χρήστης θα ήθελε αυτές οι κατηγορίες να σχετίζονται έτσι ώστε να πάρει καλύτερα εξατομικευμένα αποτελέσματα (σε σχέση με το προφίλ του) σε επόμενες ερωτήσεις του.

40 40 Αλγόριθμοι Εξατομίκευσης Επιπλέον ένας χρήστης μπορεί να θέλει να συσχετίσει μια κατηγορία v, που έχει σταθερή προτίμηση και έχει βάρος β(v), με μια κατηγορία w που έχει μόλις τραβήξει το ενδιαφέρον του. την συσχέτιση μη συσχετισμένων κατηγοριώντην ανάθεση τιμής που να δηλώνει το βαθμό συσχέτισής τους.Η παραπάνω συζήτηση δείχνει την ανάγκη για δυο πράγματα : την συσχέτιση μη συσχετισμένων κατηγοριών και την ανάθεση τιμής που να δηλώνει το βαθμό συσχέτισής τους.

41 41 Αλγόριθμος βασισμένος στις ακμές του γράφου Θεωρούμε την εκτέλεση κ πειραμάτων, που είναι περίοδοι πλοήγησης του χρήστη που περιέχουν την εισαγωγή μιας ερώτησης και την πλοήγηση στα ανακτημένα αποτελέσματα. Κατά τη διάρκεια αυτών των πειραμάτων το ιστορικό πλοήγησης του χρήστη ανανεώνεται αυτόματα χωρίς κάποια ενέργεια από τους χρήστες.

42 42 Αλγόριθμος βασισμένος στις ακμές του γράφου Για να υπολογίσουμε την εξατομικευμένη κατάταξη των αποτελεσμάτων σε ένα ερώτημα με βάση αυτόν τον αλγόριθμο, υπολογίζουμε το γ i (p i ), όπου p i είναι το αποτέλεσμα, και γ i (p i ) είναι η τελική σειρά του αποτελέσματος που εμφανίζεται στο χρήστη. Θεωρούμε ότι το S i είναι το σύνολο των σελίδων του αποτελέσματος και α i (p i ) είναι η τιμή της σημαντικότητας που «ανατίθεται» από τον χρήστη στην σελίδα p i της ερώτησης α i.

43 43 Αλγόριθμος βασισμένος στις ακμές του γράφου Το α i (p i ) θα είναι η σειρά προτίμησης της σελίδας p i από τον χρήστη στην ερώτηση α i. Δηλαδή αν η σελίδα p 1 επιλεχθεί πρώτη τότε α i (p 1 ) = 1, αν επιλεγεί δεύτερη τότε α i (p 1 ) = 2, κοκ. Επίσης η τιμή αυτή ανατίθεται αυτόματα κατά την πλοήγηση των σελίδων χωρίς να χρειάζεται να κάνει κάποια ενέργεια ο χρήστης

44 44

45 45 Αλγόριθμος βασισμένος στις ακμές του γράφου Βήμα 1. Εισαγωγή μιας ερώτησης, συλλέγουμε το S i και αφήνουμε τους χρήστες να «καθορίσουν» το α i (p i ). Βήμα 2. Για κάθε σελίδα p i των αποτελεσμάτων υπολογίζουμε με βάση την κατηγορία της στο γράφημα, το συντελεστή κατάταξης γ i (p i ) για αυτήν την σελίδα. Συγκεκριμένα

46 46 Αλγόριθμος βασισμένος στις ακμές του γράφου results είναι ο αριθμός των αποτελεσμάτων σε κάθε ερώτηση και α(p i ) είναι η θέση της σελίδας p i στα αποτελέσματα του Google για την ερώτηση α i. Βήμα 3. Υποθέτουμε ότι v 1, v 2, …, v l (G’) είναι όλες οι κατηγορίες που σελίδες τους εμφανίζονται στα αποτελέσματα της ερώτησης. Ενώνουμε όλους τους κόμβους αυτούς με ακμές και θέτουμε σε αυτές τις ακμές ένα βάρος w(v i, v j ). Το βάρος αυτό προσδιορίζει το πόσο σχετικές είναι οι κατηγορίες αυτές μεταξύ τους.

47 47 Αλγόριθμος βασισμένος στις ακμές του γράφου Την παράσταση την λέμε συντελεστή σχετικότητας γιατί προσδιορίζει την σχετικότητα της κατηγορίας του αποτελέσματος με τον χρήστη. Υπολογίζοντας τα γ i (p i ) βρίσκουμε έναν συντελεστή για κάθε αποτέλεσμα της ερώτησης ταξινομούμε τα αποτελέσματα με βάση αυτούς τους νέους συντελεστές και εμφανίζουμε τα αποτελέσματα με την νέα σειρά.

48 48 Αλγόριθμος βασισμένος στις ακμές του γράφου v other (v(p i )) κατηγορίες που έχει επιλέξει ο χρήστης σε προηγούμενες ερωτήσεις και σχετίζονται άμεσα με τις κατηγορίεςπου επιστρέφουν τα αποτελέσματαΟ συντελεστής v other (v(p i )) προκύπτει από τις κατηγορίες που έχει επιλέξει ο χρήστης σε προηγούμενες ερωτήσεις και σχετίζονται άμεσα με τις κατηγορίες(μέσω ακμών) που επιστρέφουν τα αποτελέσματα(δηλ. η κατηγορίες που συνδέουν το G’ με το υπόλοιπο γράφημα). Η πρακτική σημασία των v other (v(p i )) έγκειται στο γεγονός ότι μας δίνουν ένα μέτρο για το πόσο σχετικές είναι οι κατηγορίες της ερώτησης με άλλες κατηγορίες που έχει επιλέξει ο ίδιος χρήστης.

49 49 Αλγόριθμος βασισμένος στις ακμές του γράφου v graph (v(p i )) προκύπτει με βάση τη σχετικότητα των κατηγοριών των αποτελεσμάτων πριν γίνει η ερώτηση.Ο συντελεστής v graph (v(p i )) προκύπτει με βάση τη σχετικότητα των κατηγοριών των αποτελεσμάτων πριν γίνει η ερώτηση. Το είναι ο συντελεστής που λαμβάνει υπόψη την σειρά κατάταξης των αποτελεσμάτων στο Google. Π.χ. το πρώτο αποτέλεσμα παίρνει συντελεστή 10, το δεύτερο 9, κοκ.

50 50 Υπολογισμός των βαρών των ακμών νέες κατηγορίες που κάνουμε και δεν υπάρχουν ήδηνέεςακμές μεταξύ των κατηγοριών της ερώτησης που δεν υπάρχουνΟι νέες κατηγορίες(κόμβοι) που προστίθενται είναι οι κατηγορίες της ερώτησης που κάνουμε και δεν υπάρχουν ήδη και οι νέες ακμές που θα προστίθενται θα είναι αυτές μεταξύ των κατηγοριών της ερώτησης που δεν υπάρχουν. βάρη πόσες φορές πόσο,Τα βάρη των ακμών στο γράφημα θα είναι μεταβλητές που θα μετράνε το πόσες φορές έχουν συσχετιστεί οι δυο κατηγορίες και πόσο, δηλαδή πόσες φορές έχουν βρεθεί οι δυο κατηγορίες στα ίδια αποτελέσματα και πόσο σχετικές ήταν.

51 51 Υπολογισμός των βαρών των ακμών δημιουργείται ακμήΚάθε φορά που πρέπει να σχετιστούν δυο κατηγορίες είτε δημιουργείται ακμή (περίπτωση για αν έχουν συσχετιστεί) και παίρνει το παρακάτω βάρος (όταν δεν υπάρχει) είτε αυξάνεται η τιμή της (για να λαμβάνουμε υπόψη το πόσες φορές έχει συσχετιστεί) κατά

52 52 Υπολογισμός των βαρών των ακμών Τα αθροίσματα υπάρχουν γιατί σε μια κατηγορία μπορεί να ανήκουν περισσότερα από 1 αποτελέσματα, συνεπώς η κατηγορία αυτή είναι πολύ σχετική με την ερώτηση και συνεπώς και με τις άλλες κατηγορίες. Δηλαδή όσο πιο μεγάλη είναι το βάρος ανάμεσα σε δυο κατηγορίες, σημαίνει ότι για τον χρήστη αυτές οι δυο κατηγορίες είναι πολύ σχετικές.

53 53 Υπολογισμός των βαρών των ακμών Η σχέση επιλέχθηκε γιατί προσδιορίζει την σχετικότητα των αποτελεσμάτων με βάση την σημαντικότητα(σειρά) που τους δίνει ο χρήστης. Η σχέση αυτή για n = 4 παίρνει τις τιμές : /21/3 21-1/21/4 31/2 -1/3 4 1/41/3-

54 54 Υπολογισμός των βαρών των ακμών τη θέση των αποτελεσμάτων και πόσο σημαντικά είναι τα αποτελέσματαΜέσω της σχέσης αυτής πετυχαίνουμε να λαμβάνουμε υπόψη και τη θέση των αποτελεσμάτων και πόσο σημαντικά είναι τα αποτελέσματα (πόσο ψηλά βρίσκονται στην κατάταξη των αποτελεσμάτων). Π.χ. Οι κόμβοι των αποτελεσμάτων 1,2 είναι οι πιο σχετικοί, όμως η σχέση των κόμβων 1,3 είναι ίδια με αυτή των 2,3 επειδή ο κόμβος 1 είναι πολύ σημαντικός.

55 55 Υπολογισμός των βαρών των ακμών Τώρα μπορούμε να υπολογίσουμε και τα v other (v(p i )) και v graph (v(p i )) που δίνονται από τους ακόλουθους τύπους. v other (v(p i )) = /max( ), (v i = v(p i )). Το max(v other ) είναι το μέγιστο v other ανάμεσα στις κατηγορίες του αποτελέσματος.

56 56 Υπολογισμός των βαρών των ακμών Τώρα μπορούμε να υπολογίσουμε και τα v other (v(p i )) και v graph (v(p i )) που δίνονται από τους ακόλουθους τύπους. v graph (v(p i )) = /max( ), (v i = v(p i )). Το max(v graph ) είναι το μέγιστο v graph ανάμεσα στις κατηγορίες του αποτελέσματος.

57 Παράδειγμα Θεωρίας 57

58 58

59 Παράδειγμα Λειτουργίας Βήμα 1ο. Εκτελούμε την 1η ερώτηση «upatras». Τα αποτελέσματα τις ερώτησης εμφανίζονται παρακάτω μαζί με την αντίστοιχη κατηγορία που ανήκουν και την σειρά επιλογής τους από τον χρήστη(αν δεν έχουν επιλεγεί έχει παύλα). 59 Σειρά Google LinkΚατηγορίαΣειρά επιλογής p1www.upatras.gr/University of Patras- p2www.ceid.upatras.gr/Πανεπιστήμιο_Πατρών1 p3www.ee.upatras.gr/Academic Departments- p4www.ee.upatras.gr/en/index.phpGreece- p5www.hpclab.ceid.upatras.gr/Research_Institutes2 p6www.math.upatras.gr/Greece- p7www.wcl.ee.upatras.gr/ai/Education- p8www.med.upatras.gr/Medical Schools- p9www.lar.ee.upatras.gr/csit2002/index.htm2002- p10www.geology.upatras.gr/Πανεπιστήμιο_Πατρών3

60 Βήμα 1ο Μετά την επιλογή αυτή που κάναμε παραπάνω, ο αλγόριθμος μας αναγνωρίζει τις διαφορετικές κατηγορίες των αποτελεσμάτων που διαλέξαμε(Πανεπιστήμιο_Πατρών[ΠΠ] και Research_Institutes[RI]). Στην συνέχεια υπολογίζει το βάρος της ακμής που θα της ενώνει(πόσο σχετικές είναι) το οποίο είναι 1,5. Τέλος ξεκινάει την κατασκευή του δένδρου, προσθέτοντας αυτές τις δυο κορυφές και την ακμή. 60

61 Βήμα 2ο Εκτελούμε την 2η ερώτηση «ceid». 61 Σειρά GoogleLinkΚατηγορίαΣειρά επιλογής p1www.ceid.upatras.gr/Πανεπιστήμιο_Πατρών2 p2www.ceid.upatras.gr/en/Greece- p3www.hpclab.ceid.upatras.gr/Research_Institutes1 p4www.public-health.uiowa.edu/CEID/Research Centres- p5arcadia.ceid.upatras.gr/arkadia/Guides and Directories- p6arcadia.ceid.upatras.gr/thomtrip/Greece3 p7www.uvic.cat/ceid/ca/inici.htmlUniversitat de vic- p8www.cti.gr/sirocco2002/Past Conferences- p9www.cle.unicamp.br/wcp3/interlingua.htmScientia- p10www.balthisar.com/site/index.php? ceid=11Tools-

62 Βήμα 3ο Εκτελούμε την 3η ερώτηση «βιβλιοθήκες Πάτρας». 62 Σειρά GoogleLinkΚατηγορίαΣειρά επιλογής p1www.lib.teipat.gr/Ακαδημαϊκές2 p2www.upatras.gr/University of Patras- p3openarchives.gr/Ψηφιακές- p4www.superb.gr/Τηλεόραση- p5www.philosophy.upatras.gr/Φιλοσοφία- p6www.metanastis.com/Γερμανία- p7www.ceid.upatras.gr/Πανεπιστήμιο_Πατρών1 p8www.microchip.gr/Υπολογιστές, Μηχανογράφηση- p9www.kallia.gr/Εικαστικές τέχνες- p10athens.indymedia.org/Περιοδικά On Line-

63 Βήμα 4ο Εκτελούμε την 4η ερώτηση «ελληνικά Πανεπιστήμια». 63 Σειρά GoogleLinkΚατηγορίαΣειρά επιλογής p1www.eap.gr/Πανεπιστήμια- p2www.eap.gr/lib/index.htmΑκαδημαϊκές4 p3www.lib.uoi.gr/Ακαδημαϊκές3 p4www.cso.auth.gr/Εργασία- p5openarchives.gr/Ψηφιακές- p6library.aua.gr/Ακαδημαϊκές1 p7www.xhmikos.gr/Δευτεροβάθμια- p8www.doukas.gr/ib/ib.htmGreece2 p9library.panteion.gr/Ακαδημαϊκές- p10www.ucy.ac.cy/~classics/Cyprus-

64 Γράφημα του χρήστη 64

65 65


Κατέβασμα ppt "Ανάκτηση Πληροφορίας Φροντιστήριο 8 Καφέζα Ευανθία Δεκέμβριος 2011."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google