Κορφιάτης Γιώργος Παλιούρας Γιώργος Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσμιο Ιστό με χρήση μεθόδων Συμπερασμού Γραμματικών Κορφιάτης Γιώργος Παλιούρας Γιώργος
Αντικείμενο Κατασκευή μοντέλου ικανού να περιγράψει την πλοήγηση των χρηστών στον Παγκόσμιο Ιστό Χρήση του μοντέλου για πρόταση σελίδων Μάρτιος 2006
Περιεχόμενα Εξατομίκευση Μέθοδοι Συμπερασμού Γραμματικών Μέθοδος μοντελοποίησης της πλοήγησης στον Ιστό Πειραματική Αξιολόγηση Συμπεράσματα Μάρτιος 2006
Παγκόσμιος Ιστός Ανεξάντλητη πηγή πληροφοριών αλλά… Έλλειψη δομής Υπερσυσσώρευση πληροφοριών Χρήστες μη ειδικοί Μάρτιος 2006
Παγκόσμιος Ιστός Ανάγκη υποβοήθησης του χρήστη στον εντοπισμό χρήσιμης πληροφορίας Λύση: Εξατομίκευση των υπηρεσιών Μάρτιος 2006
Εξατομίκευση Σε επίπεδο ιστοχώρου: Αναγνώριση χρήστη Προσαρμογή ιστοσελίδας στα μέτρα του χρήστη Καθοδήγηση (πρόταση συνδέσμων) Μοντελοποίηση χρήστη με τεχνικές Εξόρυξης Γνώσης από Δεδομένα (Data Mining) Μάρτιος 2006
Ανακάλυψη Προτύπων Πλοήγησης Στόχος η πρόταση συνδέσμων Μοντελοποίηση της πλοήγησης Διαδικασία εξόρυξης γνώσης από δεδομένα χρήσης Μάρτιος 2006
Προσεγγίσεις Ντετερμινιστικές Στοχαστικές Εύρεση συχνά επαναλαμβανόμενων ακολουθιών σελίδων Κανόνες διαδοχής, Κοινότητες χρηστών Στοχαστικές Κατασκευή μοντέλου πιθανοτήτων Χρήση μαρκοβιανών μοντέλων Χρήση Συμπερασμού Γραμματικών Μάρτιος 2006
Προσεγγίσεις Κατάλληλες για έναν ιστοχώρο αλλά… Ακατάλληλες για τον Παγκόσμιο Ιστό Μεγάλος όγκος Ανομοιογένεια περιεχομένου Μάρτιος 2006
Μοντελοποίηση της πλοήγησης σε όλο τον Παγκόσμιο Ιστό Τα δεδομένα χρήσης δεν επαρκούν Χρειάζεται επιπλέον πληροφορία π.χ. σύγκριση περιεχομένου των σελίδων Μάρτιος 2006
Η προσέγγισή μας Περιγραφή πλοήγησης με γραμματική Χρήση μεθόδων Συμπερασμού Γραμματικών Αξιοποίηση δεδομένων χρήσης και πληροφορίας για ομοιότητα περιεχομένου σελίδων Μάρτιος 2006
Συμπερασμός Γραμματικών Κλάδος της Μηχανικής Μάθησης Επαγωγική εκμάθηση γραμματικής από δεδομένα G0 Παραγωγή Δεδομένα Συμπερασμός G Μάρτιος 2006
Κανονικές Γραμματικές Απλούστερη κλάση γραμματικών Κανόνες της μορφής: A→aB | a | ε Μάρτιος 2006
Πιθανοτικές Κανονικές Γραμματικές Πιθανότητα εμφάνισης συμβολοσειράς Πιθανότητες πάνω στις μεταβάσεις και στους κόμβους Μάρτιος 2006
Μέθοδος Alergia Συμπερασμός πιθανοτικής κανονικής γραμματικής (αυτομάτου) Ξεκινά από δενδρική δομή (PPTA) Εφαρμογή: Σύμβολα ↔ Ιστοσελίδες Συμβολοσειρές ↔ Σύνοδοι χρήσης Μάρτιος 2006
Alergia: Αρχικό PPTA Μάρτιος 2006
Alergia Συγχωνεύει κόμβους Κριτήριο Συμβατότητας: όμοιες μεταβάσεις Μάρτιος 2006
Alergia: Εκτέλεση Μάρτιος 2006
Alergia: Εκτέλεση Μάρτιος 2006
Alergia: Εκτέλεση Μάρτιος 2006
Alergia: Εκτέλεση Μάρτιος 2006
Alergia: Εκτέλεση Μάρτιος 2006
Μέθοδος Blue Fringe Παρόμοια με τον Alergia Πιο έξυπνη επιλογή συγχωνεύσεων Σύνολα κόκκινων και μπλε κόμβων Βαθμολογεί τα ζευγάρια κόκκινων-μπλε Επιλέγει το καλύτερο ζευγάρι Μεγαλύτερη χρονική πολυπλοκότητα Μάρτιος 2006
Blue Fringe: Εκτέλεση Μάρτιος 2006
Blue Fringe: Εκτέλεση Το σημαντικό είναι ότι βαθμολογεί όλα τα ζευγάρια και διαλέγει το καλύτερο. Το μέτρο βαθμολόγησης είναι όπως στον Alergia. Μάρτιος 2006
Blue Fringe: Εκτέλεση Μάρτιος 2006
Blue Fringe: Εκτέλεση Μάρτιος 2006
Blue Fringe: Εκτέλεση Μάρτιος 2006
Αξιοποίηση για μοντελοποίηση πλοήγησης στον Ιστό Σύμβολα Ιστοσελίδες Συμβολοσειρές Σύνοδοι χρήσης Συγχώνευση κόμβων Δημιουργία ομάδων σελίδων Πιθανότητες στις μεταβάσεις Συχνότητα μετάβασης μεταξύ σελίδων / ομάδων Μάρτιος 2006
Νέα μέθοδος CANUMGI Content-Aware Navigational User Modeling with Grammatical Inference Τροποποίηση μεθόδων Alergia και Blue Fringe Κατασκευή του μοντέλου off-line Υπολογισμός συμβατότητας καταστάσεων Μετρικό χρήσης (όμοιες μεταβάσεις) Μετρικό περιεχομένου (ομοιότητα περιεχομένου σελίδων) Μάρτιος 2006
Ομοιότητα περιεχομένου Ιστοσελίδες ↔ Διάνυσμα λέξεων-κλειδιών Χρήση μετρικού συνημιτόνου Μάρτιος 2006
Ομοιότητα περιεχομένου Παράδειγμα: Μάρτιος 2006
CANUMGI-A Βασίζεται στον Alergia Τα δύο μετρικά λογικές τιμές Συνδυασμός μετρικών Σύζευξη Διάζευξη Μάρτιος 2006
CANUMGI-B Βασίζεται στον Blue Fringe Τα δύο μετρικά πραγματικές τιμές Συνδυασμός μετρικών Ελάχιστη τιμή Μέγιστη τιμή Σταθμισμένο άθροισμα Μάρτιος 2006
CANUMGI-C Μείωση Διαστασιμότητας Αρχική ομαδοποίηση των σελίδων ως προς το περιεχόμενο Στόχος: Εκ των προτέρων χωρισμός σελίδων σε θεματικές κατηγορίες Χρήση ομάδων αντί για σελίδες Ακολουθεί η επαγωγική διαδικασία Μάρτιος 2006
CANUMGI-C Παράδειγμα: Μάρτιος 2006
CANUMGI-C PPTA χωρίς μείωση διαστασιμότητας Ο πρώτος αριθμός σε κάθε κόμβο είναι οι ακολουθίες στις οποίες έχει συμμετάσχει και ο δεύτερος ο αριθμός των φορών που ήταν τελικός. Μάρτιος 2006
CANUMGI-C PPTA με μείωση διαστασιμότητας Μάρτιος 2006
Χρήση του μοντέλου On-line λειτουργία Εξατομικευμένη πλοήγηση Πρόταση σελίδων στους χρήστες Διαδικασία σε δύο στάδια: Διάσχιση του γράφου Επιλογή σελίδων Μάρτιος 2006
Διάσχιση του γράφου Αλληλουχία σελίδων ↔ μεταβάσεις στο γράφο Αν δεν υπάρχει ρητή μετάβαση, επιλογή του πιο όμοιου κόμβου-παιδιού Αν δεν υπάρχει αρκετά όμοιος κόμβος, επιστροφή στον κόμβο εκκίνησης Μάρτιος 2006
Επιλογή σελίδων Προσέγγιση 1 Προσέγγιση 2 Επιλογή κόμβου-παιδιού με μεγαλύτερη πιθανότητα μετάβασης Επιλογή σελίδων πιο κοντά στο κέντρο βάρους Προσέγγιση 2 Επιλογή σελίδων με μεγαλύτερο γινόμενο πιθανότητας μετάβασης επί εγγύτητα στο κέντρο βάρους Μάρτιος 2006
Πειραματική αξιολόγηση Δεδομένα χρήσης από αρχεία καταγραφής εταιρείας ISP Προεπεξεργασία Χωρισμός σε συνόδους χρήσης Εύρεση λέξεων-κλειδιών Χωρισμός δεδομένων σε δύο σύνολα Δείγμα εκπαίδευσης (κατασκευή μοντέλου) Δείγμα ελέγχου (αξιολόγηση) Μάρτιος 2006
Πειραματική αξιολόγηση Διαδικασία Αξιοποίηση συνόδων χρήσης δείγματος ελέγχου Αποκρύβουμε τελευταία σελίδα συνόδου χρήσης Χρησιμοποιούμε τις υπόλοιπες για διάσχιση του γράφου και επιλογή σελίδων Μάρτιος 2006
Πειραματική αξιολόγηση Μέτρο αξιολόγησης Αναμενόμενη χρησιμότητα της λίστας προτεινόμενων σελίδων ομοιότητα περιεχομένου για όλες τις προτεινόμενες σελίδες κρυμμένη σελίδα Μάρτιος 2006
Πειραματική αξιολόγηση Βάση σύγκρισης Απλό μοντέλο με δημιουργία ομάδων σελίδων βάσει ομοιότητας περιεχομένου Πρόταση σελίδων Εύρεση ομάδων πιο όμοιων με τις σελίδες που ήδη επισκέφτηκε ο χρήστης Επιλογή των πιο χαρακτηριστικών σελίδων από τις ομάδες αυτές Μάρτιος 2006
Πειραματική αξιολόγηση Μέθοδος Αναμ. Χρησιμότητα CANUMGI-A 8.57 CANUMGI-B 21.72 CANUMGI-C 20.59 Βάση σύγκρισης 24.25 Μάρτιος 2006
Συμπεράσματα Η νέα μέθοδος δεν ξεπέρασε το μοντέλο σύγκρισης Η γνώση της σειράς επίσκεψης μάλλον δε συμβάλλει στην πρόταση σελίδων Μεγάλη ανομοιογένεια δεδομένων χρήσης Πλοήγηση μέσα σε μία θεματική κατηγορία Μάρτιος 2006
Συμπεράσματα Αυτομεταβάσεις με υψηλή πιθανότητα Μάρτιος 2006
Συμπεράσματα CANUMGI-B αποδίδει καλύτερα από τις άλλες Πιο έξυπνη επιλογή κόμβων Η μείωση διαστασιμότητας δε βελτίωσε τα αποτελέσματα Δε βοηθά η ομαδοποίηση Η γνώση των λίγων προηγούμενων επισκέψεων πιο χρήσιμη Μάρτιος 2006
Μελλοντικές Κατευθύνσεις Δυναμικός προσδιορισμός παραμέτρων Μελέτη του μετρικού αξιολόγησης Προσεγγίσεις με μαρκοβιανά μοντέλα Επιλεκτική χρησιμοποίηση δεδομένων χρήσης + μοντέλο με βάση το περιεχόμενο Χρήση πιθανοτικών γραμματικών υπερκειμένου (HPG) Μάρτιος 2006