Παρουσίαση Διπλωματικής Εργασίας του φοιτητή Στογιάννου Αλέξανδρου Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Εργαστήριο Επικοινωνίας Ανθρώπου - Υπολογιστή Παρουσίαση Διπλωματικής Εργασίας του φοιτητή Στογιάννου Αλέξανδρου Μελέτη και συγκριτική αξιολόγηση μεθόδων δόμησης περιεχομένου ιστοτόπων: εφαρμογή σε ειδησεογραφικούς ιστοτόπους
Διαστάσεις σχεδιασμού ιστοτόπων Το πλαίσιο (1/2) Σχεδιασμός της πληροφοριακής δομής ιστοτόπων Οργάνωση του περιεχομένου ώστε να αυξάνεται η ευρεσιμότητα και να διευκολύνεται η επιτυχής ολοκλήρωση των τυπικών εργασιών των χρηστών (Μorville & Rosenfeld, 2006) Διαστάσεις σχεδιασμού ιστοτόπων (Garrett J., 2002) Στογιάννος Αλέξανδρος 21/9/2018
Το πλαίσιο (2/2) Δόμηση περιεχομένου ειδησεογραφικών ιστοτόπων Δόμηση περιεχομένου ειδησεογραφικών ιστοτόπων Ιδιαιτερότητες: Μέγεθος ιστοτόπων Πολύ συχνή προσθήκη/τροποποίηση περιεχομένου Αυστηροί χρονικοί περιορισμοί Επαρκούν οι χρηστοκεντρικές τεχνικές δόμησης ιστοτόπων (π.χ. Ταξινόμηση Καρτών)? Στογιάννος Αλέξανδρος 21/9/2018
AutoCardSorter (Katsanos et al, 2008a; 2008b) Εργαλείο ημιαυτόματης ομαδοποίησης ιστοσελίδων με βάση το πληροφοριακό τους περιεχόμενο. Λεκτικές περιγραφές ιστοσελίδων Αλγόριθμος σημασιολογικής συσχέτισης Μήτρα σημασιολογικών ομοιοτήτων Αλγόριθμος ομαδοποίησης Δενδρόγραμμα Προσδιορισμός βέλτιστου αριθμού κατηγοριών 3 πειραματικές μελέτες Ταξινόμηση Καρτών ανοικτού τύπου VS AutoCardSorter Αποτελέσματα εφάμιλλης ποιότητας αλλά σημαντικά αποδοτικότερα Στογιάννος Αλέξανδρος 21/9/2018
Ο στόχος της εργασίας πειραματική μελέτη ταξινόμησης καρτών ανοικτού τύπου vs AutoCardSorter 4 μελέτες ταξινόμησης καρτών κλειστού τύπου vs AutoCardSorter Διερεύνηση αποτελεσματικότητας AutoCardSorter στο πλαίσιο των ειδησεογραφικών δικτυακών τόπων Συμπεράσματα Μελέτη βιβλιογραφίας αλγορίθμων υπολογισμού σημασιολογικής συσχέτισης Στογιάννος Αλέξανδρος 21/9/2018
Πειραματική μελέτη ανοικτού τύπου - Μεθοδολογία (1/2) 38 άρθρα (Πολιτικά,Οικονομικά,Αθλητικά,Επιστημονικά) Ομοιόμορφη προέλευση Διαφορετικοί δικτυακοί τόποι (πχ Reuters, ert) 37 συμμετέχοντες-εργαστήριο HCI, Usort Περιγραφές καρτών: περιλήψεις των άρθρων (προσωπική εκτίμηση σχεδιαστή) Nicotine replacement safe during pregnancy For women trying to quit smoking during pregnancy, using nicotine replacement therapy such as nicotine patches, nicotine gum or other does not increase the likelihood of a stillbirth (giving birth to a dead embryo) a recent study shows. Στογιάννος Αλέξανδρος 21/9/2018
Πειραματική μελέτη ανοικτού τύπου - Μεθοδολογία (2/2) Καμία τροποποίηση περιγραφών Αυτοματοποιημένη λειτουργία ομαδοποίησης Συγκριτική ανάλυση αποτελεσμάτων (EzCalc, SPSS) Similarity matrices correlation analysis Base Cluster Distance Navigation scheme comparison (Kaiser) Στογιάννος Αλέξανδρος 21/9/2018
Πειραματική μελέτη ανοικτού τύπου - Αποτελέσματα Correlations Rdescriptions=0.572, Rtitles=0.246 Average base cluster distance 2.85 nodes/0.09% of total nodes Navigation schemes: 100% identical (Kaiser) Επεξεργασία αποτελεσμάτων open sort: 6h , AutoCardSorter: 15min Στογιάννος Αλέξανδρος 21/9/2018
Πειραματικές μελέτες κλειστού τύπου – Μεθοδολογία (1/2) 4 μελέτες (BBC, Athens News, 2 news portal) 40 κάρτες/δικτυακό τόπο 18 συμμετέχοντες φυλλάδια (άρθρα και κατηγορίες) Στογιάννος Αλέξανδρος 21/9/2018
Πειραματικές μελέτες κλειστού τύπου – Μεθοδολογία (2/2) LSA Application - Matrix Comparison Κατηγοριοποίηση Βάσει της συχνότητα τοποθέτησης χρηστών-τιμής LSA Συγκριτική ανάλυση αποτελεσμάτων (SPSS) Similarity matrices correlation analysis Ποσοστό συμφωνίας τελικών ομαδοποιήσεων Στογιάννος Αλέξανδρος 21/9/2018
1η σειρά μελετών: BBC, Athens News - Μεθοδολογία Europe, Business, Entertainment, Arts & Culture, Science & Environment, Technology, Health Athens News News, Community, Sports, Business και Arts & Features Ομοιόμορφη προέλευση Περιγραφές: 2-3 περιληπτικές προτάσεις Hacker's human rights ignored Human rights arguments against extraditing a British man accused of hacking into US military networks were not confronted a court has heard. Στογιάννος Αλέξανδρος 21/9/2018
1η σειρά μελετών - Αποτελέσματα Correlations Ran=0.506, Rbbc=0.400 Error rates BBC: 54% (42%), Athens News: 56% Επεξεργασία Αποτελεσμάτων Closed Sort: 2h, AutoCardSorter: 30mins (manual) Στογιάννος Αλέξανδρος 21/9/2018
2η σειρά μελετών: News Portals - Μεθοδολογία Μη-Ομοιόμορφη προέλευση άρθρων Διαφορετικές πηγές Greece, World, Sports, Economy, Science-Technology και Culture Περιγραφές: 1 περιληπτική πρόταση CERN LHC network hit by Greek hackers A major warning about the physics experiment security, as hackers bring its website down Στογιάννος Αλέξανδρος 21/9/2018
2η σειρά μελετών: News Portals - Αποτελέσματα Correlations Rp1=0.243, Rp2=0.353 Error rates Portal1: 62%, Portal2: 50% Επεξεργασία Αποτελεσμάτων Closed Sort: 2h, AutoCardSorter: 30mins Στογιάννος Αλέξανδρος 21/9/2018
Συμπεράσματα – Μελέτη ανοικτού τύπου Επαληθεύεται το κέρδος χρόνου και η ποιότητα των αποτελεσμάτων συγκριτικά με ταξινόμηση ανοικτού τύπου Ανάλυση Βάσει Τίτλων - ανέφικτη για Ειδησεογραφία Δυνατή η Αυτοματοποιημένη Ομαδοποίηση Πρώτη παράγραφος καλή επιλογή περιγραφής Περαιτέρω μελέτη για ιδανικό μέγεθος αποσπάσματος Στογιάννος Αλέξανδρος 21/9/2018
Συμπεράσματα-Μελέτες κλειστού τύπου (1/2) Μη ικανοποιητικά αποτελέσματα Ακατάλληλο το TASA (απουσία σημαντικών όρων) Ακατάλληλες περιγραφές κατηγοριών (γενικές, δημοσιογραφικές) Στογιάννος Αλέξανδρος 21/9/2018
Συμπεράσματα-Μελέτες κλειστού τύπου (2/2) Προβληματική η συσχέτιση μονολεκτικών περιγραφών- κειμένων Επηρεάζει το μέγεθος αποσπάσματος Πρόβλημα η στενή σημασιολογική συσχέτιση των περιγραφών Στογιάννος Αλέξανδρος 21/9/2018
Εναλλακτικές υλοποιήσεις ταξινόμησης κλειστού τύπου στο AutoCardSorter Επέκταση των περιγραφών των κατηγοριών με σχετικό περιεχόμενο (π.χ. Wikipedia, similar content, fixed articles) Ανοικτού τύπου ταξινόμηση και αντιστοίχηση των ομάδων που προκύπτουν με τις κατηγορίες Αντιστοίχηση βάσει Keyword extraction ή Συνολικό κείμενο Στογιάννος Αλέξανδρος 21/9/2018
Μέθοδοι υπολογισμού σημασιολογικής συσχέτισης-Μεθοδολογία Εκτενής μελέτη της βιβλιογραφίας Καταγραφή κυριότερων παραγόντων απόδοσης Αναγνώριση παραγόντων σχετικών με AutoCardSorter Καταλληλότητα για χρήση με AutoCardSorter Στογιάννος Αλέξανδρος 21/9/2018
Μέθοδοι υπολογισμού σημασιολογικής συσχέτισης-Συμπεράσματα Κυριότερη διαφοροποίηση Μεθόδων: Δυναμικές (Διαδίκτυο)/ Στατικές (Σώμα Κειμένου) Καθοριστικός Παράγοντας: Ποιότητα Σώματος Κειμένου Διαφορές στις μονολεκτικές συσχετίσεις εξαλείφονται στην σύγκριση κειμένων Κρίσιμα σημεία για τον AutoCardSorter Απόδοση Αλγορίθμου Ανανέωση Σώματος Κειμένου Όγκος Δεδομένων (πχ WLM 600mb) Στογιάννος Αλέξανδρος 21/9/2018
Μελλοντικές Κατευθύνσεις Εναλλακτικοί τρόποι ταξινόμησης κλειστού τύπου Διερεύνηση παραγόντων Μέγεθος και ποιότητα περιγραφών των καρτών Μη-ομοιόμορφη προέλευση άρθρων Ποιότητα σώματος κειμένου Συγκριτικές μελέτες αλγορίθμων υπολογισμού σημασιολογικής συσχέτισης Εξειδικευμένο λεξιλόγιο- διαφορετικές γλώσσες Άλλες εφαρμογές της AutoCardSorter τεχνικής metadata suggestion (αυτόματη κατηγοριοποίηση) Content filtering Label suggestions (search logs, tag lists) Free listing Στογιάννος Αλέξανδρος 21/9/2018
Σας ευχαριστώ για την προσοχή σας! Συζήτηση - Ερωτήσεις Στογιάννος Αλέξανδρος 21/9/2018
Στογιάννος Αλέξανδρος 21/9/2018
LSA Αναπαράσταση σώματος κειμένου σε μορφή πίνακα Σειρές-Μορφές λέξεων Στήλες-Κομμάτια κειμένου (πχ παράγραφοι) Κελιά-Συχνότητες εμφάνισης λέξεων Μαθηματική τροποποίηση κελιών ανάλογα με την σπανιότητα Απλοποίηση πίνακα Ανάλυση ιδιοτιμών (Singular Value Decomposition) Διανυσματική αναπαράσταση λέξεων-κειμένων Όχι απλή καταμέτρηση των συνεμφανίσεων Στογιάννος Αλέξανδρος 21/9/2018
LSA - μειονεκτήματα Εξάρτηση από σώμα κειμένου (=προφίλ χρηστών ιστοτόπου) Διαφορετικές γλώσσες Εξειδικευμένο λεξιλόγιο Περιορισμός στο μέγεθος σώματος κειμένου Μη πρακτική ανανέωση σώματος κειμένου Εξάρτηση από τον δικτυακό τόπο της LSA Στογιάννος Αλέξανδρος 21/9/2018
Μέση απόσταση πρωτευόντων ομάδων (Tullis & Wood, 2004) BC1 D1=0 BC2 D2=0 BC3 D3=0 +1 +1 BC4 D4=2 (Katsanos, 2010) 16/12/2010