Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - Εμμανουήλ Γαρουφάλλου - Πάνος Μπαλατσούκας -
2 Κύρια Σημεία •Δεδομένα – Στατιστικά – Μελέτες Περίπτωσης που οδήγησαν στη δημιουργία του εργαλείου •Σκοπός-Στόχοι Εργαλείου •Κύρια Χαρακτηριστικά - Μεθοδολογία
3 Δεδομένα για τις ακαδημαϊκές εκδόσεις •Αριθμός peer-reviewed άρθρων (2010) = 2,5 εκατ. •Συνολικός αριθμός δημοσιευμένων άρθρων σε περιοδικά μέχρι το 2009 = 50 εκατ. •Πλούτος γνώσης •Οι χρήστες χρησιμοποιούν διαφορετικά κριτήρια για να αξιολογήσουν τη συνάφεια ενός άρθρου πέρα από τα κριτήρια που περιλαμβάνουν λέξεις κλειδιά (keywords) σε κάποιο ερώτημα (query) •Δεν είναι πάντα δυνατή η αξιολόγηση όλων των σχετικών πληροφοριών
4 Στατιστικά • πλήρους απασχόλησης επαγγελματίες στον ακαδημαϊκό χώρο •10-15 εκατ. το αναγνωστικό κοινό των περιοδικών •5,5 εκατ. ερευνητές •Συνολικό κόστος διεξαγωγής και κοινοποίησης της έρευνας που δημοσιεύεται σε περιοδικά 219,3 δισ. € –145,4 δισ. € για την έρευνα –31,3 δισ. € για τη δημοσίευση, διανομή και πρόσβαση –42,6 δισ. € για την ανάγνωση των άρθρων •Έρευνα JISC 2011: Τρομερά οφέλη από την εφαρμογή εξόρυξης κειμένου σε ακαδημαϊκές εκδόσεις
5 Μελέτες Περίπτωσης Στατιστικών •Αυτοματοποιημένη περίληψη που να υποστηρίζει την ανασκόπηση βιβλιογραφίας –Χρόνος ανάγνωσης και σύνοψης περιεχομένου ενός ακαδ. άρθρου = 31 λεπτά –Χρόνος για να διαβαστεί μια αυτοματοποιημένη περίληψη = 5 λεπτά –Χρόνος που εξοικονομείται 26 λεπτά –Εξοικονόμηση κόστους ανά περίληψη = 15,8 € •131 εργαλεία εξόρυξης κειμένου στο SciVerse –22 χρησιμοποιούν association rules, classification ή clustering –12 από αυτά αναφέρονται σε ακαδημαϊκές εκδόσεις –5 επικεντρώνονται μόνο στους συγγραφείς –2 μόνο βρίσκουν ομοιότητες αλλά χρησιμοποιούν ελάχιστα μεταδεδομένα
6 Μελέτη Περίπτωσης Αναζήτησης •Αναζήτηση στο Google για το θέμα «Συμπεριφορά αναζήτησης πληροφοριών» •7 εκ. σελίδες – 700 χιλ. Pdf •Συνήθης τακτική: download από τις πρώτες σελίδες αποτελεσμάτων •Λόγοι: Περιορισμοί στη λήψη αποφάσεων – έλλειψη γνωστικής προσπάθειας στην ανάπτυξη ερωτημάτων μέσω κριτηρίων •Συμπέρασμα: Η διαδικασία της αξιολόγησης ανακτώμενων εγγράφων στα πλαίσια των διερευνητικών αναζητήσεων είναι απαιτητική τόσο από πλευράς χρόνου όσο και γνωστικής προσπάθειας που ξοδεύεται
7 Σκοπός-Στόχοι Εργαλείου •Υποστήριξη και βελτιστοποίηση της διαδικασίας λήψης αποφάσεων των χρηστών •Μείωση χρόνου που ξοδεύεται για την σύγκριση και ανακάλυψη ομοιότητας μεταξύ ακαδημαϊκών άρθρων •Διευκόλυνση στη κρίση για τη χρησιμότητα ανάγνωσης συγκεκριμένων ακαδημαϊκών άρθρων •Κατανόηση του περιεχομένου ενός επιλεγμένου συνόλου εκδόσεων •Συμπληρωματικό (plug-in) στα IR συστήματα, μηχανές αναζήτησης και όχι υποκατάστατο
8 Κύρια Χαρακτηριστικά Εργαλείου •Προτείνεται ένα εργαλείο σε Java (στο στάδιο υλοποίησης): –Αυτοματοποιημένο – Αγγλική Γλώσσα –Θα εντοπίζει σημασιολογικές ομοιότητες μεταξύ ανακτώμενων συγγραμμάτων μέσω συμβατικών και μη κριτηρίων (π.χ. Μέθοδοι έρευνας και τεχνικές ανάλυσης αποτελεσμάτων) –Μέσω συνδυασμών μεταδεδομένων θα ανακαλύπτει και θα οπτικοποιεί •Κρυμμένα μοτίβα •Κανόνες σχέσεις (association rules) – π.χ. 80% των άρθρων του συγγραφέα Χ περιέχουν την λέξη Υ στις λέξεις-κλειδιά •Κατηγοριοποίηση (classification) •Συσταδοποίηση (clustering) – Οπτικοποίηση ομαδοποίησης εγγράφων απάντησης D ενός ερωτήματος q του χρήστη –Θα δημιουργεί μια βάση ορολογιών μέσω ανάλυσης ευρετηρίων από e- books –Προβλέπεται ενσωμάτωση σε υπάρχοντα εργαλεία και μηχανές εργαλείων ακαδημαϊκών εκδόσεων
9 Μεθοδολογία Εργαλείου •Γραμμένο σε Java (Write Once, Run Anywhere) •Desktop application με σκοπό την ενσωμάτωση σε ακαδημαϊκά αποθετήρια, ακαδημαϊκές ψηφιακές βιβλιοθήκες και μηχανές αναζήτησης •Μεταφόρτωση αρχείων κειμένου και μετατροπή σε.xml •Δημιουργία πινάκων μεταδεδομένων •Επιλογή και ανάθεση κριτηρίων ομοιότητας
10 Πίνακες Μεταδεδομένων •Μεταδεδομένα: –Άρθρου –Λέξεων – Κλειδιά –Περίληψης –Κυρίου Σώματος –Συγγραφέων –Αναφορών •Η συντριπτική πλειοψηφία θα εισάγονται αυτοματοποιημένα και ορισμένα manually
11 Δομή Πινάκων Μεταδεδομένων
12 Κριτήρια Ομοιότητας •Άρθρο πηγή (υψίστης χρησιμότητας για τον χρήστη) •Τιμές με ένα δεκαδικό μεταξύ 0 και 1 •Αυτόματη Εισαγωγή (προεπιλεγμένη από τον προγραμματιστή) •Εισαγωγή από το χρήστη •Ημιαυτόματη Εισαγωγή (μέσω scroll bars)
Αλγόριθμοι Ομοιότητας & Εξόρυξης Δεδομένων •Αρχικός Αλγόριθμος: •όπου: Wi = η βαρύτητα, N = ο αριθμός των άρθρων στη βάση δεδομένων και Xij = ο αριθμός όλων των άρθρων (j) που μοιράζονται μια κοινή τιμή μεταδεδομένου με το άρθρο «πηγή» •Μελέτη αλγόριθμων εξόρυξης δεδομένων όπως C4.5, K-Means, SVM: Support Vector Machines, EM, PageRank, AdaBoost, k-Nearest Neighbors, Naïve Bayes and CART
14 Ροή Εργασίας Μεταδεδομένων
15 Προσδιορισμός Μεθοδολογιών Ακαδημαϊκών Άρθρων •Αποθετήριο γλωσσάριων και υπο-γλωσσάριων –Δημιουργία μέσω ευρετηρίων e-books •Δενδροειδής μορφή •Χρήση των labels και headers της.xml •Ανίχνευση της μεθοδολογίας μέσω αντιστοίχησης των λέξεων του άρθρου με τα γλωσσάρια
16 Δοκιμή & Αξιολόγηση •Μερικές δεκάδες χιλιάδες ακαδημαϊκά άρθρα, περιοδικά, πρακτικά, e-books. •Πηγές: open access ηλεκτρονικές βιβλιοθήκες, καταλόγους, βάσεις δεδομένων διατριβών, πανεπιστημιακές βιβλιοθήκες και ακαδημαϊκές προσωπικές συλλογές •Αξιολόγηση μέσω τεστ χρηστικότητας και μελετών χρηστών από φοιτητές, πανεπιστημιακούς και ειδικούς
17 Συμπεράσματα – Τρέχουσα Εργασία •Εφαρμογή data mining και text mining τεχνικών προκειμένου να αποκαλυφθούν ομοιότητες μεταξύ ακαδημαϊκών συγγραμμάτων •Επιλογή πληθώρας κριτηρίων •Δημιουργία γλωσσαρίων •Έρευνα και υλοποίηση σε εξέλιξη •Προσπάθεια για αυτόματη τροφοδότηση άρθρων μέσω Web
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - Εμμανουήλ Γαρουφάλλου - Πάνος Μπαλατσούκας -