Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος όμοιων εγγραφών Επιβλέποντες: Γεώργιος Παλιούρας – Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Τίμος Σελλής – Καθηγητής Ε.Μ.Π. ΠΑΠΑΔΑΚΗΣ ΓΕΩΡΓΙΟΣ
…Βιβλιογραφικών Αναφορών… Βιβλιογραφική Αναφορά (citation): μέθοδος αναγνώρισης της συνεισφοράς μιας επιστημονικής εργασίας σε κάποιο άλλο ερευνητικό έργο. Πρακτική Σημασία : τρόπος αξιολόγησης του ερευνητικού έργου των επιστημόνων. Εμπνευστής: Eugene Garfield (1955) Μειονεκτήματα Αντικειμενικότητας Ανάγκη Αυτοματοποίησης της διαδικασίας συλλογής των βιβλιογραφικών αναφορών
…δικτύου βιβλιογραφικών αναφορών… ■ Γράφος → κοινωνικό δίκτυο ■ Κόμβοι → επιστήμονες ■ Ακμές → citations ή συνεργασίες επιστημόνων σε δημοσιεύσεις
…ενημέρωση δικτύου βιβλιογραφικών αναφορών… Απαιτείται επίλυση των ακόλουθων προβλημάτων: 1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών 2. Ταίριασμα Βιβλιογραφικών Αναφορών (Citation Matching Problem - CMP) 3. Πρόβλημα των Ομώνυμων Συγγραφέων (Mixed Citation Problem – MCP ) 4. Πρόβλημα των Συνώνυμων Συγγραφέων (Split Citation Problem - SCP)
1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών Ακαδημαϊκές Μηχανές Αναζήτησης Γενικές με μεγάλες δυνατότητες (π.χ. ανάλυση βιβλιογραφικών αναφορών) 1. Scopus (2004) 2. Web of Science 3. Google Scholar (2005) Γενικές με περιορισμένες δυνατότητες 1. Live Search Academic (2007) 2. Citeseer (1997) Εξειδικευμένες 1. ACM Digital Libray 2. DBLP 3. PudMed Central 4. SciFinder Scholar Καμία από αυτές δεν λύνει επαρκώς και τα 4 προηγούμενα προβλήματα
2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Α) Ορισμός: Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα αφορούν την ίδια δημοσίευση. Αίτια: Ακαθόριστη σειρά των πεδίων (συγγραφείς, τίτλος κλπ) Κάποια πεδία σε ορισμένες βιβλιογραφικές αναφορές παραλείπονται. Παράθεση τίτλων περιοδικών/συνεδρίων στη συντομευμένη τους μορφή. Ορθογραφικά λάθη Παράδειγμα :
2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Β) Δεν αντιμετωπίζουμε το citation matching πρόβλημα στην συνηθισμένη του μορφή αλλά όπως αυτό εμφανίζεται στα αποτελέσματα του Google Scholar: ορθογραφικό λάθος στους τίτλους τοποθέτηση ονομάτων συγγραφέων στη θέση ή στην αρχή του τίτλου προσθήκη συνεδρίου στο τέλος του τίτλου
3. Πρόβλημα των Ομώνυμων Συγγραφέων Mixed Citation Problem Ορισμός : Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών, έστω C, που αφορούν ένα συγγραφέα a i, να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα είναι γραμμένες από ένα διαφορετικό συγγραφέα a j, που τυχαίνει να έχει το ακριβώς ίδιο όνομα. Αίτια : συνηθισμένα ονόματα και επίθετα οι συγγραφείς δηλώνονται συνήθως μόνο με το πρώτο γράμμα του ονόματός τους ακολουθούμενο από το επίθετό τους Παράδειγμα :
4. Πρόβλημα των Συνώνυμων Συγγραφέων Split Citation Problem Ορισμός: Δεδομένων δυο λιστών με ονόματα συγγραφέων, έστω X και Y, για κάθε όνομα συγγραφέα x ( X), να βρεθεί ένα σύνολο ονομάτων, y 1, y 2, …, y n ( Y), τέτοια ώστε τόσο το x όσο και τα y i (1≤i≤n) να αποτελούν παραλλαγές του ονόματος του ίδιου συγγραφέα. Αίτια: υποκοριστικά (π.χ. Jeff αντί Jeffrey) ορθογραφικά λάθη λάθη στο λογισμικό συλλογής δεδομένων ■ Παράδειγμα:
…τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Α) Χειρωνακτική Δημιουργία και Συντήρηση wrappper για εξαγωγή δεδομένων από τις HTML σελίδες των αποτελεσμάτων του Google Scholar Περιορισμοί Google Scholar: Μέχρι 1000 αποτελέσματα για κάθε ερώτημα Πολιτική αποτροπής αυτόματης εξαγωγής δεδομένων από προγράμματα
…τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Β) Δεδομένα τα οποία αντλούμε από τις εγγραφές του Google Scholar: Τίτλος Συγγραφείς Abstarct URLs Έτος και Μήνας Δημοσίευσης Τύπος Δημοσίευσης Τίτλος συνεδρίου ή περιοδικού Τόμος (volume), Έκδοση (issue) Σελίδες περιοδικού ή πρακτικών Εκδότης Δεν έχουν όλες οι εγγραφές του την ίδια ποιότητα πληροφοριών
…ταιριάσματος όμοιων εγγραφών (επίλυση των προβλημάτων 2, 3 και 4) Μετρικές Μορφολογικής Απόστασης Συμβολοσειρών (String Distance Metrics) Κατηγορίες ανάλογα με τον τρόπο αναπαράστασης των δεδομένων που συγκρίνουν: αναπαράσταση με χαρακτήρες (Edit Distance, Jaro) αναπαράσταση με σύνολο λέξεων - tokens (Jaccard, TFIDF) υβριδικές μέθοδοι (SoftTFIDF, Monge-Elkan) Q-grams Για τη σύγκριση ονομάτων επιλέξαμε τη Jaro. Για τις υπόλοιπες συγκρίσεις (τίτλοι, URL κλπ) τη SoftTFIDF σε συνδυασμό με τη Jaro.
Αλγόριθμος Citation Matching Ταξινόμηση των νέων δημοσιεύσεων Για κάθε δημοσίευση, εξετάζουμε αν ο τίτλος της υπάρχει αυτούσιος καταχωρημένος στη ΒΔ. Αν υπάρχει, σταματάμε την επεξεργασία της τρέχουσας δημοσίευσης. Αν δεν υπάρχει, συγκρίνουμε τον τρέχοντα τίτλο με τους τίτλους των προηγούμενων στην κατάταξη δημοσιεύσεων. Αν δε βρεθεί ταίριασμα και πληρούνται κάποια κριτήρια, συγκρίνουμε την τρέχουσα δημοσίευση πάλι με τις προηγούμενες στην κατάταξη με βάση την εξής συμβολοσειρά: συγγραφείς + τίτλος δημοσίευσης + τίτλος περιοδικού/συνεδρίου
Αλγόριθμος Mixed & Split Citation Problem Για κάθε συγγραφέα κάθε δημοσίευσης δημιουργούμε ένα κόμβο σε ένα μη κατευθυνόμενο γράφο. Για τις ήδη καταχωρημένες στη ΒΔ δημοσιεύσεις τοποθετούμε σε μια γραμμή τους κόμβους που αντιστοιχούν στον ίδιο επιστήμονα Τους συγγραφείς των νέων δημοσιεύσεων τους συγκρίνουμε με τους αντίστοιχους των προηγούμενων στην κατάταξη δημοσιεύσεων ως εξής: από τους συγγραφείς κάθε δημοσίευσης διαλέγουμε μόνο τον πιο όμοιο με τον τρέχοντα συγγραφέα και εξετάζουμε διεξοδικότερα την ομοιότητα τους με τον ακόλουθο τύπο: 1.4 • ποσοστό κοινών συν-συγγραφέων + ποσοστό κοινών λέξεων των τίτλων + ποσοστό κοινών URL + ομοιότητα ονομάτων > 1.9 Χωρίζουμε το γράφο σε συνεκτικές συνιστώσες (connected components)
Ενδεικτική Αξιολόγηση Αλγορίθμων Η επίδοση των αλγορίθμων επηρεάζεται από τον επιστημονικό κλάδο των δημοσιεύσεων και την εθνικότητα των συγγραφέων. Περιορισμένο Σύνολο Δεδομένων: Ικανοποιητικά Αποτελέσματα Αλγόριθμος Προτεινόμενα Ταιριάσματα Λάθος Ταιριάσματα Πραγματικά ταιριάσματα Μη Ταιριάσματα Citation Matching Name Disambiguation ΑλγόριθμοςΑκρίβειαΑνάκληση Citation Matching68.57%85.71% Name Disambiguation94.54%96.24%
Αναζήτηση Δεδομένων από το Web Όλα τα παραπάνω προβλήματα λύνονται κατά τη διάρκεια μιας αναζήτησης από το Web πριν τα δεδομένα καταχωρηθούν στη ΒΔ: Εύρεση των δημοσιεύσεων και των ενδεχόμενων συνώνυμών του δοσμένου επιστήμονα Ανάκτηση των δημοσιεύσεων που αντιστοιχούν σε κάθε επιβεβαιωμένο συνώνυμο Επίλυση citation matching προβλήματος Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων Επίλυση των προβλημάτων mixed και split citation Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων Αναζήτηση των βιβλιογραφικών αναφορών για τις δημοσιεύσεις του δοσμένου επιστήμονα
…τεχνολογίας λογισμικού… Μοντέλο κύκλου ζωής που επιλέχθηκε για την ανάπτυξη του συστήματος: Μοντέλο Πρωτοτυποποίησης 1ο στάδιο: σχεδιασμός βάσης δεδομένων 2ο στάδιο: δημιουργία πρωτοτύπου για εξόρυξη απαιτήσεων
Πληροφοριακό Σύστημα… (Α) Λειτουργικές απαιτήσεις: On-line εύρεση όλων των δημοσιεύσεων ενός επιστήμονα και όλων των citations για κάθε μια. Προβολή του συνόλου των καταχωρημένων δημοσιεύσεων ενός επιστήμονα σε συνδυασμό με τα citations τους. Προβολή των co-authors ενός συγκεκριμένου συγγραφέα σε συνδυασμό με το πλήθος των κοινών δημοσιεύσεων. Προβολή των citing authors σε συνδυασμό με τις δημοσιεύσεις που αναφέρουν. Ενημέρωση του wrapper του Google Scholar Εμπλουτισμός με νέες δυνατότητες στο μέλλον.
Πληροφοριακό Σύστημα… (Β) Μη λειτουργικές απαιτήσεις: Εύκολη συντήρηση και επέκταση Εύχρηστο γραφικό περιβάλλον Κλιμακωσιμότητα – scalability Καμία ιδιαίτερη απαίτηση από άποψη υλικού. Απαιτείται μόνο δυνατότητα σύνδεσης στο Διαδίκτυο. Γλώσσα Προγραμματισμού: Java 1.5 (IDE: Netbeans 5.0) DBMS: MySQL 5.0 (MySQL GUI Tools )
Πληροφοριακό Σύστημα… (Γ) Αρχιτεκτονική Σχεδίαση : Δομή βασισμένη στη λειτουργική συνεκτικότητα και στη σύζευξη δεδομένων Διαίρεση του συστήματος στα ακόλουθα υποσυστήματα : GUI DBMS InfoManagement GSWrapper MachineLearning
Συμπεράσματα Κάλυψη όλων των λειτουργικών απαιτήσεων. Κάλυψη όλων των μη λειτουργικών απαιτήσεων. Ικανοποιητικά αποτελέσματα αλγορίθμων αλλά χρειάζεται διεξοδικότερος έλεγχος. Μοναδικό πρόβλημα από την πολιτική του Google Scholar.
Μελλοντικές Επεκτάσεις Δυνατότητα άντλησης δεδομένων και από άλλες ακαδημαϊκές μηχανές αναζήτησης εκτός του Google Scholar. Βελτίωση των αλγορίθμων μηχανικής μάθησης. Περισσότερες δυνατότητες όσον αφορά την αλληλεπίδρασή του συστήματος με το χρήστη. αναζήτηση των νέων citations για μια συγκεκριμένη δημοσίευση μεταβολή από το χρήστη των δεδομένων που αφορούν μια δημοσίευση μεγαλύτερη ευελιξία στο χρήστη κατά την επικύρωση των αποτελεσμάτων των αλγορίθμων μηχανικής μάθησης οπτικοποίηση του κοινωνικού δικτύου-γράφου που δημιουργούν τα citations εξαγωγή των καταχωρημένων δημοσιεύσεων ενός συγγραφέα σε συνδυασμό με τα citations τους σε αρχεία text, HTML ή XML