Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος."— Μεταγράφημα παρουσίασης:

1 Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος όμοιων εγγραφών Επιβλέποντες: Γεώργιος Παλιούρας – Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Τίμος Σελλής – Καθηγητής Ε.Μ.Π. ΠΑΠΑΔΑΚΗΣ ΓΕΩΡΓΙΟΣ

2 …Βιβλιογραφικών Αναφορών…  Βιβλιογραφική Αναφορά (citation): μέθοδος αναγνώρισης της συνεισφοράς μιας επιστημονικής εργασίας σε κάποιο άλλο ερευνητικό έργο.  Πρακτική Σημασία : τρόπος αξιολόγησης του ερευνητικού έργου των επιστημόνων.  Εμπνευστής: Eugene Garfield (1955)  Μειονεκτήματα Αντικειμενικότητας  Ανάγκη Αυτοματοποίησης της διαδικασίας συλλογής των βιβλιογραφικών αναφορών

3 …δικτύου βιβλιογραφικών αναφορών… ■ Γράφος → κοινωνικό δίκτυο ■ Κόμβοι → επιστήμονες ■ Ακμές → citations ή συνεργασίες επιστημόνων σε δημοσιεύσεις

4 …ενημέρωση δικτύου βιβλιογραφικών αναφορών…  Απαιτείται επίλυση των ακόλουθων προβλημάτων: 1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών 2. Ταίριασμα Βιβλιογραφικών Αναφορών (Citation Matching Problem - CMP) 3. Πρόβλημα των Ομώνυμων Συγγραφέων (Mixed Citation Problem – MCP ) 4. Πρόβλημα των Συνώνυμων Συγγραφέων (Split Citation Problem - SCP)

5 1. Πρόσβαση στις πρωτογενείς πηγές δημοσιοποίησης επιστημονικών εργασιών  Ακαδημαϊκές Μηχανές Αναζήτησης  Γενικές με μεγάλες δυνατότητες (π.χ. ανάλυση βιβλιογραφικών αναφορών) 1. Scopus (2004) 2. Web of Science 3. Google Scholar (2005)  Γενικές με περιορισμένες δυνατότητες 1. Live Search Academic (2007) 2. Citeseer (1997)  Εξειδικευμένες 1. ACM Digital Libray 2. DBLP 3. PudMed Central 4. SciFinder Scholar Καμία από αυτές δεν λύνει επαρκώς και τα 4 προηγούμενα προβλήματα

6 2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Α)  Ορισμός: Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα αφορούν την ίδια δημοσίευση.  Αίτια:  Ακαθόριστη σειρά των πεδίων (συγγραφείς, τίτλος κλπ)  Κάποια πεδία σε ορισμένες βιβλιογραφικές αναφορές παραλείπονται.  Παράθεση τίτλων περιοδικών/συνεδρίων στη συντομευμένη τους μορφή.  Ορθογραφικά λάθη  Παράδειγμα :

7 2. Ταίριασμα Βιβλιογραφικών Αναφορών Citation Matching (Β)  Δεν αντιμετωπίζουμε το citation matching πρόβλημα στην συνηθισμένη του μορφή αλλά όπως αυτό εμφανίζεται στα αποτελέσματα του Google Scholar:  ορθογραφικό λάθος στους τίτλους  τοποθέτηση ονομάτων συγγραφέων στη θέση ή στην αρχή του τίτλου  προσθήκη συνεδρίου στο τέλος του τίτλου

8 3. Πρόβλημα των Ομώνυμων Συγγραφέων Mixed Citation Problem  Ορισμός : Δεδομένου ενός συνόλου βιβλιογραφικών αναφορών, έστω C, που αφορούν ένα συγγραφέα a i, να εντοπιστούν γρήγορα και με ακρίβεια οι βιβλιογραφικές αναφορές που στην πραγματικότητα είναι γραμμένες από ένα διαφορετικό συγγραφέα a j, που τυχαίνει να έχει το ακριβώς ίδιο όνομα.  Αίτια :  συνηθισμένα ονόματα και επίθετα  οι συγγραφείς δηλώνονται συνήθως μόνο με το πρώτο γράμμα του ονόματός τους ακολουθούμενο από το επίθετό τους  Παράδειγμα :

9 4. Πρόβλημα των Συνώνυμων Συγγραφέων Split Citation Problem  Ορισμός: Δεδομένων δυο λιστών με ονόματα συγγραφέων, έστω X και Y, για κάθε όνομα συγγραφέα x (  X), να βρεθεί ένα σύνολο ονομάτων, y 1, y 2, …, y n (  Y), τέτοια ώστε τόσο το x όσο και τα y i (1≤i≤n) να αποτελούν παραλλαγές του ονόματος του ίδιου συγγραφέα.  Αίτια:  υποκοριστικά (π.χ. Jeff αντί Jeffrey)  ορθογραφικά λάθη  λάθη στο λογισμικό συλλογής δεδομένων ■ Παράδειγμα:

10 …τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Α)  Χειρωνακτική Δημιουργία και Συντήρηση wrappper για εξαγωγή δεδομένων από τις HTML σελίδες των αποτελεσμάτων του Google Scholar  Περιορισμοί Google Scholar:  Μέχρι 1000 αποτελέσματα για κάθε ερώτημα  Πολιτική αποτροπής αυτόματης εξαγωγής δεδομένων από προγράμματα

11 …τεχνικές εξαγωγής πληροφορίας… (επίλυση 1 ου προβλήματος - Β)  Δεδομένα τα οποία αντλούμε από τις εγγραφές του Google Scholar:  Τίτλος  Συγγραφείς  Abstarct  URLs  Έτος και Μήνας Δημοσίευσης  Τύπος Δημοσίευσης  Τίτλος συνεδρίου ή περιοδικού  Τόμος (volume),  Έκδοση (issue)  Σελίδες περιοδικού ή πρακτικών  Εκδότης  Δεν έχουν όλες οι εγγραφές του την ίδια ποιότητα πληροφοριών

12 …ταιριάσματος όμοιων εγγραφών (επίλυση των προβλημάτων 2, 3 και 4)  Μετρικές Μορφολογικής Απόστασης Συμβολοσειρών (String Distance Metrics)  Κατηγορίες ανάλογα με τον τρόπο αναπαράστασης των δεδομένων που συγκρίνουν:  αναπαράσταση με χαρακτήρες (Edit Distance, Jaro)  αναπαράσταση με σύνολο λέξεων - tokens (Jaccard, TFIDF)  υβριδικές μέθοδοι (SoftTFIDF, Monge-Elkan)  Q-grams  Για τη σύγκριση ονομάτων επιλέξαμε τη Jaro.  Για τις υπόλοιπες συγκρίσεις (τίτλοι, URL κλπ) τη SoftTFIDF σε συνδυασμό με τη Jaro.

13 Αλγόριθμος Citation Matching  Ταξινόμηση των νέων δημοσιεύσεων  Για κάθε δημοσίευση, εξετάζουμε αν ο τίτλος της υπάρχει αυτούσιος καταχωρημένος στη ΒΔ.  Αν υπάρχει, σταματάμε την επεξεργασία της τρέχουσας δημοσίευσης.  Αν δεν υπάρχει, συγκρίνουμε τον τρέχοντα τίτλο με τους τίτλους των προηγούμενων στην κατάταξη δημοσιεύσεων.  Αν δε βρεθεί ταίριασμα και πληρούνται κάποια κριτήρια, συγκρίνουμε την τρέχουσα δημοσίευση πάλι με τις προηγούμενες στην κατάταξη με βάση την εξής συμβολοσειρά: συγγραφείς + τίτλος δημοσίευσης + τίτλος περιοδικού/συνεδρίου

14 Αλγόριθμος Mixed & Split Citation Problem  Για κάθε συγγραφέα κάθε δημοσίευσης δημιουργούμε ένα κόμβο σε ένα μη κατευθυνόμενο γράφο.  Για τις ήδη καταχωρημένες στη ΒΔ δημοσιεύσεις τοποθετούμε σε μια γραμμή τους κόμβους που αντιστοιχούν στον ίδιο επιστήμονα  Τους συγγραφείς των νέων δημοσιεύσεων τους συγκρίνουμε με τους αντίστοιχους των προηγούμενων στην κατάταξη δημοσιεύσεων ως εξής:  από τους συγγραφείς κάθε δημοσίευσης διαλέγουμε μόνο τον πιο όμοιο με τον τρέχοντα συγγραφέα και εξετάζουμε διεξοδικότερα την ομοιότητα τους με τον ακόλουθο τύπο: 1.4 • ποσοστό κοινών συν-συγγραφέων + ποσοστό κοινών λέξεων των τίτλων + ποσοστό κοινών URL + ομοιότητα ονομάτων > 1.9  Χωρίζουμε το γράφο σε συνεκτικές συνιστώσες (connected components)

15 Ενδεικτική Αξιολόγηση Αλγορίθμων  Η επίδοση των αλγορίθμων επηρεάζεται από τον επιστημονικό κλάδο των δημοσιεύσεων και την εθνικότητα των συγγραφέων.  Περιορισμένο Σύνολο Δεδομένων:   Ικανοποιητικά Αποτελέσματα Αλγόριθμος Προτεινόμενα Ταιριάσματα Λάθος Ταιριάσματα Πραγματικά ταιριάσματα Μη Ταιριάσματα Citation Matching Name Disambiguation ΑλγόριθμοςΑκρίβειαΑνάκληση Citation Matching68.57%85.71% Name Disambiguation94.54%96.24%

16 Αναζήτηση Δεδομένων από το Web  Όλα τα παραπάνω προβλήματα λύνονται κατά τη διάρκεια μιας αναζήτησης από το Web πριν τα δεδομένα καταχωρηθούν στη ΒΔ:  Εύρεση των δημοσιεύσεων και των ενδεχόμενων συνώνυμών του δοσμένου επιστήμονα  Ανάκτηση των δημοσιεύσεων που αντιστοιχούν σε κάθε επιβεβαιωμένο συνώνυμο  Επίλυση citation matching προβλήματος  Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων  Επίλυση των προβλημάτων mixed και split citation  Επεξεργασία των αποτελεσμάτων από το χρήστη και καταχώρησή τους στη βάση δεδομένων  Αναζήτηση των βιβλιογραφικών αναφορών για τις δημοσιεύσεις του δοσμένου επιστήμονα

17 …τεχνολογίας λογισμικού…  Μοντέλο κύκλου ζωής που επιλέχθηκε για την ανάπτυξη του συστήματος: Μοντέλο Πρωτοτυποποίησης  1ο στάδιο: σχεδιασμός βάσης δεδομένων  2ο στάδιο: δημιουργία πρωτοτύπου για εξόρυξη απαιτήσεων

18 Πληροφοριακό Σύστημα… (Α)  Λειτουργικές απαιτήσεις:  On-line εύρεση όλων των δημοσιεύσεων ενός επιστήμονα και όλων των citations για κάθε μια.  Προβολή του συνόλου των καταχωρημένων δημοσιεύσεων ενός επιστήμονα σε συνδυασμό με τα citations τους.  Προβολή των co-authors ενός συγκεκριμένου συγγραφέα σε συνδυασμό με το πλήθος των κοινών δημοσιεύσεων.  Προβολή των citing authors σε συνδυασμό με τις δημοσιεύσεις που αναφέρουν.  Ενημέρωση του wrapper του Google Scholar  Εμπλουτισμός με νέες δυνατότητες στο μέλλον.

19 Πληροφοριακό Σύστημα… (Β)  Μη λειτουργικές απαιτήσεις:  Εύκολη συντήρηση και επέκταση  Εύχρηστο γραφικό περιβάλλον  Κλιμακωσιμότητα – scalability  Καμία ιδιαίτερη απαίτηση από άποψη υλικού. Απαιτείται μόνο δυνατότητα σύνδεσης στο Διαδίκτυο.  Γλώσσα Προγραμματισμού: Java 1.5 (IDE: Netbeans 5.0)  DBMS: MySQL 5.0 (MySQL GUI Tools )

20 Πληροφοριακό Σύστημα… (Γ)  Αρχιτεκτονική Σχεδίαση :  Δομή βασισμένη στη λειτουργική συνεκτικότητα και στη σύζευξη δεδομένων  Διαίρεση του συστήματος στα ακόλουθα υποσυστήματα :  GUI  DBMS  InfoManagement  GSWrapper  MachineLearning

21 Συμπεράσματα  Κάλυψη όλων των λειτουργικών απαιτήσεων.  Κάλυψη όλων των μη λειτουργικών απαιτήσεων.  Ικανοποιητικά αποτελέσματα αλγορίθμων αλλά χρειάζεται διεξοδικότερος έλεγχος.  Μοναδικό πρόβλημα από την πολιτική του Google Scholar.

22 Μελλοντικές Επεκτάσεις  Δυνατότητα άντλησης δεδομένων και από άλλες ακαδημαϊκές μηχανές αναζήτησης εκτός του Google Scholar.  Βελτίωση των αλγορίθμων μηχανικής μάθησης.  Περισσότερες δυνατότητες όσον αφορά την αλληλεπίδρασή του συστήματος με το χρήστη.  αναζήτηση των νέων citations για μια συγκεκριμένη δημοσίευση  μεταβολή από το χρήστη των δεδομένων που αφορούν μια δημοσίευση  μεγαλύτερη ευελιξία στο χρήστη κατά την επικύρωση των αποτελεσμάτων των αλγορίθμων μηχανικής μάθησης  οπτικοποίηση του κοινωνικού δικτύου-γράφου που δημιουργούν τα citations  εξαγωγή των καταχωρημένων δημοσιεύσεων ενός συγγραφέα σε συνδυασμό με τα citations τους σε αρχεία text, HTML ή XML


Κατέβασμα ppt "Πληροφοριακό Σύστημα Ενημέρωσης Δικτύου Βιβλιογραφικών Αναφορών από τον Ιστό με τεχνικές εξαγωγής πληροφορίας, τεχνολογίας λογισμικού και ταιριάσματος."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google