Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

“A Comparison of On-Line Science Citation Databases” Vaclav Petricek, Ingemar J. Cox, Hui Han, Isaac G. Councill,C. Lee Giles «Σύγκριση on-line επιστημονικών.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "“A Comparison of On-Line Science Citation Databases” Vaclav Petricek, Ingemar J. Cox, Hui Han, Isaac G. Councill,C. Lee Giles «Σύγκριση on-line επιστημονικών."— Μεταγράφημα παρουσίασης:

1 “A Comparison of On-Line Science Citation Databases” Vaclav Petricek, Ingemar J. Cox, Hui Han, Isaac G. Councill,C. Lee Giles «Σύγκριση on-line επιστημονικών βάσεων δεδομένων παραπομπών» Research and Advanced Technology for Digital Libraries 9th European Conference Παρουσίαση: Πουλημένου Αλίκη Σύλβια

2 Εισαγωγή Δημόσιες on-line βάσεις δεδομένων παραπομπών (public citation data bases). Παραπομπές άρθρων από την Επιστήμη της Πληροφορικής. DBLP (DataBase systems and Logic Programming ή Digital Bibliography & Library Project): Michael Ley (1998), 550.000 παραπομπές (citations) άρθρων από περίπου 368.000 συγγραφείς. CiteSeer (Scientific Literature Digital Library): Steve Lawrence και C.Lee Giles (1997), 716.797 παραπομπές.

3 Χρησιμότητα μιας Β.Δ. Εύρεση άρθρων και εκδόσεων. Πηγές έγκυρου υλικού από άποψη ποιότητας περιεχομένου. Εύρεση άρθρων με υψηλό αριθμό παραπομπών (κατά συνέπεια άρθρα που θεωρούνται ιδιαίτερα σημαντικά). Πρόσθετες πηγές από άρθρα. Από όλα τα παραπάνω προκύπτει η αξιολόγηση των ακαδημαϊκών.

4 Τρόπος απόκτησης υλικού DBLP: Καταχώρηση από φοιτητές – εθελοντές μη αυτόματα (manually). Καταχώρηση από φοιτητές – εθελοντές μη αυτόματα (manually). Πίνακες περιεχομένων περιοδικών, πρακτικά συνεδρίων, εισαγωγή δεδομένων παραπομπών (ως μέρος σύνθεσης των CD/DVD της ACM anthology – ΨΒ για συστήματα ΒΔ). Πίνακες περιεχομένων περιοδικών, πρακτικά συνεδρίων, εισαγωγή δεδομένων παραπομπών (ως μέρος σύνθεσης των CD/DVD της ACM anthology – ΨΒ για συστήματα ΒΔ). Στενότερο εύρος κάλυψης σε σχέση με την CiteSeer. Στενότερο εύρος κάλυψης σε σχέση με την CiteSeer. Πλήρη κάλυψη του αντικειμένου - μεταδεδομένα Πλήρη κάλυψη του αντικειμένου - μεταδεδομένα CiteSeer: Υποβολή άρθρου από χρήστη. Crawler (προγράμματα για το χτίσιμο βάσεων δεδομένων – ανάκτηση συγκεκριμένων αποτελεσμάτων ως αιτήματα, ολόκληρους ιστοτόπους) Βιβλιογραφία από σελίδες ανακτηθήσες μέσω crawler. Self-selected on-line survey: ο χρήστης αυτοεξυπηρετείται και όλες οι διαδικασίες έιναι αυτόματες.

5 Για την διεξαγωγή συμπερασμάτων: Απόσπαση συνόλου δεδομένων: DBLP: 352.024 άρθρα από την χρονική περίοδο 1990-2002. DBLP: 352.024 άρθρα από την χρονική περίοδο 1990-2002. CiteSeer: 325.046 άρθρα (μόνο μέσω crawling) για την ίδια με την DBLP χρονική περίοδο. CiteSeer: 325.046 άρθρα (μόνο μέσω crawling) για την ίδια με την DBLP χρονική περίοδο. 1990-2002: ικανός αριθμός άρθρων και αντικειμένικά συμπεράσματα. Σύγκριση των συνόλων αυτών.

6 Συμπεράσματα 1/4 Διεξήχθησαν μέσω μαθηματικών μοντέλων, κυρίως θεωρία πιθανοτήτων προχωρούμε στα συμπεράσματα χωρίς να αναλύσουμε τα χρονοβόρα μαθηματικά μοντέλα. Η επεξήγηση των μοντέλων υπάρχει αναλυτικά στην εργασία.

7

8 Συμπεράσματα 2/4 Ο αριθμός άρθρων της DBLP είναι διαρκώς αυξανόμενος (1990-2002): Έκδοση περισσοτέρων άρθρων κάθε χρόνο. Χρηματοδότηση. Βελτίωση αποδοτικότητας Η CiteSeer ξεκινά με μια ανοδική πορεία (1990- 1997). Στη συνέχεια όμως παίρνει φθίνουσα πορεία: Μείωση διατήρησης υλικού και κάλυψης αντικειμένου. Ανησυχίες σχετικά με ζητήματα πνευματικής ιδιοκτησίας. Dark matter effect: σύνολο πληροφορίας που δεν είναι ορατή στο διαδίκτυο – rejection, new browser, robots.txt, restriction). Λήξη μεγάλου ενθουσιασμού για τη χρήση του web. Διαδικασία αποστολής υλικού (submission).

9 Συμπεράσματα 3/4 DBLP και CiteSeer Ανοδική πορεία καθώς ανεβαίνει ο μέσος αριθμός συγγραφέων (περισσότερα άρθρα από μεγάλες ομάδες συγγραφής) ανα άρθρο. CiteSeer Περισσότερες μεγάλες σε αριθμό ομάδες συγγραφής από την DBLP. Αίτια: Χρηματοδότηση – προτίμηση σε συνεργατικές έρευνες. Χρηματοδότηση – προτίμηση σε συνεργατικές έρευνες. Συνεργασία εύκολα εφικτή μέσω email και web. Συνεργασία εύκολα εφικτή μέσω email και web.

10 Συμπεράσματα 4/4 Ομάδα συγγραφής 1-3 CiteSeer λιγότερα άρθρα σε σχέση με την DBLP. Άρθρα από 1 συγγραφέα: Άρθρα από 1 συγγραφέα: συχνότητα της CiteSeer = 77%DBLP. Καταχώρηση κυρίως άρθρων από ομάδα συγγραφής πολλών ατόμων. Άρθρα ομάδας συγγραφής πολλών ατόμων βρίσκονται σε περισσότερες ιστοσελίδες (CiteSeer - crawler). Άρθρα ομάδας συγγραφής πολλών ατόμων βρίσκονται σε περισσότερες ιστοσελίδες (CiteSeer - crawler). Αποκλεισμός άρθρων με μικρή ομάδα συγγραφής.

11 DBLP Αποκλεισμός άρθρων που προέρχονται από έναν συγγραφέα γιατί: Δύσκολα ολοκληρώνονται και εκδίδονται έργα από έναν συγγραφέα. Δύσκολα ολοκληρώνονται και εκδίδονται έργα από έναν συγγραφέα. Χρηματοδότηση – προτίμηση σε ομαδικές εργασίες. Χρηματοδότηση – προτίμηση σε ομαδικές εργασίες. Περιορισμένος αριθμος επιστημόνων στο κόσμο. Περιορισμένος αριθμος επιστημόνων στο κόσμο.

12 Μοντέλα απόκτησης υλικού Χρήση θεωρίας πιθανοτήτων DBLP: καλύπτει το 24% από όλη την λογοτεχνία γύρω από τον χώρο της επιστήμης της πληροφορικής. CiteSeer: με όποιο τρόπο και αν αποκτούνται τα άρθρα (απευθείας υποβολή των άρθρων από τους συγγραφείς στη βάση, είτε μέσα από την διαδικασία crawling) καταλήγουν στο ίδιο αποτέλεσμα.

13 Αναδρομή Lahererre - ελαστική εκθετική συνάρτηση κατάλληλη για μοντέλα παραπομπών όταν βασίζεται σε διαδικασίες μοναδιαίας ποσότητας πολλαπλασιασμού και δεν είναι κατάλληλα για απεριόριστο αριθμό συγγραφέων. Redner - ISI (Institute for Scientific Information) και Physical Review Databases - προέκυψε εξίσωση, η οποία ίσχυε για τον αριθμό των παραπομπών σε άρθρα με πολλές παραπομπές. Lehmann - κατανομή παραπομπών των άρθρων της βάσης SPIRES – εφαρμογή εξίσωσης του Redner και την ελαστική εκθετική συνάρτηση του Lahererre και απέδειξε πως είναι αδύνατη η διάκριση μεταξύ των δύο μοντέλων.

14 Σχηματικά τα συμπεράσματα (1/2)

15 Σχηματικά τα συμπεράσματα (2/2)

16

17

18 Ευχαριστώ πολύ για την προσοχή σας Περισσότερες πληροφορίες στα http://citeseer.ist.psu.edu/ http://www.informatik.uni- trier.de/~ley/db/ http://www.informatik.uni- trier.de/~ley/db/


Κατέβασμα ppt "“A Comparison of On-Line Science Citation Databases” Vaclav Petricek, Ingemar J. Cox, Hui Han, Isaac G. Councill,C. Lee Giles «Σύγκριση on-line επιστημονικών."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google