Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΘΕΜΑ : A Comparison of On- line Computer Science Citation Databases ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΘΕΜΑ : A Comparison of On- line Computer Science Citation Databases ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ."— Μεταγράφημα παρουσίασης:

1 ΘΕΜΑ : A Comparison of On- line Computer Science Citation Databases ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ :Ψηφιακές Βιβλιοθήκες Επιμέλεια:Μπαλαλή Κυριακή

2 6/2/2008 Μπαλαλή Κυριακή2 Εισαγωγή(1) Υπάρχουν διάφορες δωρεάν on-line βιβλιογραφικές βάσεις δεδομένων για την επιστήμη των υπολογιστών. Παρουσιάζουν τις αναφορές που έχουν γίνει για ένα συγκεκριμένο άρθρο από άλλες μεταγενέστερες εργασίες. Μπορεί να είναι είτε αυτοαναφορές του συγγραφέα είτε αναφορές τρίτων. συλλέγουν άρθρα, τα ευρετηριάζουν και τα εμπλουτίζουν με μεταδεδομένα(metadata).

3 6/2/2008 Μπαλαλή Κυριακή3 Εισαγωγή(2) Δυο δημοφιλείς on-line βιβλιογραφικές βάσεις είναι η CiteSeer και η DBLP. Στη CiteSeer οι καταχωρήσεις γίνονται αυτόματα μέσω ενός crawler που ψάχνει στον Παγκόσμιο Ιστό. Στη DBLP τα δεδομένα καταχωρούνται διά χειρός από διάφορα γκρουπ εθελοντών ή από προσλαμβανομένους μαθητές Οι εισαγωγές λαμβάνονται από πρακτικά συνεδρίων και εφημερίδες/ περιοδικά

4 6/2/2008 Μπαλαλή Κυριακή4 Η βάση δεδομένων DBLP DataBase systems and Logic Programming ή Digital Bibliography & Library Project Δημιουργήθηκε από τον Michael Ley το Σήμερα ευρετηριάζει πάνω άρθρα της επιστήμης των υπολογιστών από περίπου συγγραφείς. Παρέχει χιλιάδες links σε αρχικές σελίδες επιστημόνων της πληροφορικής. Είναι ένας βιβλιογραφικός server και δεν αποτελεί αποθετήριο τεκμηρίων.

5 6/2/2008 Μπαλαλή Κυριακή5 Η βάση δεδομένων CiteSeer Δημιουργήθηκε το από τους K. Bollacker, L. Giles, και S. Lawrence στο Ερευνητικό Κέντρο NEC στο Πανεπιστήμιο Πρίνστον των ΗΠΑ. Είναι ψηφιακή βιβλιοθήκη και μηχανή αναζήτησης που εστιάζει στην επιστήμη των πληροφοριών και των υπολογιστών. Στόχος της είναι να βελτιώσει τη διάχυση και την ανατροφοδότηση της επιστημονικής λογοτεχνίας καθώς και να επιφέρει βελτιώσεις στη λειτουργικότητα, χρηστικότητα, διαθεσιμότητα, το κόστος, την περιεκτικότητα, και την επικαιρότητα της πρόσβασης στην επιστημονική γνώση.

6 6/2/2008 Μπαλαλή Κυριακή6 Η βάση δεδομένων CiteSeer Είναι η πρώτη βάση δεδομένων που εφάρμοσε την αυτόνομη ευρετηρίαση αναφορών ACI(Autonomous citation indexing) Η CiteSeer αποτελείται από τρία βασικά συστατικά: 1. από έναν εστιασμένο crawler (focused crawler) 2. από το αρχείο των ντοκουμέντων (document archive) 3. και από ένα ειδικευμένο ευρετήριο (specialized index) και την διεπαφή ερωτήσεων (query interface).

7 6/2/2008 Μπαλαλή Κυριακή7 Η βάση δεδομένων CiteSeer Ο εστιασμένος crawler ψάχνει στον Ιστό για σχετικά ντοκουμέντα σε μορφή PDF και PostScript. Μετά το φιλτράρισμα γίνεται η ευρετηρίαση χρησιμοποιώντας το Autonomous Citation Indexing (ACI), το οποίο συνδέει αυτόματα τις παραπομπές με τα άρθρα διευκολύνοντας την πλοήγηση και την αξιολόγηση. Περιλαμβάνει πάνω από ντοκουμέντα λαμβάνοντας πάνω από ένα εκατομμύριο αιτήσεις και εξυπηρετώντας πάνω από 25 GB πληροφορίας καθημερινά.

8 6/2/2008 Μπαλαλή Κυριακή8 Οι διαφορές στο σύστημα λήψης δεδομένων(1) Οι εγγραφές στη DBLP εξασφαλίζονται από εθελοντές. Οι διορθώσεις, επίσης, ελέγχονται με το χέρι. Η DBLP προσπαθεί να εγγυηθεί περιεκτική και απόλυτη κάλυψη των περιεχομένων της. Παρόλο που υπάρχει η πιθανότητα ανθρώπινου λάθος στη δια χειρός διαδικασία εισαγωγής των εγγραφών της βάσης, τα μεταδεδομένα της είναι γενικώς υψηλής ποιότητας σε σύγκριση με τα μεταδεδομένα που συλλέγονται αυτόματα.

9 6/2/2008 Μπαλαλή Κυριακή9 Οι διαφορές στο σύστημα λήψης δεδομένων(2) Η CiteSeer έχει αυτόματους crawlers που επιτυγχάνουν υψηλότερη κάλυψη καθώς το κόστος της αυτόματης ευρετηρίασης είναι πολύ μικρότερο. Μπορεί να θεωρηθεί μία φόρμα αυτοεπιλογής με on- line αναζήτηση. Ένα πλήρως αυτόματο επιστημονικά συμμετρικό σύστημα, που όμως επηρεάζεται εύκολα από κακόβουλες επιθέσεις, πχ: συγγραφείς προσπαθούν να διαφοροποιήσουν το δικό τους citation ranking προσθέτοντας ψευδή άρθρα που υποτίθεται ότι αναφέρονται στη δική τους εργασία.

10 6/2/2008 Μπαλαλή Κυριακή10 Εξαγωγή Μεταδεδομένων Υπάρχουν δύο βασικές μέθοδοι για την εξαγωγή πληροφορίας:  η Τεχνολογία της Γνώσης (Knowledge Engineering)  και η Μηχανική Μάθηση (Machine Learning). Στην πρώτη μέθοδο, οι κανόνες εξόρυξης που χρησιμοποιεί το σύστημα κατασκευάζονται χειρονακτικά χρησιμοποιώντας γνώση σχετική με το domain της εφαρμογής. Στη δεύτερη μέθοδο, απαιτείται λιγότερη εξειδίκευση όταν προσαρμόζουμε το σύστημα σε ένα νέο domain. Κάποιος με επαρκή γνώση του domain και της εργασίας αυτής χαρακτηρίζει χειρονακτικά ένα σύνολο κατευθυντήριων ντοκουμέντων και τα χαρακτηρισμένα δεδομένα χρησιμοποιούνται για να κατευθύνουν έναν αλγόριθμο Μηχανικής Μάθησης. Αυτή η μέθοδος είναι πιο ευέλικτη από την προσέγγιση της Τεχνολογίας της Γνώσης, αλλά απαιτεί να είναι διαθέσιμος ένας όγκος κατευθυντήριων ντοκουμέντων.

11 6/2/2008 Μπαλαλή Κυριακή11 Σύγκριση στον αριθμό εκδόσεων Συγκρίθηκε ο αριθμός των εκδόσεων των άρθρων για τα έτη Η αύξηση της DBLP οφείλεται στην μεγαλύτερη κάλυψη που παρείχε η μείωση στον αριθμό των άρθρων της CiteSeer οφείλεται στη μείωση της κάλυψης, στις πνευματικές ανησυχίες και στις μαύρες θεματικές επιδράσεις.

12 6/2/2008 Μπαλαλή Κυριακή12 Μοντέλα απόκτησης δεδομένων Στη CiteSeer αναπτύχθηκαν δύο πιθανά μοντέλα για την απόκτηση των άρθρων.  Το πρώτο είναι βασισμένο σε συγγραφείς που παραδίδουν τα άρθρα τους κατευθείαν στη βάση.  Το δεύτερο δείχνει ότι τα άρθρα αποκτώνται αυτόματα από έναν crawler που ψάχνει στο web. Για τη DBLP, υποθέτουμε ένα απλό μοντέλο απόκτησης άρθρων όπως να υπάρχει η πιθανότητα α σύμφωνα με την οποία το άρθρο να περιλαμβάνεται στην DBLP ή ακόμα και να είναι ανεξάρτητο από τον αριθμό των συγγραφέων.

13 6/2/2008 Μπαλαλή Κυριακή13 Μοντέλο Παράδοσης της CiteSeer Ας υποθέσουμε ότι β Є (0,1) και δηλώνει την πιθανότητα όπου ένας συγγραφέας παραδίδει ένα άρθρο κατευθείαν στη CiteSeer δηλ. p(i)= 1- (1-β) i όπου (1-β) i είναι η πιθανότητα κανένας από τους i συγγραφείς να παραδώσουν κάποιο άρθρο στη βάση. r(i) = dblp(i) = α citeseer (i) (1-(1-β)i ) Είναι προφανές από το σχήμα ότι όσο ο αριθμός των συγγραφέων i αυξάνεται τόσο η αναλογία r(i) τείνει στο α. Για τη CiteSeer υποθέτουμε ότι η μέθοδος απόκτησης παράγει μία επιρροή όπως την πιθανότητα p(i) όπου το άρθρο περιλαμβάνεται στη CiteSeer και είναι μία λειτουργία του αριθμού των συγγραφέων από ένα συγκεκριμένο άρθρο.

14 6/2/2008 Μπαλαλή Κυριακή14 Κατανομές αναφορών ( Citation Distributions ) Συγκρίνει τις κατανομές των αναφορών μεταξύ των δύο βάσεων και βλέπουμε ότι η DBLP περιέχει περισσότερα low cited papers απ’ ότι η Citeseer. Προς το παρόν δεν υπάρχει εξήγηση γι’ αυτό το φαινόμενο. Αντίθετα, ίσως να σχετίζεται με την παρατήρηση του Lawrence σύμφωνα με την οποία τα άρθρα που είναι on-line ελεύθερα διαθέσιμα έχουν περισσότερες αναφορές.

15 6/2/2008 Μπαλαλή Κυριακή15 Νέα μοντέλα της Citeseer CiteseerPlus βασίζεται σε μια νέα αρχιτεκτονική σχεδιασμένη να είναι ευέλικτη, αρθρωτή, και επεκτάσιμη. Citeseer x beta είναι ανερχόμενο μοντέλο που σχετίζεται με την αναγνώριση της αναζήτησης. Καθώς η CiteSeer για την ώρα λειτουργεί μέσα σε ένα ακαδημαϊκό περιβάλλον, εστιάζοντας στην έρευνα και στην παραγωγή, αναπτύχθηκε ένα πλαίσιο που επιτρέπει επεκτάσιμη, κατανεμημένη έρευνα και αποθήκευση, ενώ διευκολύνει την ανάπτυξη νέων και βελτιωμένων αλγόριθμων για την εξόρυξη της πληροφορίας. Η τρέχουσα CiteSeer δεν ευρετηριάζει περισσότερα από 3-4 papers ανά λεπτό, καταλήγοντας σε ανεπαρκή ταχύτητα για την απόκτηση νέου περιεχόμενου.

16 6/2/2008 Μπαλαλή Κυριακή16 Διάφορες βάσεις δεδομένων Scopus ( Bibfinder ( Googlescholar ( Vldb ( ACM ( Sciencedirect (http://www.sciencedirect.com/)http://www.sciencedirect.com/

17 6/2/2008 Μπαλαλή Κυριακή17 Συμπεράσματα Και οι δύο βάσεις είναι φιλικές και προσιτές στους χρήστες προσφέροντας σημαντικά εργαλεία για την έρευνα. Η Citeseer προσπαθεί συνεχώς να βελτιώνει τις υπηρεσίες της δημιουργώντας νέα μοντέλα για να μπορέσει να αντεπεξέλθει στις απαιτήσεις. Έχουν πολύ διαφορετικές μεθόδους στην απόκτηση των δεδομένων. Όσον αφορά τις κατανομές των αναφορών (citation distributions) και για τις δύο βάσεις η Citeseer έχει μικρότερο αριθμό low-cited papers. η κάλυψη της DBLP φτάνει περίπου το 24% ολόκληρης της επιστήμης των υπολογιστών.

18 6/2/2008 Μπαλαλή Κυριακή18 Προβληματισμοί Η CiteSeer είναι αργό και off-line σύστημα που σημαίνει ότι τα αποτελέσματα δεν επιστρέφονται αμέσως αλλά μετά από μέρες έτσι οι ερευνητές δυσκολεύονται στην έρευνα τους. Τα αποτελέσματα μπορεί να είναι έγκυρα αλλά υπάρχουν πολλές διπλοεγγραφές, γεγονός που πρέπει να μεριμνήσουν για να διορθωθεί. Και το GoogleScholar και η CiteSeer δεν κάνουν διάκριση ανάμεσα στις αυτοαναφορές των συγγραφέων και τις αναφορές τρίτων, γεγονός που δημιουργεί σύγχυση και λανθασμένες εντυπώσεις.

19 6/2/2008Μπαλαλή Κυριακή19


Κατέβασμα ppt "ΘΕΜΑ : A Comparison of On- line Computer Science Citation Databases ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google