Εντοπισμός και ομαδοποίηση βιβλιογραφικών εγγραφών οι οποίες περιγράφουν ίδια ή παρόμοια τεκμήρια deduplication και clustering Εκπαιδευτικό Ίδρυμα: Ιόνιο.

Εντοπισμός και ομαδοποίηση βιβλιογραφικών εγγραφών οι οποίες περιγράφουν ίδια ή παρόμοια τεκμήρια deduplication και clustering Εκπαιδευτικό Ίδρυμα: Ιόνιο Πανεπιστήμιο / ΤΑΒ Π.Μ.Σ.: Επιστήμη της Πληροφορίας (Αθήνα) Σχ. Έτος: 2007-2008 Μάθημα: Ηλεκτρονική Δημοσίευση Καθηγητής: Σαράντος Καπιδάκης Φοιτητής: Μανόλης Πεπονάκης

23/6/2008 2 Τι είναι διπλές εγγραφές  Δεν πρόκειται για εγγραφές που είναι ίδιες μεταξύ τους  ούτε για εγγραφές που μοιάζουν μεταξύ τους  Διπλές εγγραφές είναι οι εγγραφές που περιγράφουν ίδια τεκμήρια  Όχι κατ’ ανάγκη με τον ίδιο τρόπο

23/6/2008 3 Ποια τεκμήρια είναι ίδια μεταξύ τους;  Αυτά που έχουν ίδιο περιεχόμενο;  Προφανώς όχι…  Η παραδοσιακή βιβλιοθηκονομία θεωρεί ίδια όσα ανήκουν στην ίδια έκδοση  Έκδοση: all copies of a resource produced from substantially the same original input and issued by the same agency or group of agencies or a person. For older monographic resources, all copies of a resource at any time from substantially the same type-pages (ISBD)  Τι γίνεται με τις ανατυπώσεις / κυκλοφορίες;

23/6/2008 4 Για ποιο λόγο αναζητούνται “διπλοεγγραφές”;  Στόχος: το ξεκαθάρισμα στο πλαίσιο μιας βάσης;  Ποιοτική αναβάθμιση της βάσης  Στόχος: η συγκρότηση ενός Συλλογικού Καταλόγου;  Στόχος: η συγκρότηση ενός δυναμικού εικονικού καταλόγου;  Στόχος: η απορρόφηση της (ευρωπαϊκής κατά κανόνα) χρηματοδότησης;(!)

23/6/2008 5 Αλγόριθμοι εντοπισμού “διπλοεγγραφών”  Ενός περάσματος  Η λήψη της “απόφασης” για το ποιες εγγραφές είναι διπλές εγγραφές γίνεται σε ένα μόνο βήμα με τη χρήση ενός κλειδιού ταύτισης  Δύο περασμάτων  Η λήψη της “απόφασης” για το ποιες εγγραφές είναι διπλές γίνεται σε δύο βήματα  Πρώτο βήμα: χρήση κλειδιού ταύτισης για ανεύρεση πιθανών διπλών  Δεύτερο βήμα: αξιολόγηση και τελική κρίση

23/6/2008 6 Δημιουργία κλειδιού ταύτισης  Επιλέγεται το τμήμα του πεδίου που θα χρησιμοποιηθεί  μπορεί να είναι όλο το πεδίο, ένα συγκεκριμένο υποπεδίο, συνδυασμός κτλ  Εφαρμόζονται κανόνες κανονικοποίησης  οι κανόνες αυτοί μπορεί να αφορούν στην αφαίρεση στίξης, στη μεταγραφή όλων των γραμμάτων σε κεφαλαία, κτλ  μπορεί να εφαρμόζονται κανόνες που προσπαθούν να ξεπεράσουν το πρόβλημα των λαθών πληκτρολόγησης κατά την καταλογογράφηση ή πίνακες με stopwords

23/6/2008 7 Παράδειγμα κλειδιού ταύτισης  Από τον τίτλο αντλείται  Πρώτη λέξη: ο πρώτος και ο τρίτος χαρακτήρας  Δεύτερη λέξη: ο πρώτος χαρακτήρας  Τρίτη λέξη: ο πρώτος χαρακτήρας  Πρώτη λέξη από το τέλος: ο πρώτος χαρακτήρας  Δεύτερη λέξη από το τέλος: ο πρώτος χαρακτήρας.  Τρίτη λέξη από το τέλος: ο τέταρτος χαρακτήρας από την αρχή και ο δεύτερος χαρακτήρας από το τέλος της λέξης  Από τη χρονολογία αντλούνται  τα 2 τελευταία ψηφία της χρονολογίας  Από το συγγραφέα αντλείται  Το επίθετο του συγγραφέα  Το παραπάνω κλειδί θα μπορούσε να αποτελεί το κριτήριο αν δύο εγγραφές είναι διπλοεγγραφές σε έναν αλγόριθμο ενός περάσματος

23/6/2008 8 Αλγόριθμοι δύο περασμάτων  1 ο βήμα: δημιουργία κλειδιού ταύτισης (ομαδοποίησης)  Χαλαρό κλειδί ώστε να συμπεριληφθούν όλες οι πιθανές διπλές  2 ο βήμα: σύγκριση των πιθανών διπλών  Αυστηρότερα κριτήρια ώστε να αποφευχθούν λαθεμένες ταυτίσεις

23/6/2008 9 Παράδειγμα αλγορίθμου δύο περασμάτων  Με βάση ένα κλειδί «Συγγραφέας / Τίτλος» (με κανονικοποίηση) συλλέγονται πιθανές διπλές  Με μια διαδικασία παρόμοια με αυτή που περιγράφηκε στις προηγούμενες διαφάνειες  Δημιουργείται μια ομάδα πιθανών διπλών όπου:  Εξετάζονται λεπτομερέστερα συγκεκριμένα πεδία  (π.χ. για το προηγούμενο παράδειγμα ο αριθμός των σελίδων είναι ίδιος;)  Ορίζεται ένας βαθμός ομοιότητας (threshold)  Όσες εγγραφές βρίσκονται πάνω από το προαποφασισμένο όριο θεωρούνται διπλές

23/6/2008 10 Το πρόβλημα των διατάξεων  Οι περισσότεροι αλγόριθμοι ταύτισης αφορούν στο MARC 21  Όλοι τους βασίζονται (στον ένα ή τον άλλο βαθμό) στα στοιχεία Τίτλος και Συγγραφέας  Ως συγγραφέας λογίζεται η Κύρια Αναγραφή που είναι υποχρεωτική στο MARC 21  Πολύ λιγότερη (σχεδόν ανύπαρκτη δημοσιευμένη) έρευνα για UNIMARC  Προβλήματα κατά την αντιστοίχηση του MARC 21 σε UNIMARC  ειδικά αν δεν ακολουθείται η κύρια αναγραφή

23/6/2008 11 Διαφορές σε on line και off line  Στο on line περιβάλλον δεν υπάρχει διαθέσιμος χρόνος (ο χρήστης περιμένει μπροστά στην οθόνη)  Σε τέτοιες διαδικασίες μπορούν να βοηθήσουν οι web 2 τεχνολογίες (π.χ. ajax) όπου το σύστημα μπορεί να δουλεύει στo background και ο χρήστης να βλέπει αποτελέσματα (τα οποία ενδεχομένως να αλλάζουν)  Στο off line υπάρχει χρόνος και μπορεί να γίνουν πολλοί έλεγχοι  Όμως, πάντα, η πληροφορία που δίνεται είναι “μπαγιάτικη”

23/6/2008 12 Ενοποίηση εγγραφών Αφού εντοπίστηκε ότι υπάρχουν εγγραφές που περιγράφουν το ίδιο τεκμήριο τι γίνεται;  Μια εγγραφή επιλέγεται ως η κύρια (master record) και οι άλλες διαγράφονται  Μια εγγραφή επιλέγεται ως η κύρια και τα πεδία των υπολοίπων εγγραφών προστίθενται σ’ αυτή (συγχώνευση)  Διατηρούνται όλες οι εγγραφές αλλά ομαδοποιούνται (clustered) με μια κύρια εγγραφή  Κατά κανόνα μια εγγραφή επιλέγεται (ή δημιουργείται από συγχώνευση) ως εκπρόσωπος του cluster

23/6/2008 13 Work Με κριτήριο για την ομαδοποίηση τους FRBR Expression Manifestation Item is realized through is embodied in is exemplified by Οι υπάρχοντες κατάλογοι διαθέτουν εγγραφές για αυτό το επίπεδο Κατά κανόνα δεν δημιουργούνται βιβλιογραφικές εγγραφές για Items παρά μόνο σε επίπεδο Holdings Είναι εφικτή η δημιουργία ομαδοποίησης συγκεντρώνοντας όλες τις εγγραφές που αποτελούν μια Έκφραση; Μπορούν να συγκεντρωθούν όλες οι πιθανές Εκφράσεις ή τα Manifestations που ανήκουν σε ένα Έργο;

23/6/2008 14 OCLC: αλγόριθμος για FRBR  Δημιουργία ενός κλειδιού Συγγραφέα/Τίτλου για κάθε βιβλιογραφική εγγραφή  Αυτά τα κλειδιά δημιουργούν σύνολα από Works  Το επίπεδο είναι πάνω από το Work διότι δεν λαμβάνεται υπόψη η μορφή του έργου (τα ονομάζουν Work sets)  Για το όνομα του Συγγραφέα γίνεται κανονικοποίηση και ελέγχονται τα αρχεία καθιερωμένων τύπων της LC  Εφαρμόζονται οι κανόνες NACO ( Name Authority Cooperative )  Για τον τίτλο εφαρμόζονται κανόνες κανονικοποίησης  Ελέγχονται τόσο οι ομοιόμορφοι τίτλοι (καθιερωμένοι) όσο και οι κύριοι (περιγραφικοί από το τεκμήριο)

23/6/2008 15 Ένα παράδειγμα από OCLC Διαφορετικοί τύποι Η σημασία της κανονικοποίησης των τίτλων και της χρήσης ομοιόμορφων τίτλων Απουσία επιπέδου Expression

23/6/2008 16 Ο αλγόριθμος LC (για τη δημιουργία της ομαδοποίησης)  Επίπεδο Work  Ταύτιση Τίτλου και Συγγραφέα (επιλεγμένα υποπεδία)  Επίπεδο Expression  Ταύτιση τύπου εγγραφής (γλωσσικό υλικό έντυπο, ηχογράφηση μουσική παράσταση, κτλ) και γλώσσα  κωδικοποιημένες τιμές και στα δύο  Επίπεδο Manifestation  Δεν γίνεται καμία ταύτιση

23/6/2008 17 LC: FRBR Display Tool  Μετατρέπονται τα ISO2709 σε MARCXML  Τα MARCXML κωδικοποιούνται σε δομή FRBR χρησιμοποιώντας κάποια επιλεγμένα στοιχεία του MODS  Γίνεται η τελική εμφάνιση σε HTML όπου ομαδοποιούνται οι οντότητες "Work, "Expression" and "Manifestation"  Οι οντότητες ταξιθετούνται με βάση κάποια κριτήρια  Αλφαβητικά (συγγραφέας, τίτλος) και μετά χρονολογικά  Όλα γίνονται με stylesheets οπότε είναι δυνατή η παραμετροποίηση του εργαλείου για να εξυπηρετηθούν τοπικές ανάγκες

23/6/2008 18 Συμπεράσματα  Η δυνατότητα εντοπισμού διπλών (ή όμοιων) εγγραφών μπορεί να έχει πολλές χρήσεις  Συλλογικοί κατάλογοι κτλ  Η συγχώνευση (merging) εγγραφών (προϋποθέτει το προηγούμενο βήμα) και μπορεί να γίνει:  Στο ίδιο επίπεδο (π.χ. Manifestation)  Σε διαφορετικό επίπεδο με τη δημιουργία ομάδων (π.χ. τα Manifestations που αποτελούν ένα Expression)  Η μέχρι τώρα έρευνα δείχνει πως μάλλον μοιάζει ευκολότερη η παραγωγή εγγραφών σε επίπεδο Work παρά σε επίπεδο Expression με βάση τις υπάρχουσες εγγραφές  Άρα αναγκαστική αναγωγή των Manifestation στο Work (επιτρέπεται από τους FRBR)  ή λίγα στοιχεία για Expression

23/6/2008 19 Μια αναγωγή στην ελληνική πραγματικότητα  Μεγάλο μέρος εγγραφών σε UNIMARC  Πολλές εξ αυτών χωρίς κύρια αναγραφή  Προβληματική ακόμη και η απλή ολοκλήρωση δεδομένων  Πόσο μάλλον η ταύτιση σε υψηλότερο επίπεδο  Ενδιαφέρουσα προοπτική για συλλογικούς καταλόγους (Δημοσίων & Ακαδημαϊκών)  Ακόμη πιο ενδιαφέρουσα η προοπτική για on line σύστημα

Εντοπισμός και ομαδοποίηση βιβλιογραφικών εγγραφών οι οποίες περιγράφουν ίδια ή παρόμοια τεκμήρια deduplication και clustering Εκπαιδευτικό Ίδρυμα: Ιόνιο.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Εντοπισμός και ομαδοποίηση βιβλιογραφικών εγγραφών οι οποίες περιγράφουν ίδια ή παρόμοια τεκμήρια deduplication και clustering Εκπαιδευτικό Ίδρυμα: Ιόνιο.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια