Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Πρόγραμμα.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Πρόγραμμα."— Μεταγράφημα παρουσίασης:

1 ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας" Εαρινό εξάμηνο: Ιούνιος 2004 Βασίλειος Σουλικιάς

2 ΠΕΡΙΕΧΟΜΕΝΑ Ιστορικό OAI, OAI-PMH Κύριες ιδέες και τεχνικές λεπτομέρειες του OAI-PMH Θέματα Υλοποίησης μίας εφαρμογής OAI- PMH Συμπεράσματα

3 ΙΣΤΟΡΙΚΟ (1/4) Προηγούμενη Δημιουργία E-print αρχείων από επιστημονικές κοινότητες  XXX (arXiv), CogPrints, NCSTRL, RePEc, NDLTD…… Web interfaces για τους χρήστες Διαφορετικά interfaces για διαφορετικά αρχεία Οι χρήστες έπρεπε να μάθουν διάφορα interfaces Μερική ή καθόλου αυτόματη-μηχανική ανταλλαγή μεταδεδομένων

4 ΙΣΤΟΡΙΚΟ (2/4) Santa Fe Meeting “…η συνδυασμένη επιρροή αυτών και των μελλοντικών ανάλογων πρωτοβουλιών μπορεί να είναι ουσιαστικά υψηλότερη όταν η διαλειτουργικότητα μεταξύ των e-print αρχείων μπορεί να επιτευχθεί …” [Ginsparg, Luce, Van de Sompel, UPS Call, July 1999]

5 ΙΣΤΟΡΙΚΟ (3/4) Τα δύο κύρια προβλήματα: Οι χρήστες έρχονται αντιμέτωποι με πολλαπλά interfaces πράγμα που δυσκολεύει την αναζήτηση των πόρων. Η μη ύπαρξη μηχανικού τρόπου ανταλλαγής μεταδεδομένων

6 ΙΣΤΟΡΙΚΟ (4/4) Ταυτόχρονη αναζήτηση σε πολλαπλά αποθετήρια (Cross Search); Η εμπειρία λέει ότι cross search δεν έχει καλή απόδοση σε πάνω από 100 αποθετήρια. Διάφορα προβλήματα σχετικά με την επιλογή των στόχων αποθετηρίων, δυσκολίες ενοποίησης δεδομένων από διαφορετικά συστήματα, η απόδοση εξαρτάται από τα συστήματα χαμηλής απόδοσης, δυσκολία δημιουργίας browse interface. ΛΥΣΗ:Συγκέντρωση των Μεταδεδομένων σε ένα μέρος

7 Η ΙΔΕΑ ΤΟΥ HARVESTING ΣΥΓΚΟΜΙΔΗ των μεταδεδομένων σε ένα μέρος UPS- Universal Preprint Service Έχουμε μια γλώσσα ερωτήσεων, κοινά γνωρίσματα αναζήτησης(attributes) και ranking αλγόριθμους. Δημιουργία Browse interface Η UPS μετεξελίσσεται σε OAI

8 Διαθέτες δεδομένων και Υπηρεσιών Διαθέτης Δεδομένων (Data Provider)  Ο δημιουργός και αυτός που διατηρεί τα μεταδεδομένα και τα αποθετήρια των πηγών(resources) Διαθέτης Υπηρεσιών (Service Provider)  Συγκομίζουν μεταδεδομένα με σκοπό την παροχή υπηρεσιών όπως μια διεπιφάνεια αναζήτησης. Μια υπηρεσία μπορεί να παίξει και τους δύο ρόλους

9 Η ΑΠΑΡΧΗ ΕΝΌΣ ΠΡΩΤΥΠΟΥ Για την διευκόλυνση της συγκομιδής απαιτείται κοινή συμφωνία στα: Στο πρωτόκολλο μεταφοράς των δεδομένων(HTTP,FTP….) Στο format των μεταδεδομένων(DC,MARC….) Στην εξασφάλιση της ποιότητας των μεταδεδομένων(σύνολο των υποχρεωτικών πεδίων, θεματική απόδοση, ονοματοδωσία…) Πνευματική υπευθυνότητα – Δικαιώματα χρήσης Η κοινή απόφαση για τα παραπάνω οδήγησε στην συμφωνία της Santa Fe

10 Η συμφωνία της Santa Fe Είναι η πρώτη ενσάρκωση του ΟΑΙ Στηρίχτηκε πάνω: Στο πρωτότυπο της UPS Repec/SODA –Service/Data provider Model Πρωτόκολλο Dienst Εργασία της ομάδας Santa Fe Στόχος η βελτίωση της αναζήτησης των e-prints

11 OAI – PMH ver. 1.0 Εισάγει το σύνολο στοιχείων DC. Στηρίχτηκε στα: Συμφωνία της Santa Fe Στις συναντήσεις Digital Library Federation Σε εργασίες που έλαβαν χώρα στο Cornel Απαντήσεις από Alpha-testers Εστιάζει στην βελτίωση της αναζήτησης των«document-like objects»

12 Κύρια χαρακτηριστικά του OAI-PMH 1.0 Προσδιόριζε ένα Χαμηλό επίπεδο διαλειτουργικότητας Μοντέλο συγκομιδής “document-like objects” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin Core Αποτελεί ερευνητικό πλαίσιο OAI-PMH 1.1 XML schema

13 OAI-PMH ver. 2.0 Σημαντική αναθεώρηση – όχι συμβατή με τις 1.x Στηρίχτηκε πάνω:  OAI-PMH 1.x  Απαντήσεις των συμμετεχόντων στην OAI Implementers List  διαβουλεύσεις της OAI tech  Απαντήσεις των alpha-testers Στόχος η επαναλαμβανόμενη ανταλλαγή μεταδεδομένων των πηγών μεταξύ των συστημάτων

14 Χαρακτηριστικά του OAI-PMH 2.0 Προσδιορίζει επίσης ένα Χαμηλό επίπεδο διαλειτουργικότητας Μοντέλο συγκομιδής “μεταδεδομένα για τις πηγές (resources)” HTTP GET / POST αιτήσεις XML απαντήσεις unqualified Dublin Core Σταθερό- Η OAI δεσμεύτηκε ότι οι επόμενες αναθεωρήσεις θα είναι συμβατές με τις προηγούμενες

15 Από το OAI-PMH 1.x στο 2.0 The Open Archives Initiative Protocol for Metadata Harvesting Changes from OAI-PMH 1.1 to OAI-PMH 2.0 Protocol Version 2.0 of 2002-06-14 Document Version 2002/06/09T16:43:00Z http://www.openarchives.org/OAI/migratio n.htm

16

17

18

19

20 Πλεονεκτήματα του OAI Απλό Φιλική λειτουργία με τo web Ο έλεγχος πρόσβασης, η συμπίεση οι κωδικοί λαθών κλπ., στηρίζονται στο HTTP διάφορα toolkits (μπορούν να κρύβουν το πρωτόκολλο) Πολλαπλοί διαθέτες υπηρεσιών μπορούν να κάνουν συγκομιδή από πολλούς διαθέτες δεδομένων εξασφαλίζοντας ευρεία εξάπλωση των μεταδεδομένων Αποτελεί ένα βασικό επίπεδο όπου μπορούν να χτιστούν άλλες υπηρεσίες Λειτουργεί συμπληρωματικά με άλλα πρωτόκολλα όπως το Z39.50

21 ΚΥΡΙΕΣ ΙΔΕΕΣ ΤΟΥ OAI-PMH Ευρεία ενοποίηση των ακαδημαϊκών αποθετηρίων/αρχείων Ελεύθερη πρόσβαση τουλάχιστον σε επίπεδο μεταδεδομένων Συμμορφούμενα interfaces για αρχεία και υπηρεσίες Πρωτόκολλο εύκολα υλοποιήσιμο καθώς στηρίζεται σε (HTTP, XML, DC)

22 ΔΙΑΓΡΑΜΜΑ ΒΑΣΙΚΗΣ ΛΕΙΤΟΥΡΓΙΑΣ

23 ΓΕΝΙΚΕΣ ΠΕΡΙΓΡΑΜΜΑ Δύο κατηγορίες συμμετεχόντων Διαθέτες δεδομένων (Open Archives, Repositories) Ελεύθερη πρόσβαση σε μεταδεδομένα Όχι υποχρεωτικά πρόσβαση στο περιεχόμενο Διαθέτες Υπηρεσιών Xρήση OAI interfaces των διαθετών δεδομένων Συγκομίζουν και διατηρούν μεταδεδομένα (no live requests!) Μπορούν να επιλέγουν συγκεκριμένα υποσύνολα από τους διαθέτες δεδομένων Μπορούν να εμπλουτίζουν τα μεταδεδομένα Προσφέρουν υπηρεσίες προστιθέμενης αξίας στο επίπεδο των μεταδεδομένων

24 ΔΙΑΓΡΑΜΜΑ ΔΟΜΗΣ

25 Συνοπτική εικόνα του OAI-PMH Πρωτόκολλο που στηρίζεται σε HTTP Οι αιτήσεις διατυπώνονται ως παράμετροι GET or POST Έξι (6) τύποι αιτήσεων (requests) Πχ. http://archive.org? verb=ListRecords&from=2002-11-01 Οι απαντήσεις είναι κωδικοποιημένες σε XML συντακτικό Υποστηρίζει οποιοδήποτε format μεταδεδομένων (υποχρεωτικά: Dublin Core) Λογική ιεραρχία των συνόλων (logical set hierarchy) (definition: data providers) Ημερολογιακά στοιχεία (date stamps) (τελευταία αλλαγή του συνόλου των μεταδεδομένων) Υποστηρίζει μηνύματα λάθους Έλεγχος ροής

26 Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 1/2 Harvester Μία εφαρμογή που διατυπώνει αιτήσεις OAI-PMH Αποθετήριο (Repository) Ένας server που μπορεί να διαχειριστεί σωστά αιτήσεις OAI-PMH Πηγή (Resource) Ένα ψηφιακό αντικείμενο για το οποίο έχουν δημιουργηθεί τα μεταδεδομένα η φύση των αντικείμένων αυτών δεν προσδιορίζεται από το OAI-PMH Τεκμήριο (Item) Το κομμάτι-μέρος ενός αποθετηρίου από το οποίο τα μεταδεδομένα μίας πηγής μπορούν να διανεμηθούν Έχει πάντα έναν μοναδικό identifier Εγγραφή (Record) Μεταδεδομένα σε ένα συγκεκριμένο format Ταυτοποιητής (Identifier) Μοναδικό κλειδί για ένα τεκμήριο σε ένα αποθετήριο Σύνολο(Set) Μη υποχρεωτικό σχήμα ομαδοποίησης των items ενός αποθετηρίου

27 Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 2/2

28 Τεχνικές Λεπτομέρειες του OAI-PMH: Εγγραφές τα μεταδεδομένα μιας πηγής σε ένα συγκεκριμένο format Αποτελείται από τρία μέρη: 1. header (mandatory) identifier (1) datestamp (1) setSpec elements status για διαγραμμένα item 2. metadata (mandatory) XML κωδικοποιημένα μεταδεδομένα (root tag, namespace) Τα αποθετήρια πρέπει να υποστηρίζουν DC 3. about (optional) Δηλώσεις δικαιωμάτων Δηλώσεις προέλευσης

29 Τεχνικές Λεπτομέρειες του OAI-PMH: DateStamps Ημερομηνία της τελευταίας αλλαγής του συνόλου των μεταδεδομένων(metadata set) Υποχρεωτικό χαρακτηριστικό κάθε Item Δύο πιθανές μορφές : YYYY-MM-DD, YYYY-MM-DDThh:mm:ssZ Παρέχει την δυνατότητα αιτήσεων συγκομιδής from και until Εφαρμογή στους μηχανισμούς αύξησης και ενημέρωσης Δίνει την ημερομηνία τροποποίησης,δημιουργίας ή διαγραφής Σχετικά με την διαγραφή υποστηρίζει τρεις καταστάσεις( no, persistent, transient)

30 Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (1/3) OAI-PMH υποστηρίζει διανομή από πολλαπλά formats μεταδεδομένων από ένα αποθετήριο Ιδιότητες των formats μεταδεδομένων id string που προσδιορίζει το format ( metadataPrefix ) metadata schema URL (XML schema για έλεγχο εγκυρότητας) XML namespace URI (global identifier for metadata format) Τα Αποθετήρια πρέπει να υποστηρίζουν διανομή σε unqualified Dublin Core Αυθαίρετα formats μεταδεδομένων μπορούν να προσδιορίζονται και να μεταφέρονται μέσω του OAI-PMH Τα επιστρεφόμενα μεταδεδομένα πρέπει να υπακούουν στις XML namespace προδιαγραφές

31 Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (2/3) Ελάχιστο standard: υποστήριξη unqualified Dublin Core http://dublincore.org/ Το Dublin Core Metadata Element Set περιλαμβάνει15 στοιχεία Τα στοιχεία δεν είναι υποχρεωτικά Τα στοιχεία μπορούν να είναι επαναλαμβανόμενα

32 Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (3/3) The Dublin Core Metadata Element Set: Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights

33 Τεχνικές Λεπτομέρειες του OAI-PMH: Σύνολα (sets) Λογικός χωρισμός των αποθετηρίων σε τμήματα Είναι επιλογής – τα αρχεία δεν είναι υποχρεωμένα να προσδιορίζουν sets Δεν υπάρχουν υποδείξεις για την υλοποίηση sets Δεν είναι ανάγκη να είναι εξαντλητικά ούτε ιεραρχικά Βρίσκουν εφαρμογή: σε επιλεκτική συγκομιδή( set parameter) Εφαρμογές: Θεματικές Πύλες, μηχανή αναζήτησης διατριβών…….. Παραδείγματα Τύπος δημοσίευσης (thesis, article, …) Τύπος τεκμηρίου (text, audio, image, …) Θεματική ευρετηρίαση του περιεχομένου σύμφωνα με την DNB (medicine, biology, …)

34 Τεχνικές Λεπτομέρειες του OAI-PMH: παράδειγμα αίτησης GET request: http://archive.org/oai? verb=ListRecords&metadataPrefix=oai_ dc

35 Τεχνικές Λεπτομέρειες του OAI-PMH: Απάντηση Η απάντηση πρέπει να είναι well-formed XML με markup όπως τα παρακάτω: Δήλωση της XML ( ) root element named OAI-PMH με τρία γνωρίσματα (xmlns, xmlns:xsi, xsi:schemaLocation) Τρία child στοιχεία  responseDate  request  error

36

37 Τεχνικές Λεπτομέρειες του OAI-PMH: κωδικοί λαθών Τα αποθετήρια πρέπει να προσδιορίζουν τα OAI- PMH λάθη σε μία απάντηση μιας αίτησης Καθορισμένοι δείκτες λάθους badArgument badResumptionToken badVerb cannotDisseminateFormat idDoesNotExist noRecordsMatch noMetaDataFormats noSetHierarchy

38 Τεχνικές Λεπτομέρειες του OAI-PMH: Τύποι αιτήσεων Έξι (6) τύποι αιτήσεων 1. Identify (περιγραφή ενός αρχείου) 2. ListMetadataFormats( ανακτά τα διαθέσιμα formats των μεταδεδομένων) 3. ListSets(ανακτά την δομή ενός αποθετηρίου) 4. ListIdentifiers (συντομευμένη Listrecords ανακτά μόνο τουςIdentifiers) 5. ListRecords(συγκομιδή εγγραφών από το αποθετήριο) 6. GetRecord(συγκομιδή συγκεκριμένης εγγραφής) Ένας harvester δεν χρειάζεται να χρησιμοποιεί όλους τους τύπους Ένα αποθετήριο πρέπει να υλοποιεί όλους τους τύπους

39

40

41 Ερωτήσεις που πρέπει να τεθούν σε μια υλοποίηση του ΟΑΙ πρωτοκόλλου Διαθέτης Δεδομένων  Πρέπει να απαντήσει στο ερώτημα: ποία δεδομένα θέλω να διανείμω;  Ποίους διαθέτες υπηρεσιών θέλω να προμηθεύσω με δεδομένα; Διαθέτης Υπηρεσιών  Ποιες υπηρεσίες θέλω να παρέχω;  Από ποίους προμηθευτές δεδομένων θα παίρνω μεταδεδομένα;  Με ποιο τρόπο θα προσλαμβάνονται τα μεταδεδομένα; Διαθέτης Δεδομένων & Διαθέτης Υπηρεσιών  Οι διαστάσεις στις οποίες πρέπει να συμφωνήσουν: (Συχνότητα ενημέρωσης, τα format των μεταδεδομένων, τα sets, τα σχήματα των θεμάτων, την αποδεκτή χρήση).

42 ΕΡΓΑΛΕΙΑ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΟΑΙ Η OAI διατηρεί μια λίστα με software tools (http://www.openarchives.org/tools/) Final Report on Technical Issues (download from http://www.oaforum.org/documents/ GNU EPrints,DSpace, FEDORA

43 ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (1/3) SQL Database Μεταδεδομένα για τις πηγές Web server, πχ. Apache, IIS, programming interface / API πχ. Perl, PHP, Java-Servlet web server extension identifier αρχείου/ base URL Έναν μοναδικό identifier για κάθε item format μεταδεδομένων (ένα η περισσότερα, υποχρεωτικά unqualified Dublin Core) datestamps για τα μεταδεδομένα (created / last modified) flow control (μηχανισμός ελέγχου ροής κυρίως για τα μεγάλα αρχεία)

44 ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (2/3) Argument Parser (αξιολογεί OAI αιτήσεις) Error Generator (δημιουργεί XML απαντήσεις με κωδικούς λαθών) Μηχανισμό Database Query / τοπική εξαγωγή μεταδεδομένων (ακανακτά μεταδεδομένα από το αποθετήριο σύμφωνα με το αιτούμενο format). XML Generator / Δημιουργία απάντησης (δημιουργεί XML απάντηση με κωδικοποιημένη πληροφορία. Flow Control (δίνει τμήμα- τμήμα τα μεταδεδομένα ιδίως σε μεγάλα αποθετήρια resumption token ως μηχανισμός ελέγχου)

45 ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (3/3)

46 ΔΙΑΘΕΤΗΣ ΥΠΗΡΕΣΙΩΝ:διάγραμμα συστατικών μερών και αρχιτεκτονικής

47 XML Shemas για OAI-PMH(1/3) To OAI-PMH χρησιμοποιεί XML Schemas για να ορίσει το format των εγγραφών Μπορεί να ανταλλάξει μεταδεδομένα σε οποιαδήποτε format αρκεί να είναι κωδικοποιημένα σε XML και να ορίζεις ένα XML Schemas για αυτά τα format. Το OAI-PMH ορίζει ένα oai_dc schema ως έλαχιστη προδιαγραφή διαλειτουργικότητας Η τεκμηρίωση του OAI-PMH περιγράφει XML schema και για άλλα formats, και παρουσιάζει XML schemas για:  rcf1807 (για RFC 1807 format μεταδεδομένα)  marc21  oai_marc (για MARC μεταδεδομένα)

48 XML Shemas για OAI-PMH (2/3) Δημιουργία ενός νέου schema επεκτείνοντας το oai_dc schema για να προσθέσουμε νέα στοιχεία: Ονοματοδοσία του νέου σχήματος Δημιουργία namespaces Δημιουργία ενός schema για το νέο στοιχείο elements Δημιουργία ενός 'container schema' Έλεγχος εάν είναι valid schema / records Πρόσθεση του στη "ListMetadataFormats" του αποθετηρίου Πρόσθεση στο αποθετήριο (other verbs) Έλεγχος εάν δουλεύει και εάν είναι valid

49 XML Shemas για OAI-PMH (3/3) Παράδειγμα πρόσθεσης ενός νέου σχήματος του ims ims http://www.imsglobal.org/xsd/imsmd_v 1p2p2.xsd http://www.imsglobal.org /xsd/imsmd_v1p2

50 ΣΥΜΠΕΡΑΣΜΑΤΑ Η εστίαση της OAI είναι στην υψηλού επιπέδου επικοινωνία μεταξύ των συστημάτων και της απλότητας των πρωτοκόλλων. Το OAI-PMH έχει συγκεντρώσει πολλή μεγάλη προσοχή μεταξύ της κοινότητας της ηλεκτρονικής δημοσίευσης Το πρωτόκολλο OAI για τη συγκομιδή μεταδεδομένων [ Lagoze και Van de Sompel, 2001 ] στην ουσία υποστηρίζει ένα σύστημα των διασυνδεόμενων συστατικών, όπου κάθε ένα είναι DL Το πρωτόκολλο OAI μπορεί να θεωρηθεί ως κόλλα που δεσμεύει μαζί συστατικά ενός μεγαλύτερου DL


Κατέβασμα ppt "ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Πρόγραμμα."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google