Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Δήμου Κωνσταντίνα Τηλ/νο: 210-9333702

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Δήμου Κωνσταντίνα Τηλ/νο: 210-9333702"— Μεταγράφημα παρουσίασης:

1 ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Δήμου Κωνσταντίνα Τηλ/νο: 210-9333702 E-mail: kdimou@ekke.gr

2 ΘΕΜΑ: ΨΗΦΙΟΠΟΙΗΣΗ ΚΑΙ ΟΠΤΙΚΗ ΑΝΑΓΝΩΡΙΣΗ ΧΑΡΑΚΤΗΡΩΝ ΜΕ ΕΜΦΑΣΗ ΣΕ ΚΕΙΜΕΝΑ ΠΟΛΛΩΝ ΓΡΑΦΩΝ

3 Τι περιλαμβάνει το θέμα;  Κριτήρια επιλογής υλικού /συλλογών  Οπτική Αναγνώριση Χαρακτήρων  Κωδικοποίηση των χαρακτήρων με την χρήση του Unicode  Παράγοντες που συμβάλλουν στην λανθασμένη αναγνώριση  Προτάσεις για λύση των προβλημάτων που προκύπτουν  Περιορισμοί του σήμερα  Σχετικές προσπάθειες

4 Πώς εντάσσεται το θέμα στην ενότητα;  Οι ψηφιακές βιβλιοθήκες εκτός από το ψηφιακό υλικό περιέχουν και ψηφιοποιημένο  Όλες οι βιβλιοθήκες διαθέτουν τεράστιες συλλογές έντυπου υλικού  Πολλά προγράμματα ψηφιοποίησης πραγματοποιούνται σήμερα σε ολόκληρο τον κόσμο  Η τάση που επικρατεί είναι κατάργηση των περιορισμών πρόσβασης στη γνώση

5 Γιατί είναι σημαντικό ως θέμα;  Το μεγαλύτερο μέρος των συλλογών σήμερα στις βιβλιοθήκες είναι συμβατικό. Συνεπώς πρέπει να έχουμε υπόψη τα ακόλουθα: - Καθορισμός της κατάλληλης στιγμής και συνθηκών για ψηφιοποίηση - Συγκέντρωση του υλικού που έχει μεγαλύτερη ανάγκη συντήρησης - Επιλογή υλικού που θα χρησιμοποιηθεί για τη μετατροπή - Συνεργασία με πωλητές υλικού - Έμφαση στην ποιότητα του αποτελέσματος - Δημιουργία ευρετηρίων και εργαλείων πλοήγησης - Παροχή πρόσβασης στο δίκτυο

6 ΓΙΑΤΙ ΠΡΕΠΕΙ ΝΑ ΜΑΘΟΥΜΕ ΠΩΣ ΓΙΝΕΤΑΙ  Η ψηφιοποίηση είναι χρήσιμη για μερικές κατηγορίες υλικού  Προσθέτει μεγαλύτερη αξία στην πληροφορία και παρέχει μεγαλύτερη λειτουργικότητα  Πρέπει να γίνεται με καλό σχεδιασμό - Σταδιακά επεκτεινόμενη στις διάφορες συλλογές - Τηρώντας τα αντίστοιχα πρότυπα - Ξεκαθαρίζοντας το θέμα των πνευματικών δικαιωμάτων - Και με στρατηγικές διατήρησης  Παρέχει μακροπρόθεσμα οφέλη αλλά βραχυπρόθεσμα παρουσιάζει προβλήματα

7 ΓΙΑΤΙ ΨΗΦΙΟΠΟΙΟΥΜΕ  Έχουμε μεγάλη χρήση - Άρα το υλικό δεν είναι διαθέσιμο σε όλους  Έχουμε σπάνιο υλικό – Άρα φθορά  Διατήρηση του πρωτοτύπου - Αποφυγή χρήσης πρωτοτύπου  Διατήρηση του περιεχομένου  Παρότι τα αντίγραφα είναι λιγότερο σημαντικά από τα πρωτότυπα, αυξάνουν τις πιθανότητες διάσωσης  Έχουμε πρόβλημα χώρου

8 ΤΙ ΠΡΕΠΕΙ ΝΑ ΞΕΡΟΥΜΕ ΚΑΙ ΓΙΑΤΙ ΜΑΣ ΧΡΕΙΑΖΕΤΑΙ  Χαρακτηριστικά του υλικού μας - Σχήμα - Φυσική κατάσταση - Πνευματική αξία - Πληροφοριακή αξία σε σχέση με τον οργανισμό Όλα αυτά έχουν μεγάλη επίδραση στο κόστος την ποιότητα και την πολυπλοκότητα του υλικού  Δυνατότητες της τεχνολογίας  Χρόνο που θα απαιτήσει  Ποιο θα είναι το κόστος  Τι θέλουν οι χρήστες μας  Έχουν γίνει άλλες αντίστοιχες προσπάθειες  Πάντα περιγραφή του υλικού – Η ψηφιοποίηση δεν μας απαλλάσσει από την περιγραφή του  Νομικό ρίσκο Πάντα ο τελικός μας στόχος είναι η επίτευξη του μέγιστου οφέλους για τους χρήστες αλλά και για τον οργανισμό που εργαζόμαστε

9 ΤΙ ΑΠΑΙΤΕΙΤΑΙ Ακολουθείται μια συγκεκριμένη διαδικασία που εμπλέκει διαφορετικά σταδία σε κάθε βήμα. Υλικό - Μετατροπή -Επεξεργασία- Αποθήκευση - Ανάκτηση  ειδικευμένο προσωπικό - Συνεργασία με μια μεγάλη γκάμα επαγγελμάτων (καταλογογράφοι, τεχνικοί, προγραμματιστές, εισαγωγείς στοιχείων, υπεύθυνοι δικτύων, υπεύθυνοι διαχείρισης)  Χρήματα  Τεχνολογία

10 ΠΛΕΟΝΕΚΤΗΜΑΤΑ-ΜΕΙΟΝΕΚΤΗΜΑΤΑ Πλεονεκτήματα - Αυξημένη δυνατότητα αναζήτησης - Καλύτερη και δημοκρατικότερη διανομή των στοιχείων - Δυνατότητα καλύτερου χειρισμού του κειμένου - Εξοικονόμηση χώρου - Πρόσβαση από πολλούς χρήστες - απομακρυσμένους - Μείωση της φθορά του πρωτοτύπου-επέκταση του χρόνου ζωής του Μειονεκτήματα - υψηλό κόστος - Το ψηφιοποιημένο υλικό δεν έχει μεγάλη διάρκεια ζωής - Εξαρτάται από το υλικό – λογισμικό - Επιπρόσθετα επίπεδα εργασίας - Δημιουργεί μεγάλες προσδοκίες στους χρήστες - Πνευματικά δικαιώματα

11 ΜΕΤΑΤΡΟΠΗ. ΠΩΣ ΓΙΝΕΤΑΙ Δακτυλογράφηση εκ νέου του εγγράφου - πλεονέκτημα μεγαλύτερης ακρίβειας - φτηνότερη από ένα συνδυασμό αυτόματης και ανθρώπινης επεξεργασίας Ωστόσο είναι πιο χρονοβόρα και ακριβή Scanning - Όμως δεν ενδείκνυται για περίεργα σχήματα και εύθραυστο υλικό - Αντιπροσωπεύει το κείμενο απλά ως εικόνα Scanning και μετατροπή σε ψηφιακούς χαρακτήρες με τη χρήση λογισμικού Οπτικής Αναγνώρισης Χαρακτήρων (OCR)

12 ΟΠΤΙΚΗ ΑΝΑΓΝΩΡΙΣΗ ΧΑΡΑΚΤΗΡΑ  Μετατρέπει τους ανιχνευμένους χαρακτήρες σε αντίστοιχους ψηφιακούς με τη χρήση κάποιου κώδικα (ASCII, UNICODE)  Όμως παρά την εξέλιξη παραμένει μια ανακριβής διαδικασία - Το ποσοστό λάθους ποικίλλει ανάλογα με το πόσο ευανάγνωστο είναι το αρχικό κείμενο - Είναι πολυγλωσσικά κείμενα - Είναι πρωτότυπο ή φωτοτυπία - Είναι σε καλή κατάσταση - Περιέχει σημεία στίξης και άλλα γνωρίσματα  Ωστόσο ακόμα και ένα ποσοστό λάθους αναλογίας 1% είναι πάρα πολύ υψηλό  Έτσι έχουμε διάφορες διαδικασίες για μετριασμό των λαθών - Χρησιμοποίηση διαφορετικών προγραμμάτων αναγνώρισης χαρακτήρων - Χρησιμοποίηση ενός λεξικού για έλεγχο των αποτελεσμάτων  Ωστόσο για να έχουμε υψηλή ακρίβεια είναι απαραίτητη η ανθρώπινη επέμβαση

13 ΕΠΙΛΟΓΗ OCR  Επειδή παρουσιάζει προβλήματα ως προς την ακρίβεια πρέπει: Αυστηρός καθορισμός του επιπέδου ακρίβειας που θέλουμε Μέγεθος του υλικού Γλώσσες που υποστηρίζει Ταχύτητα αναγνώρισης Κόστος Το γεγονός ότι στο μέλλον θα υπάρξουν γρήγορες αλλαγές

14 ΨΗΦΙΟΠΟΙΗΣΗ ΚΕΙΜΕΝΩΝ ΣΕ ΠΟΛΛΕΣ ΓΡΑΦΕΣ Η περίπτωση του Letopis ‘Zhurnal nykh Statei’: Ένα Ρωσοσοβιετικό Εθνικό Ευρετήριο Περιοδικών που περιέχει υλικό σε τρία αλφάβητα:  Ελληνικό  Λατινικό  Κυριλλικό Στην συγκεκριμένη περίπτωση η καλλίτερη επιλογή για την κωδικοποίηση του κειμένου ήταν η χρήση του UNICODE

15 ΟΠΤΙΚΗ ΑΝΑΓΝΩΡΙΣΗ ΧΑΡΑΚΤΗΡΩΝ ΣΕ UNICODE ΠΕΡΙΒΑΛΛΟΝ ΠΟΛΛΩΝ ΓΡΑΦΩΝ UNICODE  Κωδικοποιεί αλφάβητα (χαρακτήρες), όχι γλώσσες  Ένας μοναδικός αριθμός για κάθε χαρακτήρα  Ανεξάρτητο από λειτουργικά συστήματα, λογισμικά & γλώσσες  Απαιτεί 16 bits – αξιοποίηση 65.536 χαρακτήρων  Επιτρέπει αναπαράσταση του λατινικού, ελληνικού, αρμενικού, αραβικού, και άλλων χαρακτήρων λιγότερο διαδεδομένων γλωσσών  Καλύπτει το σύνολο των Κινέζικων, Ιαπωνικών και Κορεατικών ιδεογραμμάτων  Συμπεριλαμβάνει σημεία στίξης, διακριτικά, μαθηματικά και τεχνητά σύμβολα κλπ.  Ελληνικό αλφάβητο: U+0370-U+03FF  Υψηλότερες απαιτήσεις- Χρόνοι μετάδοσης  Υιοθέτηση & υποστήριξη από κορυφαίους παράγοντες (IBM, Oracle, κ.ά.)

16 Αντιπροσώπευση των Χαρακτήρων Οι χαρακτήρες που είναι όμοιοι σε μορφή, αλλά που κατηγοριοποιούνται σε διαφορετικές γλώσσες αντιμετωπίζονται σαν διαφορετικές ολότητες με ξεχωριστές Unicode τιμές. Πχ. - το λατινικό γράμμα Χ έχει Unicode τιμή U+0058 - το ελληνικό γράμμα Χ έχει Unicode τιμή U+03A7 - το κυριλλικό γράμμα Χ έχει Unicode τιμή U+0425 Όμως σε πρακτικό επίπεδο αυτό μπορεί να αποβεί σε βάρος της ακρίβειας του OCR. Στο Letopis υπήρχε πρόβλημα: - κυρίως στα κεφαλαία γράμματα όπου δεν υπάρχει διαφορά πχ. μεταξύ του ελληνικού, λατινικού και κυριλλικού Α. - Στα αρχικά ενός κύριου ονόματος - Σε μεμονωμένους χαρακτήρες όπως οι λατινικοί αριθμοί - Στα σημεία στίξης ή διακριτικά κυρίως στους ελληνικούς χαρακτήρες όπου κάποια γράμματα είχαν πρόσθετους τόνους ή διαλυτικά Έτσι το λογισμικό OCR δεν μπορούσε να υποδείξει την κατάλληλη τιμή Unicode.

17 ΛΥΣΕΙΣ ΣΤΑ ΠΡΟΒΛΗΜΑΤΑ ΤΩΝ ΟΜΟΙΩΝ ΧΑΡΑΚΤΗΡΩΝ  Να αχρηστευθεί τελείως η αναγνώριση της ελληνικής γλώσσας και να διορθωθεί το κείμενο με το χέρι  Να αχρηστευθεί η αναγνώριση τόσο της λατινικής όσο και της ελληνικής γλώσσας και να γίνει η διόρθωση και των δυο γλωσσών με το χέρι  Να επιτραπεί η πλήρη αναγνώριση και των τριών γραφών και μετά να γίνει η διόρθωση με το χέρι  Συμπέρασμα Σε περίπτωση που έχουμε να ψηφιοποιήσουμε κείμενα όπου μπορεί να αντιμετωπίσουμε τέτοια προβλήματα καλό είναι κατά το στάδιο του σχεδιασμού να αξιολογηθεί ο αριθμός των γραφών. Όσο λιγότερες είναι οι γραφές που πρέπει να αναγνωριστούν: - υψηλότερη η ακρίβεια του OCR - λιγότερος ο χρόνος ολοκλήρωσης της διαδικασίας - μικρότερο κόστος

18 ΕΊΝΑΙ ΔΙΑΘΕΣΙΜΟ ΓΙΑ ΧΡΗΣΗ ΠΟΥ ΜΠΟΡΟΥΜΕ ΝΑ ΤΟ ΕΦΑΡΜΟΣΟΥΜΕ  Υπάρχει μεγάλη ποικιλία λογισμικών OCR  Η επόμενη γενιά αντιπροσωπεύεται από Pix Tex  Η τιμή τους διαφέρει ανάλογα με τις δυνατότητές τους  Μπορούμε να το εφαρμόσουμε στην ψηφιοποίηση των συλλογών που διαθέτουν οι βιβλιοθήκες μας  Πάντα με καλό σχεδιασμό και συνεργασία για ανταλλαγή εμπειρίας με άλλους οργανισμούς που έχουν πραγματοποιήσει αντίστοιχα προγράμματα

19 ΠΟΙΑ ΕΊΝΑΙ ΤΑ ΟΡΙΑ ΚΑΙ ΟΙ ΠΕΡΙΟΡΙΣΜΟΙ ΤΟΥ ΣΗΜΕΡΑ  Θέματα Πνευματικών Δικαιωμάτων  Θέματα διατήρησης του ψηφιακού υλικού που θα παραχθεί  Υπάρχοντες και δυνητικοί χρήστες

20 ΣΧΕΤΙΚΑ ΘΕΜΑΤΑ ΚΑΙ ΠΡΟΣΠΑΘΕΙΕΣ Διεθνώς και στην Ελλάδα  Βιβλιοθήκη του Κογκρέσου. Πρόγραμμα «Αμερικάνικη Μνήμη»  Πολλά Πανεπιστήμια και Οργανισμοί σε όλο τον κόσμο  Ευρωπαϊκό Πρόγραμμα ΜΕΤΑe http://meta-e.uibk.ac.at  ΕΚΤ. Ψηφιοποίηση Διδακτορικών Διατριβών (13.500) http://theses.ekt.gr  Πανεπιστήμιο Κρήτης. Μεταπτυχιακά και διδακτορικές διατριβές http://dlib.libh.uoc.gr/sub  Πανεπιστήμιο Ιωαννίνων. Μεταπτυχιακές εργασίες και διδακτορικές διατριβές http://ultranet.lib.uoa.gr/digital

21 Ερωτήματα προς Προβληματισμό Τι υλικό πρέπει να επιλέξουμε έτσι ώστε να μην έχουμε νομικά προβλήματα σχετικά με το Copyright; Μήπως με την ψηφιοποίηση αποκτήσουμε καινούργιους χρήστες αλλά χάσουμε τους ήδη υπάρχοντες;

22 Βιβλιογραφία Andrew Spencer, George: Digitization, Coded Character Sets, and Optical Character Recognition for Multi-script Information Resources: The Case of the Letopis 'Zhurnal 'nykh Statei, LNCS, 2163, 2001.  Arms W.: Digital Libraries, Cambridge Massachusetts, The MIT Press, 2001.  Drenth Pieter: Preservation and access: two sides of the same coin, LNCS, 1513, 1998, pp. 743-752.  Hazen Dan, Hornell Jeffrey, Merrill-Oldham Jan: Selecting Research Collections for Digitization, Council on Library and Information Resources, 1998.  Height Susan: Optical Character Recognition (OCR) as a Digitization Technology, Network Notes, 37, 1996.  Kuny Terry: An Introduction to Digitization Technologies and Issues, Network Notes, N.14, 1995.  McKay Sally: Digitization in an Archival Environment, Electronic Journal of Academic and Special Librarianship, 2003.

23 Βιβλιογραφία  McKay Sally: Digitization in an Archival Environment, Electronic Journal of Academic and Special Librarianship, 2003.  Muhleberger Gunter and Stehno Birgit: The Meta Project – Automated Digitization of books and Journals, ECDL 2002, LNCS 2458, pp.660, 2002.  Needleman Mark: the Unicode Standard, Serials Review, Vol.26, No 2, August 2000, pp. 51-54. http://www.unicode.org Sitts Maxine: Handbook for digital projects: A management tool for preservation and access, Massachusetts, Northeast Document Conservation Center, 2000.  Vogt – O’Connor Diana: Digitization and Archival Information  Weber Hartmut: Digitization as a Means of Preservation? European Commission on Preservation and Access, Amsterdam, October 1997. http://www.clir.org/pubs/reports/digpres/digpres.html

24 Μερικά παραδείγματα παρόμοιων χαρακτήρων με κεφαλαία γράμματα στο Ελληνικό, Λατινικό, και Ρωσικό Κυριλλικό αλφάβητο, και η τιμή τους σε Unicode. Greek scriptLatin scriptCyrillic script Α U+0391 A U+0041A U+0410 Β U+0392 B U+0042Β U+0412 Γ U+0393 Γ U+0413 Ε U+0395 E U+0045Ε U+0415 Ζ U+0396 Z U+005A Η U+0397 H U+0048Η U+041D Θ U+0398 Θ* U+0472 Ι U+0399 I U+0049Ι* U+0406 Κ U+039A K U+004BΚ U+041A Μ U+039C M U+004DΜ U+041C Ν U+039D N U+004E Ο U+039FO U+004FΟ U+041E Π U+03A0 Π U+041F Ρ U+03A1 P U+0050Ρ U+0420 Τ U+03A4 T U+0054Τ U+0422 Υ U+03A5 Y U+0059y U+0423 Φ U+03A6 Φ U+0424 Χ U+03A7 X U+0058Χ U+0425 C U+0043C U+0421


Κατέβασμα ppt "ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Δήμου Κωνσταντίνα Τηλ/νο: 210-9333702"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google