Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο."— Μεταγράφημα παρουσίασης:

1 Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο

2 2 Κωδικοποίηση Χαρακτήρων

3 3 Το πρόβλημα (1/2) Ένας από τους κύριους λόγους ανάπτυξης προτύπων είναι η επιθυμία για κοινό τρόπο αντιμετώπισης προβλημάτων. Η ύπαρξη των προτύπων έχει βελτιώσει βασικούς τομείς συνεργασίας των βιβλιοθηκών και των αρχείων όπως η περιγραφή τεκμηρίων και εγγράφων, η ανταλλαγή εγγραφών και εγγραφών καθιερωμένων τύπων, διαδανεισμού κ.λπ. Ωστόσο η ύπαρξη πολλών προτύπων δημιουργεί νέο πρόβλημα διαλειτουργικότητας των συστημάτων.

4 4 Το πρόβλημα (2/2) Η απαίτηση για υποστήριξη χαρακτήρων διαφορετικών αλφαβήτων σε μια βιβλιογραφική εγγραφή ή ένα τεκμήριο. Οι διαφορετικές κωδικοποιήσεις των ίδιων αλφαβήτων. Αποτελούν σοβαρά προβλήματα περιγραφής και ανταλλαγής τεκμηρίων και εγγραφών.

5 5 Ορισμοί Κωδικός χαρακτήρα: μια ένα προς ένα αντιστοίχηση ενός συνόλου χαρακτήρων στο σύνολο των θετικών ακεραίων αριθμών. Δηλ. είναι η ανάθεση μιας θέσης κωδικού σε ένα χαρακτήρα. Κωδικοποίηση χαρακτήρων: Μια μέθοδος αναπαράστασης χαρακτήρων στον υπολογιστή που αντιστοιχεί κωδικούς χαρακτήρων σε σειρές από bytes (οκτάδες από bits. Παράδειγμα: Σε ένα byte μπορούν να αντιστοιχηθούν 256 χαρακτήρες με κωδικούς 0-255.

6 6 ASCII American Standard Code for Information Interchange ! " # $ % & ' ( ) * +, -. / 0 1 2 3 4 5 6 7 8 9 : ; ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ Οι χαρακτήρες του κώδικα ASCII κώδικoποιούνται από 7-bit. Σύνολο χαρακτήρων 2 7 =128 Εύρος κωδικών 0-127 Οι κωδικοί 0-31 και 127 αντιστοιχούν σε control χαρακτήρες

7 7 Εθνικές παραλλαγές του ASCII Η αρχική έκδοση του ASCII ονομάστηκε ANSI X3.4- 1986 πρότυπο. ISO 646: παρόμοια κωδικοποίηση με ASCII εκτός των χαρακτήρων @[\]{|} που αντιστοιχούν σε κωδικούς εθνικής χρήσης. Υπάρχει ελευθερία στην αντιστοίχηση των χαρακτήρων #$^`~. Παράδειγμα: κωδικός χαρακτήρας παραλλαγή 35 # £ Ù 64 @ É § Ä à ³ 91 [ Ä Æ ° â ¡ ÿ é

8 8 Η οικογένεια προτύπων ISO 8859 8-bit αναπαράσταση κωδικών χαρακτήρων πλήθος χαρακτήρων 256 κωδικοί 0-255 Από 0-127 δίνονται οι κωδικοί σύμφωνα με τον ASCII και υπάρχει δυνατότητα αναπαράστασης άλλων αλφάβητων Παράδειγμα: ISO 8859-1 (Latin 1) κωδικοί 128-159, control χαρακτήρες, κωδικοί 160-255: ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

9 9 Τα μέρη του ISO 8859 (1/2) ISO 8859-1ISO 8859-1 Latin alphabet No. 1 "Western", "West European»Latin alphabet No. 1 ISO 8859-2ISO 8859-2 Latin alphabet No. 2 "Central European", "East European" ISO 8859-3ISO 8859-3 Latin alphabet No. 3 “South European"; "Maltese & Esperanto" ISO 8859-4ISO 8859-4 Latin alphabet No. 4"North European" ISO 8859-5ISO 8859-5 Latin/Cyrillic alphabet (for Slavic languages) ISO 8859-6ISO 8859-6 Latin/Arabic alphabet (for the Arabic language) ISO 8859-7ISO 8859-7 Latin/Greek alphabet (for modern Greek ΕΛΟΤ-928) ISO 8859-8ISO 8859-8 Latin/Hebrew alphabet (for Hebrew and Yiddish) ISO 8859-9ISO 8859-9 Latin alphabet No. 5 "Turkish"

10 10 Τα μέρη του ISO 8859 (2/2) ISO 8859-10ISO 8859-10 Latin alphabet No. 6 "Nordic" (Sámi, Inuit, Icelandic) ISO 8859-11ISO 8859-11 Latin/Thai alphabet (for the Thai language) (Part 12 has not been defined.) ISO 8859-13ISO 8859-13 Latin alphabet No. 7 Baltic Rim ISO 8859-14ISO 8859-14 Latin alphabet No. 8 Celtic ISO 8859-15ISO 8859-15 Latin alphabet No. 9 "euro"Latin alphabet No. 9 ISO 8859-16 Latin alphabet No. 10 Albanian, Croatian, English, Finnish, French, German, Hungarian, Irish Gaelic (new orthography), Italian, Latin, Polish, Romanian, and Slovenian.

11 11 ISO 8859-7

12 12 Κωδικοσελίδες DOS, Windows Το λειτουργικό σύστημα MS DOS χρησιμοποίησε διαφορετικούς κωδικούς χαρακτήρων με 8-bit κωδικοποίηση που ονομάζονται code pages. Στο code page 437 περιλαμβάνονται μαθηματικά σύμβολα και ελληνικοί χαρακτήρες. Στο code page 850 περιλαμβάνονται σχεδόν όλοι οι χαρακτήρες του Latin 1 αλφαβήτου αλλά σε διαφορετικές θέσεις κωδικών από το ISO 8859-1. Τα Windows χρησιμοποιούν άλλους κωδικούς (π.χ. cp-1252 για Latin 1, cp-1253 για ελληνικά).

13 13 ISO 10646 Το ISO 10646 καθορίζει το Universal Character Set, που είναι ένα μεγάλο σύνολο χαρακτήρων (καλύπτει πολλά αλφάβητα) με ενιαία κωδικοποίηση. Προέκυψε από: την πληθώρα των 8-bit κωδικοσελίδων η οποία παρουσίαζε ασυμφωνίες στους κωδικούς ίδιων χαρακτήρων την ανάγκη κωδικοποίησης πολλών χαρακτήρων σε μια κωδικοσελίδα Προτείνει 32-bit κωδικοποίηση (UCS-4) αλλά χρησιμοποιείται η 16-bit κωδικοποίηση (UCS-2), ορίζοντας το Basic Multilingual Plane (BMP). Τα πρώτα δύο bytes θεωρούνται 0 0. Το Unicode προτείνει 16-bit κωδικοποίηση και αποδίδει ένα μοναδικό αριθμό για κάθε χαρακτήρα, καλύπτοντας περισσότερους από 65.000 χαρακτήρες.

14 14 Unicode 49.194 χαρακτήρες αλφαβήτων και γραφών από την Ευρώπη, τη Μέση Ανατολή (συμπεριλαμβανομένων γραφών από δεξιά προς τα αριστερά) και την Ασία (π.χ. το Han subset περιέχει 27.484 ιδεογράμματα από την Κίνα, την Ιαπωνία, την Κορέα, το Βιετνάμ, την Ταϊβάν και τη Σιγκαπούρη). Σημεία στίξης, μαθηματικά και τεχνικά σύμβολα, γεωμετρικά σχήματα. Στη Version 3.0 προστέθηκαν και άλλα αλφάβητα όπως Ethiopic, Canadian Aboriginal Syllabics, Cherokee, Sinhala, Syriac, Myanmar, Khmer, Mongolian, Braille και άλλα ιδεογράμματα. Κρατά 6.400 ιδιωτικής χρήσης κωδικούς ενώ υπάρχουν ακόμα 7.827 αχρησιμοποίητοι κωδικοί για μελλοντική επέκταση. 2.048 (16-bit) κωδικοί για τους οποίους επιτρέπει το συνδυασμό τους σε ζεύγη (pair codes) αποδίδοντας επιπλέον 1.048.544 χαρακτήρες (για ειδικά σύμβολα με τόνους και αρχαίες γραφές). Συμβολισμός χαρακτήρων: U+nnnn, nnnn δεκαεξαδικός αριθμός (π.χ. U+0020=space).

15 15 Unicode Transformation Format UTF-16 Κάθε χαρακτήρας κωδικοποιείται από 2 bytes (16- bits) Αντιοικονομική κωδικοποίηση ειδικά για χαρακτήρες που ανήκουν στον ASCII. UTF-7 (Δε συνιστάται η χρήση του) Κάθε χαρακτήρας κωδικοποιείται από ένα ή περισσότερα bytes. Οι χαρακτήρες ανάλογα με τον κωδικό τους οργανώνονται σε σύνολα πλήθπυς 127 Οι πρώτοι 127 χαρακτήρες συμφωνούν με τον ASCII και κωδικοποιούνται από ένα byte Για τους υπόλοιπους προηγούνται και έπονται bytes διαφυγής που παραπέμπουν σε άλλα σύνολα από 127 χαρακτήρες.

16 16 UTF-8 Κωδικοποίηση μεταβλητού μήκους (για λόγους οικονομίας στη μνήμη). Οι χαρακτήρες του ASCII (1-127) έχουν το πρώτο bit 0 και κωδικοποιούνται ως ένα byte. Οι υπόλοιποι από από 2-6 bytes με κωδικούς 128-255. Το πλήθος των άσσων του πρώτου byte από τους μη ASCII χαρακτήρες δηλώνει το πλήθος των bytes που κωδικοποιούν τον χαρακτήρα. Μετά τους άσσους ακολουθεί 0 και κατόπιν τα πρώτα bits που κωδικοποιούν τον κωδικό του χαρακτήρα σε δυαδική μορφή. Κάθε byte που ακολουθεί έχει αρχικά bits τα 10. Ουσιαστικά καλύπτονται σχεδόν όλα τα αλφάβητα και οι συνδυασμοί τους

17 17 Παραδείγματα U-00000000 - U-0000007F: 0xxxxxxx U-00000080 - U-000007FF: 110xxxxx 10xxxxxx U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Copyright sign (©) U+00A9: 11000010 10101001 Not equal to (  ) U+2260: 11100010 10001001 10100000

18 18 Γραμματοσειρές (fonts) Η γραμματοσειρά είναι μια σχηματική αναπαράσταση ενός συνόλου χαρακτήρων. Οι γραμματοσειρές δεν συγχέονται με τους χαρακτήρες, αλλά θεωρούνται διαφορετικές σχηματικές απεικονίσεις του ίδιου κωδικού. Παραδείγματα: τα Z, Z, Ζ, Z είναι απεικονίσεις του ίδιου χαρακτήρα το λατινικό και το ελληνικό «Α», έχουν την ίδια μορφή αλλά διαφορετικούς κωδικούς Στο Unicode, χαρακτήρες με την ίδια μορφή, αλλά με διαφορετικό νόημα, έχουν διαφορετικούς κωδικούς (π.χ. το γράμμα «Ν» και το σύνολο των φυσικών αριθμών Ν θεωρούνται άλλοι χαρακτήρες).

19 19 Control χαρακτήρες Μη ορατοί χαρακτήρες που χρησιμοποιούνται για έλεγχο συσκευών (devices) και διεργασιών (processes). ASCII (3) σταματά την τρέχουσα διεργασία ASCII (13) carriage return, ASCII (9) tab Οδηγίες που αλλάζουν την κωδικοποίηση των χαρακτήρων (κωδικοσελίδα). Π.χ. ένας control χαρακτήρας δίνει τον έλεγχο στην ελληνική κωδικοσελίδα. Οι χρησιμοποιούμενες κωδικοσελίδες αναφέρονται σε κάθε εφαρμογή που διαχειρίζονται χαρακτήρες HTML: Το ISO 2022 ορίζει τη χρήση διαφορετικών 8-bit χαρακτήρων σε ένα κείμενο.

20 20 Χαρακτήρες και UNIMARC (1/2) To UNIMARC προβλέπει διαπραγμάτευση προτύπου χαρακτήρων, αλλά ως επί το πλείστον χρησιμοποιεί την 8-bit κωδικοποίηση. Οι 256 χαρακτήρες χωρίζονται σε δύο πίνακες των 128 θέσεων που ονομάζονται χαμηλή (κωδικοί 0-127) και υψηλή σελίδα (128-255). Οι δύο πρώτες στήλες (32 χαρακτήρες) της κάθε σελίδας περιέχουν χαρακτήρες ελέγχου και έχουν κωδικούς G0 και G1 (graphic characters 0 and 1). Το πρότυπο ορίζει μια σειρά από σελίδες των 128 χαρακτήρων με μοναδικό κωδικό (01: ISO 646 βασικά λατινικά, 03: ANSEL εκτεταμένα λατινικά, 05: ISO 5428-1984 ελληνικά, 04: κυριλλικά) Για τα Ελληνικά το πρότυπο ISO 5428-1984 βασίζεται στο πρότυπο ISO 2022, το οποίο χρησιμοποιεί δύο bytes για τους τονούμενους χαρακτήρες.

21 21 Χαρακτήρες και UNIMARC (2/2) Το πρότυπο επιτρέπει τη χρήση μέχρι τεσσάρων σελίδων σε μια εγγραφή αλλά μόνο δύο από αυτές είναι ενεργές. Όπως σε κάθε άλλη περίπτωση (π.χ. HTML), στο πεδίο 100 κάθε εγγραφής ορίζονται οι κωδικοί και η σειρά των σελίδων χαρακτήρων που χρησιμοποιούνται. Παράδειγμα: Οι τιμές «010305 » στο πεδίο 100 δηλώνουν ότι θα χρησιμοποιηθούν οι σελίδες με κωδικούς 01, 03 και 05 δηλ. βασικά λατινικά, εκτεταμένα λατινικά και ελληνικά αντίστοιχα (τα κενά στο τέλος δηλώνουν ότι δεν υπάρχει τέταρτη σελίδα χαρακτήρων) Οι σελίδες μετακινούνται σε ενεργές θέσεις με τη χρήση κατάλληλων οδηγιών που υλοποιούνται από control χαρακτήρες. Με αυτόν τον τρόπο το UNIMARC εξασφαλίζει τη συνύπαρξη και διαχείριση διαφορετικών συνόλων χαρακτήρων, ανεξάρτητα αν ο υπολογιστής μπορεί να τους προβάλει.

22 22 Γιατί δεν εμφανίζονται οι χαρακτήρες Το πρόγραμμα δεν έχει πληροφορηθεί για τον τρόπο κωδικοποίησης των χαρακτήρων ή Από κατασκευής δεν υποστηρίζει τη χρησιμοποιούμενη κωδικοποίηση ή Δεν διαθέτει γραμματοσειρές για την απεικόνισή των χαρακτήρων. Αποτέλεσμα αυτών είναι να εμφανίζονται είτε συγκεκριμένα σημάδια αντί των χαρακτήρων που δεν απεικονίζονται (π.χ. «?»), είτε χαρακτήρες που αντιστοιχούν στις ίδιες θέσεις της χρησιμοποιούμενης κωδικοσελίδας, είτε τίποτε.

23 23 Text Encoding Initiative

24 24 Ορισμοί Κωδικοποίηση κειμένου (text markup, encoding) = Διαδικασία διάκρισης δομικών ή σημασιολογικών (semantic) χαρακτηριστικών κειμένου με βάση κάποιους κανόνες. Text encoding initiative: SGML-DTD Στόχος του είναι να δημιουργήσει ένα περιβάλλον για την κωδικοποίηση κειμένων ακαδημαϊκού ενδιαφέροντος, έτσι ώστε να μπορούν να μεταγράφονται και να διατηρούνται ανεξάρτητα από την εκάστοτε τεχνολογία.

25 25 Ανασκόπηση Δε σχετίζεται με τη μορφοποίηση και τον τρόπο εμφάνισης του κειμένου. Παράδειγμα: There are very few risqué passages in Paradise Lost Html: There are very few risqué passages in Paradise Lost TEI: There are very few risqué passages in Paradise Lost Καλύπτει: Δομή (παράγραφοι, σελίδες, διάλογοι, υποσημειώσεις, σύνδεσμοι) Γλωσσική επεξεργασία (διάλεκτοι, ονόματα, προτάσεις, λέξεις, εκφράσεις, στοιχεία μετάφρασης) Μεταδεδομένα (βιβλιογραφικά στοιχεία, εκδοτικό ιστορικό κ.λπ.)

26 26 Βασική δομή [ TEI Header information ] [ front matter... ] [ body of text... ] [ back matter... ]

27 27 Συλλογή από κείμενα TEI corpus [header information for the corpus] [header information for first text] [first text in corpus] [header information for second text] [second text in corpus]

28 28 Βασικά στοιχεία Δεν αποτελεί μέρος του υπο κωδικοποίηση κειμένου, αλλά παρέχει πληροφορίες (μεταδεδομένα) για αυτό. Στοιχεία του teiHeader element: fileDesc, profileDesc, revisionDesc, langUsage language Στοιχεία του fileDesc: titleStmt, publicationStmt, sourceDesc Περιέχει προκαταρκτικό περιεχόμενο (επικεφαλίδες, σελίδες τίτλων, πρόλογοι κ.λπ.) που βρίσκονται πριν την αρχή του κανονικού κειμένου Περιέχει παραρτήματα κ.λπ. που ακολουθούν το κυρίως κείμενο Περιέχει το σώμα ενός μοναδικού κειμένου εκτός του front και back περιεχομένου

29 29 Στοιχεία του 1. Βασικά δομικά στοιχεία: div head 2. Στοιχεία παραγράφων p cit q l lg sp 3. Λίστες, πίνακες και σχήματα: list item table row cell figure figDesc 4. Στοιχεία φράσεων: date emph foreign hi name num soCalled term title 5. Στοιχεία χωρισμού σελίδων και γραμμών: milestone pb lb 6. Στοιχεία για σύνδεση στοιχείων: ref rs ptr xref xptr 7. Βιβλιογραφικά στοιχεία: bibl author editor publisher respStmt resp pubPlace

30 30 Κανόνες δόμησης 1. Το body ενός κειμένου χωρίζεται από elements 2. Τα elements χωρίζονται σε (παράγραφος), (εδάφιο με εισαγωγικά), (γραμμή), (ομάδα γραμμών), (λόγος) και (ομιλητής) 3. Τα και παρόμοια στοιχεία περιλαμβάνουν κείμενο (#PCDATA), το οποίο κωδικοποιείται από στοιχεία φράσεων

31 31 Στοιχεία δομής div: υποδιαίρεση μέχρι 7 επίπεδα, εφαρμόζεται και στα front, back. Γνωρίσματα: type: ‘Book’, ‘Chapter’, ‘Part’, κ.λπ. id: μοναδικός κωδικός υποδιαίρεσης n: όνομα ή αριθμός υποδιαίρεσης head: ο τίτλος της υποδιαίρεσης, p: σημείο παραγράφου Mellstock-Lane I fully appreciate Gen. Pope's splendid…

32 32 Γνωρίσματα Στο TEI-DTD υπάρχουν τα ακόλουθα γνωρίσματα που εφαρμόζονται γενικά στα στοιχεία:

33 33 Παράδειγμα ACT I SCENE I Enter Barnardo and Francisco, two Sentinels, at several doors Barn Who's there? Fran But why drives on that ship so fast Withouten wave or wind? Barn Long live the King! Fran Barnardo? Barn He. I went to the store to buy bread, milk, and bananas

34 34 Στοιχεία Φράσεων (1/2) έμφαση φράσης για γλωσσικό ή ρητορικό σκοπό φράση ή λέξη που ανήκει σε άλλη γλώσσα από το τριγύρω κείμενο τεχνικός όρος τίτλος με γνωρίσματα: level m βιβλία, συλλογές, έργα ενός τόμου ή πολύτομα, s σειρές, j περιοδικό, u μη δημοσιευμένο υλικό, a αναλυτικός τίτλος που ανήκει σε κάποιο άλλο τεκμήριο (άρθρο, ποίημα κ.λπ. type abbreviated, main, subordinate (υπότιτλοι και τίτλοι μερών), parallel (παράλληλοι).

35 35 Στοιχεία Φράσεων (2/2),,, Walter de la Mare was born at Charlton, in Kent, in 21 Feb 1980 specially when it's nine below zero and three o'clock in the afternoon xxxiii twenty-one ten percent 10% 5th

36 36 Γραμμές και σελίδες Γραμμές Fie, that you'll say so! He plays o' th' viol-de-gamboys, and speaks three or four languages word for word without book, and hath all the good gifts of nature. Σελίδες I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me.

37 37 Αναφορές


Κατέβασμα ppt "Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google