Πρότυπα Κωδικοποίησης II

Πρότυπα Κωδικοποίησης II
Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο

Κωδικοποίηση Χαρακτήρων

Το πρόβλημα (1/2) Ένας από τους κύριους λόγους ανάπτυξης προτύπων είναι η επιθυμία για κοινό τρόπο αντιμετώπισης προβλημάτων. Η ύπαρξη των προτύπων έχει βελτιώσει βασικούς τομείς συνεργασίας των βιβλιοθηκών και των αρχείων όπως η περιγραφή τεκμηρίων και εγγράφων, η ανταλλαγή εγγραφών και εγγραφών καθιερωμένων τύπων, διαδανεισμού κ.λπ. Ωστόσο η ύπαρξη πολλών προτύπων δημιουργεί νέο πρόβλημα διαλειτουργικότητας των συστημάτων.

Το πρόβλημα (2/2) Η απαίτηση για υποστήριξη χαρακτήρων διαφορετικών αλφαβήτων σε μια βιβλιογραφική εγγραφή ή ένα τεκμήριο. Οι διαφορετικές κωδικοποιήσεις των ίδιων αλφαβήτων. Αποτελούν σοβαρά προβλήματα περιγραφής και ανταλλαγής τεκμηρίων και εγγραφών.

Ορισμοί Κωδικός χαρακτήρα: μια ένα προς ένα αντιστοίχηση ενός συνόλου χαρακτήρων στο σύνολο των θετικών ακεραίων αριθμών. Δηλ. είναι η ανάθεση μιας θέσης κωδικού σε ένα χαρακτήρα. Κωδικοποίηση χαρακτήρων: Μια μέθοδος αναπαράστασης χαρακτήρων στον υπολογιστή που αντιστοιχεί κωδικούς χαρακτήρων σε σειρές από bytes (οκτάδες από bits. Παράδειγμα: Σε ένα byte μπορούν να αντιστοιχηθούν 256 χαρακτήρες με κωδικούς

ASCII American Standard Code for Information Interchange
! " # $ % & ' ( ) * + , - . / : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ Οι χαρακτήρες του κώδικα ASCII κώδικoποιούνται από 7-bit. Σύνολο χαρακτήρων 27=128 Εύρος κωδικών 0-127 Οι κωδικοί 0-31 και 127 αντιστοιχούν σε control χαρακτήρες

Εθνικές παραλλαγές του ASCII
Η αρχική έκδοση του ASCII ονομάστηκε ANSI X πρότυπο. ISO 646: παρόμοια κωδικοποίηση με ASCII εκτός των που αντιστοιχούν σε κωδικούς εθνικής χρήσης. Υπάρχει ελευθερία στην αντιστοίχηση των χαρακτήρων #$^`~. Παράδειγμα: κωδικός χαρακτήρας παραλλαγή 35 # £ Ù 64 @ É § Ä à ³ 91 [ Ä Æ ° â ¡ ÿ é

Η οικογένεια προτύπων ISO 8859
8-bit αναπαράσταση κωδικών χαρακτήρων πλήθος χαρακτήρων 256 κωδικοί 0-255 Από δίνονται οι κωδικοί σύμφωνα με τον ASCII και υπάρχει δυνατότητα αναπαράστασης άλλων αλφάβητων Παράδειγμα: ISO (Latin 1) κωδικοί , control χαρακτήρες, κωδικοί : ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Τα μέρη του ISO 8859 (1/2) ISO Latin alphabet No. 1 "Western", "West European» ISO Latin alphabet No. 2 "Central European", "East European" ISO Latin alphabet No. 3 “South European"; "Maltese & Esperanto" ISO Latin alphabet No. 4"North European" ISO Latin/Cyrillic alphabet (for Slavic languages) ISO Latin/Arabic alphabet (for the Arabic language) ISO Latin/Greek alphabet (for modern Greek ΕΛΟΤ-928) ISO Latin/Hebrew alphabet (for Hebrew and Yiddish) ISO Latin alphabet No. 5 "Turkish"

Τα μέρη του ISO 8859 (2/2) ISO Latin alphabet No. 6 "Nordic" (Sámi, Inuit, Icelandic) ISO Latin/Thai alphabet (for the Thai language) (Part 12 has not been defined.) ISO Latin alphabet No. 7 Baltic Rim ISO Latin alphabet No. 8 Celtic ISO Latin alphabet No. 9 "euro" ISO Latin alphabet No. 10 Albanian, Croatian, English, Finnish, French, German, Hungarian, Irish Gaelic (new orthography), Italian, Latin, Polish, Romanian, and Slovenian.

Κωδικοσελίδες DOS, Windows
Το λειτουργικό σύστημα MS DOS χρησιμοποίησε διαφορετικούς κωδικούς χαρακτήρων με 8-bit κωδικοποίηση που ονομάζονται code pages. Στο code page 437 περιλαμβάνονται μαθηματικά σύμβολα και ελληνικοί χαρακτήρες. Στο code page 850 περιλαμβάνονται σχεδόν όλοι οι χαρακτήρες του Latin 1 αλφαβήτου αλλά σε διαφορετικές θέσεις κωδικών από το ISO Τα Windows χρησιμοποιούν άλλους κωδικούς (π.χ. cp-1252 για Latin 1, cp-1253 για ελληνικά).

ISO 10646 Το ISO καθορίζει το Universal Character Set, που είναι ένα μεγάλο σύνολο χαρακτήρων (καλύπτει πολλά αλφάβητα) με ενιαία κωδικοποίηση. Προέκυψε από: την πληθώρα των 8-bit κωδικοσελίδων η οποία παρουσίαζε ασυμφωνίες στους κωδικούς ίδιων χαρακτήρων την ανάγκη κωδικοποίησης πολλών χαρακτήρων σε μια κωδικοσελίδα Προτείνει 32-bit κωδικοποίηση (UCS-4) αλλά χρησιμοποιείται η 16-bit κωδικοποίηση (UCS-2), ορίζοντας το Basic Multilingual Plane (BMP). Τα πρώτα δύο bytes θεωρούνται 0 0. Το Unicode προτείνει 16-bit κωδικοποίηση και αποδίδει ένα μοναδικό αριθμό για κάθε χαρακτήρα, καλύπτοντας περισσότερους από χαρακτήρες.

Unicode χαρακτήρες αλφαβήτων και γραφών από την Ευρώπη, τη Μέση Ανατολή (συμπεριλαμβανομένων γραφών από δεξιά προς τα αριστερά) και την Ασία (π.χ. το Han subset περιέχει ιδεογράμματα από την Κίνα, την Ιαπωνία, την Κορέα, το Βιετνάμ, την Ταϊβάν και τη Σιγκαπούρη). Σημεία στίξης, μαθηματικά και τεχνικά σύμβολα, γεωμετρικά σχήματα. Στη Version 3.0 προστέθηκαν και άλλα αλφάβητα όπως Ethiopic, Canadian Aboriginal Syllabics, Cherokee, Sinhala, Syriac, Myanmar, Khmer, Mongolian, Braille και άλλα ιδεογράμματα. Κρατά ιδιωτικής χρήσης κωδικούς ενώ υπάρχουν ακόμα αχρησιμοποίητοι κωδικοί για μελλοντική επέκταση. 2.048 (16-bit) κωδικοί για τους οποίους επιτρέπει το συνδυασμό τους σε ζεύγη (pair codes) αποδίδοντας επιπλέον χαρακτήρες (για ειδικά σύμβολα με τόνους και αρχαίες γραφές). Συμβολισμός χαρακτήρων: U+nnnn, nnnn δεκαεξαδικός αριθμός (π.χ. U+0020=space).

Unicode Transformation Format
UTF-16 Κάθε χαρακτήρας κωδικοποιείται από 2 bytes (16-bits) Αντιοικονομική κωδικοποίηση ειδικά για χαρακτήρες που ανήκουν στον ASCII. UTF-7 (Δε συνιστάται η χρήση του) Κάθε χαρακτήρας κωδικοποιείται από ένα ή περισσότερα bytes. Οι χαρακτήρες ανάλογα με τον κωδικό τους οργανώνονται σε σύνολα πλήθπυς 127 Οι πρώτοι 127 χαρακτήρες συμφωνούν με τον ASCII και κωδικοποιούνται από ένα byte Για τους υπόλοιπους προηγούνται και έπονται bytes διαφυγής που παραπέμπουν σε άλλα σύνολα από 127 χαρακτήρες.

UTF-8 Κωδικοποίηση μεταβλητού μήκους (για λόγους οικονομίας στη μνήμη). Οι χαρακτήρες του ASCII (1-127) έχουν το πρώτο bit 0 και κωδικοποιούνται ως ένα byte. Οι υπόλοιποι από από 2-6 bytes με κωδικούς Το πλήθος των άσσων του πρώτου byte από τους μη ASCII χαρακτήρες δηλώνει το πλήθος των bytes που κωδικοποιούν τον χαρακτήρα. Μετά τους άσσους ακολουθεί 0 και κατόπιν τα πρώτα bits που κωδικοποιούν τον κωδικό του χαρακτήρα σε δυαδική μορφή. Κάθε byte που ακολουθεί έχει αρχικά bits τα 10. Ουσιαστικά καλύπτονται σχεδόν όλα τα αλφάβητα και οι συνδυασμοί τους

Παραδείγματα Copyright sign (©) U+00A9: Not equal to () U+2260:
U U F: 0xxxxxxx U U FF: 110xxxxx 10xxxxxx U U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U U-03FFFFFF: xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U U-7FFFFFFF: x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Copyright sign (©) U+00A9: Not equal to () U+2260:

Γραμματοσειρές (fonts)
Η γραμματοσειρά είναι μια σχηματική αναπαράσταση ενός συνόλου χαρακτήρων. Οι γραμματοσειρές δεν συγχέονται με τους χαρακτήρες, αλλά θεωρούνται διαφορετικές σχηματικές απεικονίσεις του ίδιου κωδικού. Παραδείγματα: τα Z, Z, Ζ, Z είναι απεικονίσεις του ίδιου χαρακτήρα το λατινικό και το ελληνικό «Α», έχουν την ίδια μορφή αλλά διαφορετικούς κωδικούς Στο Unicode, χαρακτήρες με την ίδια μορφή, αλλά με διαφορετικό νόημα, έχουν διαφορετικούς κωδικούς (π.χ. το γράμμα «Ν» και το σύνολο των φυσικών αριθμών Ν θεωρούνται άλλοι χαρακτήρες).

Control χαρακτήρες Μη ορατοί χαρακτήρες που χρησιμοποιούνται για έλεγχο συσκευών (devices) και διεργασιών (processes). ASCII (3) σταματά την τρέχουσα διεργασία ASCII (13) carriage return, ASCII (9) tab Οδηγίες που αλλάζουν την κωδικοποίηση των χαρακτήρων (κωδικοσελίδα). Π.χ. ένας control χαρακτήρας δίνει τον έλεγχο στην ελληνική κωδικοσελίδα. Οι χρησιμοποιούμενες κωδικοσελίδες αναφέρονται σε κάθε εφαρμογή που διαχειρίζονται χαρακτήρες HTML: <meta content="text/html; charset=utf-8"/meta> Το ISO 2022 ορίζει τη χρήση διαφορετικών 8-bit χαρακτήρων σε ένα κείμενο.

Χαρακτήρες και UNIMARC (1/2)
To UNIMARC προβλέπει διαπραγμάτευση προτύπου χαρακτήρων, αλλά ως επί το πλείστον χρησιμοποιεί την 8-bit κωδικοποίηση. Οι 256 χαρακτήρες χωρίζονται σε δύο πίνακες των 128 θέσεων που ονομάζονται χαμηλή (κωδικοί 0-127) και υψηλή σελίδα ( ). Οι δύο πρώτες στήλες (32 χαρακτήρες) της κάθε σελίδας περιέχουν χαρακτήρες ελέγχου και έχουν κωδικούς G0 και G1 (graphic characters 0 and 1). Το πρότυπο ορίζει μια σειρά από σελίδες των 128 χαρακτήρων με μοναδικό κωδικό (01: ISO 646 βασικά λατινικά, 03: ANSEL εκτεταμένα λατινικά, 05: ISO ελληνικά, 04: κυριλλικά) Για τα Ελληνικά το πρότυπο ISO βασίζεται στο πρότυπο ISO 2022, το οποίο χρησιμοποιεί δύο bytes για τους τονούμενους χαρακτήρες.

Χαρακτήρες και UNIMARC (2/2)
Το πρότυπο επιτρέπει τη χρήση μέχρι τεσσάρων σελίδων σε μια εγγραφή αλλά μόνο δύο από αυτές είναι ενεργές. Όπως σε κάθε άλλη περίπτωση (π.χ. HTML), στο πεδίο 100 κάθε εγγραφής ορίζονται οι κωδικοί και η σειρά των σελίδων χαρακτήρων που χρησιμοποιούνται. Παράδειγμα: Οι τιμές « » στο πεδίο 100 δηλώνουν ότι θα χρησιμοποιηθούν οι σελίδες με κωδικούς 01, 03 και 05 δηλ. βασικά λατινικά, εκτεταμένα λατινικά και ελληνικά αντίστοιχα (τα κενά στο τέλος δηλώνουν ότι δεν υπάρχει τέταρτη σελίδα χαρακτήρων) Οι σελίδες μετακινούνται σε ενεργές θέσεις με τη χρήση κατάλληλων οδηγιών που υλοποιούνται από control χαρακτήρες. Με αυτόν τον τρόπο το UNIMARC εξασφαλίζει τη συνύπαρξη και διαχείριση διαφορετικών συνόλων χαρακτήρων, ανεξάρτητα αν ο υπολογιστής μπορεί να τους προβάλει.

Γιατί δεν εμφανίζονται οι χαρακτήρες
Το πρόγραμμα δεν έχει πληροφορηθεί για τον τρόπο κωδικοποίησης των χαρακτήρων ή Από κατασκευής δεν υποστηρίζει τη χρησιμοποιούμενη κωδικοποίηση ή Δεν διαθέτει γραμματοσειρές για την απεικόνισή των χαρακτήρων. Αποτέλεσμα αυτών είναι να εμφανίζονται είτε συγκεκριμένα σημάδια αντί των χαρακτήρων που δεν απεικονίζονται (π.χ. «?»), είτε χαρακτήρες που αντιστοιχούν στις ίδιες θέσεις της χρησιμοποιούμενης κωδικοσελίδας, είτε τίποτε.

Text Encoding Initiative

Ορισμοί Κωδικοποίηση κειμένου (text markup, encoding) = Διαδικασία διάκρισης δομικών ή σημασιολογικών (semantic) χαρακτηριστικών κειμένου με βάση κάποιους κανόνες. Text encoding initiative: SGML-DTD Στόχος του είναι να δημιουργήσει ένα περιβάλλον για την κωδικοποίηση κειμένων ακαδημαϊκού ενδιαφέροντος, έτσι ώστε να μπορούν να μεταγράφονται και να διατηρούνται ανεξάρτητα από την εκάστοτε τεχνολογία.

Ανασκόπηση Δε σχετίζεται με τη μορφοποίηση και τον τρόπο εμφάνισης του κειμένου. Παράδειγμα: There are very few risqué passages in Paradise Lost Html: There are very few risqué passages in Paradise Lost TEI: There are very few <foreign>risqué</foreign> passages in <title>Paradise Lost</title> Καλύπτει: Δομή (παράγραφοι, σελίδες, διάλογοι, υποσημειώσεις, σύνδεσμοι) Γλωσσική επεξεργασία (διάλεκτοι, ονόματα, προτάσεις, λέξεις, εκφράσεις, στοιχεία μετάφρασης) Μεταδεδομένα (βιβλιογραφικά στοιχεία, εκδοτικό ιστορικό κ.λπ.)

Βασική δομή <?xml version="1.0"?>
<!DOCTYPE TEI.2 SYSTEM " english/mmueller/TeiXBaby/TeiXBaby.dtd"> <!ELEMENT TEI.2 (teiHeader, text)> <!ELEMENT text (front?, body, back?)> <TEI.2> <teiHeader> [ TEI Header information ] </teiHeader> <text> <front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back> </text> </TEI.2>

Συλλογή από κείμενα TEI corpus <teiCorpus>
<teiHeader> [header information for the corpus]</teiHeader> <TEI.2> <teiHeader>[header information for first text]</teiHeader> <text> [first text in corpus] </text> </TEI.2> <teiHeader>[header information for second text]</teiHeader> <text> [second text in corpus] </text> </teiCorpus>

Βασικά στοιχεία <teiHeader> <front> <back>
Δεν αποτελεί μέρος του υπο κωδικοποίηση κειμένου, αλλά παρέχει πληροφορίες (μεταδεδομένα) για αυτό. Στοιχεία του teiHeader element: fileDesc, profileDesc, revisionDesc, langUsage language Στοιχεία του fileDesc: titleStmt, publicationStmt, sourceDesc <front> Περιέχει προκαταρκτικό περιεχόμενο (επικεφαλίδες, σελίδες τίτλων, πρόλογοι κ.λπ.) που βρίσκονται πριν την αρχή του κανονικού κειμένου <back> Περιέχει παραρτήματα κ.λπ. που ακολουθούν το κυρίως κείμενο <body> Περιέχει το σώμα ενός μοναδικού κειμένου εκτός του front και back περιεχομένου

Στοιχεία του <body>
Βασικά δομικά στοιχεία: div head Στοιχεία παραγράφων p cit q l lg sp Λίστες, πίνακες και σχήματα: list item table row cell figure figDesc Στοιχεία φράσεων: date emph foreign hi name num soCalled term title Στοιχεία χωρισμού σελίδων και γραμμών: milestone pb lb Στοιχεία για σύνδεση στοιχείων: ref rs ptr xref xptr Βιβλιογραφικά στοιχεία: bibl author editor publisher respStmt resp pubPlace

Κανόνες δόμησης Το body ενός κειμένου χωρίζεται από <div> elements Τα <div> elements χωρίζονται σε (παράγραφος), <q> (εδάφιο με εισαγωγικά), <l> (γραμμή), <lg> (ομάδα γραμμών), <sp> (λόγος) και <speaker> (ομιλητής) Τα και παρόμοια στοιχεία περιλαμβάνουν κείμενο (#PCDATA), το οποίο κωδικοποιείται από στοιχεία φράσεων

Στοιχεία δομής div: υποδιαίρεση μέχρι 7 επίπεδα, εφαρμόζεται και στα front, back. Γνωρίσματα: type: ‘Book’, ‘Chapter’, ‘Part’, κ.λπ. id: μοναδικός κωδικός υποδιαίρεσης n: όνομα ή αριθμός υποδιαίρεσης head: ο τίτλος της υποδιαίρεσης, <!ELEMENT head #PCDATA> p: σημείο παραγράφου <!ELEMENT p #PCDATA> <div1 id="UGT1" n="Winter" type="Part"> <div2 id="UGT11" n="1" type="Chapter"> <head>Mellstock-Lane</head> I fully appreciate Gen. Pope's splendid…

Γνωρίσματα Στο TEI-DTD υπάρχουν τα ακόλουθα γνωρίσματα που εφαρμόζονται γενικά στα στοιχεία: <!ATTLIST element id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED (γλώσσα) rend CDATA #IMPLIED (τυπογραφική αναπαράσταση π.χ. <q lang=“FR” rend=“italics” >

Παράδειγμα <div1 type ="Act" n="I">
<head>ACT I</head> <div2 type ="Scene" n="1"> <head>SCENE I</head> <stage rend="italic"> Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn</speaker> <l part="Y">Who's there?</l></sp> <sp><speaker>Fran</speaker> <lg type="stanza" part="I"> <l>But why drives on that ship so fast</l> <l>Withouten wave or wind?</l> </lg> </sp> <sp><speaker>Barn</speaker><l part="i">Long live the King!</l></sp> <sp><speaker>Fran</speaker><l part="m">Barnardo?</l></sp> <sp><speaker>Barn</speaker><l part="f">He.</l></sp> I went to the store to buy<list><item>bread,</item> <item>milk,</item> <item>and bananas</item>

Στοιχεία Φράσεων (1/2) <emph> έμφαση φράσης για γλωσσικό ή ρητορικό σκοπό <foreign> φράση ή λέξη που ανήκει σε άλλη γλώσσα από το τριγύρω κείμενο <term> τεχνικός όρος <title> τίτλος με γνωρίσματα: level m βιβλία, συλλογές, έργα ενός τόμου ή πολύτομα, s σειρές, j περιοδικό, u μη δημοσιευμένο υλικό, a αναλυτικός τίτλος που ανήκει σε κάποιο άλλο τεκμήριο (άρθρο, ποίημα κ.λπ. type abbreviated, main, subordinate (υπότιτλοι και τίτλοι μερών), parallel (παράλληλοι).

Στοιχεία Φράσεων (2/2) <name>, <date>, <time>, <num> <name type="person"> Walter de la Mare</name> was born at <name type="place">Charlton</name>, in <name type="county">Kent</name>, in <date value=" ">21 Feb 1980</date> <l>specially when it's nine below zero</l> <l>and <time value="15:00">three o'clock in the afternoon</time></l> <num value="33">xxxiii</num> <num type="cardinal" value="21">twenty-one</num> <num type="percentage" value="10">ten percent</num> <num type="percentage" value="10">10%</num> <num type="ordinal" value="5">5th</num>

Γραμμές και σελίδες Γραμμές Σελίδες
<lb n="25"/> Fie, that you'll say so! He plays o' th' <lb n="26"/> viol-de-gamboys, and speaks three or four languages <lb n="27"/> word for word without book, and hath all the good <lb n="28"/> gifts of nature. Σελίδες I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb ed="ED1" n="475"/> Mary approved the step unreservedly. Diana announced that she would <pb ed="ED2" n="485"/>just give me time to get over the honeymoon, and then she would come and see me.

Αναφορές

Πρότυπα Κωδικοποίησης II

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Πρότυπα Κωδικοποίησης II"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Πρότυπα Κωδικοποίησης II

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Πρότυπα Κωδικοποίησης II"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια