Πρότυπα Κωδικοποίησης II

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γραφήματα & Επίπεδα Γραφήματα
Advertisements

Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Απαντήσεις Προόδου II.
Η γλώσσα μορφοποίησης υπερκειμένου HTML
ΠΜΣ ΔΥΝΗΤΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ
Δ.Π.Θ. Επεξεργασία Κειμένου - 1 Επεξεργασία Κειμένου Ένα πρόγραμμα σε γλώσσα HTML είναι ανεξάρτητο της μηχανής όπου θα εκτελεστεί. Δηλαδή αγνοούνται τα.
HTML.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Μεταπτυχιακό πρόγραμμα σπουδών Στην Επιστήμη της Πληροφορίας Μεταδεδομένα στο ψηφιακό περιβάλλον:
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Επιμέλεια: Δέγγλερη Σοφία
ΟΙ ΠΛΗΡΟΦΟΡΙΕΣ ΣΤΟ ΕΣΩΤΕΡΙΚΟ ΤΟΥ Η/Υ
Βάσεις Δεδομένων Μάθημα 3.
Ανοικτά Ακαδημαϊκά Μαθήματα
Προγραμματισμός Ι Πίνακες •Ο πίνακας είναι μία συλλογή μεταβλητών ίδιου τύπου, οι οποίες είναι αποθηκευμένες σε διαδοχικές θέσεις μνήμης. Χρησιμοποιείται.
Σύστημα ηλεκτρονικής δημοσίευσης DiVA Μάθημα: «Ηλεκτρονική Δημοσίευση» Χαρίκλεια Μπρίντεζη.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
ΘΕΩΡΙΑ ΔΙΑΛΕΞΗ 4 Αριθμητικές εκφράσεις και πράξεις Εντολές ανάθεσης
Εκτέλεση Αλγορίθμων σε ψευδογλώσσα
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Κείμενο – ASCII – Unicode - HTML Κωδικοποίηση ASCII / Unicode HTML
Δρ. Παναγιώτης Συμεωνίδης
Resource Description Framework
1 iPac Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ. 26/6/2002 Ενημέρωση πάνω στις νέες ψηφιακές υπηρεσίες 2 Περιεχόμενα 1 iPac  Τί είναι το iPac  Δυνατότητες.
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Και Αρχικό: Γεωργακή Ιφιγένεια – Τροποποίηση: Τσούτσουρας Σπύρος Μέρος Β΄
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ:ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες. Παρουσίαση και εφαρμογή.
Πρότυπα κωδικοποίησης βιβλιογραφικών δεδομένων
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Β΄ ΓΕΛ ΕισΑρχΕπ Η/Υ παρ – 2.2.5
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
Δημιουργία Παρουσίασης
Το δυαδικό ψηφίο Τα δυαδικά ψηφία 0 και 1αντιστοιχούν στις δύο καταστάσεις που «αντιλαμβάνεται» ο υπολογιστής . Το δυαδικό ψηφίο , που ονομάζεται μπιτ.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
ΤΗΣ ΦΟΙΤΗΤΡΙΑΣ : ΤΣΑΛΤΑ ΑΝΑΣΤΑΣΙΑ Α.Μ. : 30920
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
Ενότητα Α.4. Δομημένος Προγραμματισμός
1 ΧΡΗΣΗ Η/Υ, ΑΛΕΞΗΣ ΜΠΡΑΪΛΑΣ, 1998 Εφαρμογές Υπολογιστών.
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Σχεσιακό Μοντέλο.
ΗΜΥ 100: Εισαγωγή στην Τεχνολογία Διάλεξη 17 Εισαγωγή στα Ψηφιακά Συστήματα: Μέρος Γ TΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Τάξεις και Αφαίρεση Δεδομένων.
Text Encoding Initiative επισκόπηση, προβλήματα και εφαρμογές Λίνα Μπουντούρη 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004.
Κείμενο, Ήχος, Εικόνα & Video KEIMENO Κείμενο n Κυρίαρχος τρόπος απεικόνισης πληροφορίας n Αποκλειστικό μέσο επικοινωνίας ανθρώπου - μηχανής n Aδυναμία.
1 Οι πληροφορίες στο εσωτερικό του υπολογιστή Τι καταλαβαίνει ένας υπολογιστής;
1Κεφάλαιο 4 Κανόνες Σύνταξης HTML Όλες οι ετικέτες εσωκλείονται μεταξύ των χαρακτήρων “ “. Κάθε τι που βρίσκεται μεταξύ των χαρακτήρων “ ”, αποτελεί σχόλιο.
Εφαρμογές Πολυμέσων: Εισαγωγή στην HTML (1)
ΜΕΤΑΒΛΗΤΕΣ-ΣΤΑΘΕΡΕΣ -ΕΚΦΡΑΣΕΙΣ
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
Κεφαλαιο 11 ΕΙΣΑΓΩΓΗ ΣΤΗΝ HTML.
Εισαγωγή στην Πληροφορική μεγάλου όγκου δεδομένων
ΕπιΣτημονικα Συμβολα braille
Το δυαδικό ψηφίο
ΑΝΑΠΑΡΑΣΤΑΣΗ ΧΑΡΑΚΤΗΡΩΝ
ΕΝΟΤΗΤΑ 1 – Γνωρίζω τον υπολογιστή ως ενιαίο σύστημα
Διαχειρίζεται, Επεξεργάζεται και Ανταλλάσσει
ΗΜΥ 210: Λογικός Σχεδιασμός
Μεταγράφημα παρουσίασης:

Πρότυπα Κωδικοποίησης II Μ. Γεργατσούλης- Χ. Παπαθεοδώρου Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο

Κωδικοποίηση Χαρακτήρων

Το πρόβλημα (1/2) Ένας από τους κύριους λόγους ανάπτυξης προτύπων είναι η επιθυμία για κοινό τρόπο αντιμετώπισης προβλημάτων. Η ύπαρξη των προτύπων έχει βελτιώσει βασικούς τομείς συνεργασίας των βιβλιοθηκών και των αρχείων όπως η περιγραφή τεκμηρίων και εγγράφων, η ανταλλαγή εγγραφών και εγγραφών καθιερωμένων τύπων, διαδανεισμού κ.λπ. Ωστόσο η ύπαρξη πολλών προτύπων δημιουργεί νέο πρόβλημα διαλειτουργικότητας των συστημάτων.

Το πρόβλημα (2/2) Η απαίτηση για υποστήριξη χαρακτήρων διαφορετικών αλφαβήτων σε μια βιβλιογραφική εγγραφή ή ένα τεκμήριο. Οι διαφορετικές κωδικοποιήσεις των ίδιων αλφαβήτων. Αποτελούν σοβαρά προβλήματα περιγραφής και ανταλλαγής τεκμηρίων και εγγραφών.

Ορισμοί Κωδικός χαρακτήρα: μια ένα προς ένα αντιστοίχηση ενός συνόλου χαρακτήρων στο σύνολο των θετικών ακεραίων αριθμών. Δηλ. είναι η ανάθεση μιας θέσης κωδικού σε ένα χαρακτήρα. Κωδικοποίηση χαρακτήρων: Μια μέθοδος αναπαράστασης χαρακτήρων στον υπολογιστή που αντιστοιχεί κωδικούς χαρακτήρων σε σειρές από bytes (οκτάδες από bits. Παράδειγμα: Σε ένα byte μπορούν να αντιστοιχηθούν 256 χαρακτήρες με κωδικούς 0-255.

ASCII American Standard Code for Information Interchange ! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ Οι χαρακτήρες του κώδικα ASCII κώδικoποιούνται από 7-bit. Σύνολο χαρακτήρων 27=128 Εύρος κωδικών 0-127 Οι κωδικοί 0-31 και 127 αντιστοιχούν σε control χαρακτήρες

Εθνικές παραλλαγές του ASCII Η αρχική έκδοση του ASCII ονομάστηκε ANSI X3.4-1986 πρότυπο. ISO 646: παρόμοια κωδικοποίηση με ASCII εκτός των χαρακτήρων @[\]{|} που αντιστοιχούν σε κωδικούς εθνικής χρήσης. Υπάρχει ελευθερία στην αντιστοίχηση των χαρακτήρων #$^`~. Παράδειγμα: κωδικός χαρακτήρας παραλλαγή 35 # £ Ù 64 @ É § Ä à ³ 91 [ Ä Æ ° â ¡ ÿ é

Η οικογένεια προτύπων ISO 8859 8-bit αναπαράσταση κωδικών χαρακτήρων πλήθος χαρακτήρων 256 κωδικοί 0-255 Από 0-127 δίνονται οι κωδικοί σύμφωνα με τον ASCII και υπάρχει δυνατότητα αναπαράστασης άλλων αλφάβητων Παράδειγμα: ISO 8859-1 (Latin 1) κωδικοί 128-159, control χαρακτήρες, κωδικοί 160-255: ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Τα μέρη του ISO 8859 (1/2) ISO 8859-1 Latin alphabet No. 1 "Western", "West European» ISO 8859-2 Latin alphabet No. 2 "Central European", "East European" ISO 8859-3 Latin alphabet No. 3 “South European"; "Maltese & Esperanto" ISO 8859-4 Latin alphabet No. 4"North European" ISO 8859-5 Latin/Cyrillic alphabet (for Slavic languages) ISO 8859-6 Latin/Arabic alphabet (for the Arabic language) ISO 8859-7 Latin/Greek alphabet (for modern Greek ΕΛΟΤ-928) ISO 8859-8 Latin/Hebrew alphabet (for Hebrew and Yiddish) ISO 8859-9 Latin alphabet No. 5 "Turkish"

Τα μέρη του ISO 8859 (2/2) ISO 8859-10 Latin alphabet No. 6 "Nordic" (Sámi, Inuit, Icelandic) ISO 8859-11 Latin/Thai alphabet (for the Thai language) (Part 12 has not been defined.) ISO 8859-13 Latin alphabet No. 7 Baltic Rim ISO 8859-14 Latin alphabet No. 8 Celtic ISO 8859-15 Latin alphabet No. 9 "euro" ISO 8859-16 Latin alphabet No. 10 Albanian, Croatian, English, Finnish, French, German, Hungarian, Irish Gaelic (new orthography), Italian, Latin, Polish, Romanian, and Slovenian.

ISO 8859-7

Κωδικοσελίδες DOS, Windows Το λειτουργικό σύστημα MS DOS χρησιμοποίησε διαφορετικούς κωδικούς χαρακτήρων με 8-bit κωδικοποίηση που ονομάζονται code pages. Στο code page 437 περιλαμβάνονται μαθηματικά σύμβολα και ελληνικοί χαρακτήρες. Στο code page 850 περιλαμβάνονται σχεδόν όλοι οι χαρακτήρες του Latin 1 αλφαβήτου αλλά σε διαφορετικές θέσεις κωδικών από το ISO 8859-1. Τα Windows χρησιμοποιούν άλλους κωδικούς (π.χ. cp-1252 για Latin 1, cp-1253 για ελληνικά).

ISO 10646 Το ISO 10646 καθορίζει το Universal Character Set, που είναι ένα μεγάλο σύνολο χαρακτήρων (καλύπτει πολλά αλφάβητα) με ενιαία κωδικοποίηση. Προέκυψε από: την πληθώρα των 8-bit κωδικοσελίδων η οποία παρουσίαζε ασυμφωνίες στους κωδικούς ίδιων χαρακτήρων την ανάγκη κωδικοποίησης πολλών χαρακτήρων σε μια κωδικοσελίδα Προτείνει 32-bit κωδικοποίηση (UCS-4) αλλά χρησιμοποιείται η 16-bit κωδικοποίηση (UCS-2), ορίζοντας το Basic Multilingual Plane (BMP). Τα πρώτα δύο bytes θεωρούνται 0 0. Το Unicode προτείνει 16-bit κωδικοποίηση και αποδίδει ένα μοναδικό αριθμό για κάθε χαρακτήρα, καλύπτοντας περισσότερους από 65.000 χαρακτήρες.

Unicode 49.194 χαρακτήρες αλφαβήτων και γραφών από την Ευρώπη, τη Μέση Ανατολή (συμπεριλαμβανομένων γραφών από δεξιά προς τα αριστερά) και την Ασία (π.χ. το Han subset περιέχει 27.484 ιδεογράμματα από την Κίνα, την Ιαπωνία, την Κορέα, το Βιετνάμ, την Ταϊβάν και τη Σιγκαπούρη). Σημεία στίξης, μαθηματικά και τεχνικά σύμβολα, γεωμετρικά σχήματα. Στη Version 3.0 προστέθηκαν και άλλα αλφάβητα όπως Ethiopic, Canadian Aboriginal Syllabics, Cherokee, Sinhala, Syriac, Myanmar, Khmer, Mongolian, Braille και άλλα ιδεογράμματα. Κρατά 6.400 ιδιωτικής χρήσης κωδικούς ενώ υπάρχουν ακόμα 7.827 αχρησιμοποίητοι κωδικοί για μελλοντική επέκταση. 2.048 (16-bit) κωδικοί για τους οποίους επιτρέπει το συνδυασμό τους σε ζεύγη (pair codes) αποδίδοντας επιπλέον 1.048.544 χαρακτήρες (για ειδικά σύμβολα με τόνους και αρχαίες γραφές). Συμβολισμός χαρακτήρων: U+nnnn, nnnn δεκαεξαδικός αριθμός (π.χ. U+0020=space).

Unicode Transformation Format UTF-16 Κάθε χαρακτήρας κωδικοποιείται από 2 bytes (16-bits) Αντιοικονομική κωδικοποίηση ειδικά για χαρακτήρες που ανήκουν στον ASCII. UTF-7 (Δε συνιστάται η χρήση του) Κάθε χαρακτήρας κωδικοποιείται από ένα ή περισσότερα bytes. Οι χαρακτήρες ανάλογα με τον κωδικό τους οργανώνονται σε σύνολα πλήθπυς 127 Οι πρώτοι 127 χαρακτήρες συμφωνούν με τον ASCII και κωδικοποιούνται από ένα byte Για τους υπόλοιπους προηγούνται και έπονται bytes διαφυγής που παραπέμπουν σε άλλα σύνολα από 127 χαρακτήρες.

UTF-8 Κωδικοποίηση μεταβλητού μήκους (για λόγους οικονομίας στη μνήμη). Οι χαρακτήρες του ASCII (1-127) έχουν το πρώτο bit 0 και κωδικοποιούνται ως ένα byte. Οι υπόλοιποι από από 2-6 bytes με κωδικούς 128-255. Το πλήθος των άσσων του πρώτου byte από τους μη ASCII χαρακτήρες δηλώνει το πλήθος των bytes που κωδικοποιούν τον χαρακτήρα. Μετά τους άσσους ακολουθεί 0 και κατόπιν τα πρώτα bits που κωδικοποιούν τον κωδικό του χαρακτήρα σε δυαδική μορφή. Κάθε byte που ακολουθεί έχει αρχικά bits τα 10. Ουσιαστικά καλύπτονται σχεδόν όλα τα αλφάβητα και οι συνδυασμοί τους

Παραδείγματα Copyright sign (©) U+00A9: Not equal to () U+2260: U-00000000 - U-0000007F: 0xxxxxxx U-00000080 - U-000007FF: 110xxxxx 10xxxxxx U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Copyright sign (©) U+00A9: 11000010 10101001 Not equal to () U+2260: 11100010 10001001 10100000

Γραμματοσειρές (fonts) Η γραμματοσειρά είναι μια σχηματική αναπαράσταση ενός συνόλου χαρακτήρων. Οι γραμματοσειρές δεν συγχέονται με τους χαρακτήρες, αλλά θεωρούνται διαφορετικές σχηματικές απεικονίσεις του ίδιου κωδικού. Παραδείγματα: τα Z, Z, Ζ, Z είναι απεικονίσεις του ίδιου χαρακτήρα το λατινικό και το ελληνικό «Α», έχουν την ίδια μορφή αλλά διαφορετικούς κωδικούς Στο Unicode, χαρακτήρες με την ίδια μορφή, αλλά με διαφορετικό νόημα, έχουν διαφορετικούς κωδικούς (π.χ. το γράμμα «Ν» και το σύνολο των φυσικών αριθμών Ν θεωρούνται άλλοι χαρακτήρες).

Control χαρακτήρες Μη ορατοί χαρακτήρες που χρησιμοποιούνται για έλεγχο συσκευών (devices) και διεργασιών (processes). ASCII (3) σταματά την τρέχουσα διεργασία ASCII (13) carriage return, ASCII (9) tab Οδηγίες που αλλάζουν την κωδικοποίηση των χαρακτήρων (κωδικοσελίδα). Π.χ. ένας control χαρακτήρας δίνει τον έλεγχο στην ελληνική κωδικοσελίδα. Οι χρησιμοποιούμενες κωδικοσελίδες αναφέρονται σε κάθε εφαρμογή που διαχειρίζονται χαρακτήρες HTML: <meta content="text/html; charset=utf-8"/meta> Το ISO 2022 ορίζει τη χρήση διαφορετικών 8-bit χαρακτήρων σε ένα κείμενο.

Χαρακτήρες και UNIMARC (1/2) To UNIMARC προβλέπει διαπραγμάτευση προτύπου χαρακτήρων, αλλά ως επί το πλείστον χρησιμοποιεί την 8-bit κωδικοποίηση. Οι 256 χαρακτήρες χωρίζονται σε δύο πίνακες των 128 θέσεων που ονομάζονται χαμηλή (κωδικοί 0-127) και υψηλή σελίδα (128-255). Οι δύο πρώτες στήλες (32 χαρακτήρες) της κάθε σελίδας περιέχουν χαρακτήρες ελέγχου και έχουν κωδικούς G0 και G1 (graphic characters 0 and 1). Το πρότυπο ορίζει μια σειρά από σελίδες των 128 χαρακτήρων με μοναδικό κωδικό (01: ISO 646 βασικά λατινικά, 03: ANSEL εκτεταμένα λατινικά, 05: ISO 5428-1984 ελληνικά, 04: κυριλλικά) Για τα Ελληνικά το πρότυπο ISO 5428-1984 βασίζεται στο πρότυπο ISO 2022, το οποίο χρησιμοποιεί δύο bytes για τους τονούμενους χαρακτήρες.

Χαρακτήρες και UNIMARC (2/2) Το πρότυπο επιτρέπει τη χρήση μέχρι τεσσάρων σελίδων σε μια εγγραφή αλλά μόνο δύο από αυτές είναι ενεργές. Όπως σε κάθε άλλη περίπτωση (π.χ. HTML), στο πεδίο 100 κάθε εγγραφής ορίζονται οι κωδικοί και η σειρά των σελίδων χαρακτήρων που χρησιμοποιούνται. Παράδειγμα: Οι τιμές «010305 » στο πεδίο 100 δηλώνουν ότι θα χρησιμοποιηθούν οι σελίδες με κωδικούς 01, 03 και 05 δηλ. βασικά λατινικά, εκτεταμένα λατινικά και ελληνικά αντίστοιχα (τα κενά στο τέλος δηλώνουν ότι δεν υπάρχει τέταρτη σελίδα χαρακτήρων) Οι σελίδες μετακινούνται σε ενεργές θέσεις με τη χρήση κατάλληλων οδηγιών που υλοποιούνται από control χαρακτήρες. Με αυτόν τον τρόπο το UNIMARC εξασφαλίζει τη συνύπαρξη και διαχείριση διαφορετικών συνόλων χαρακτήρων, ανεξάρτητα αν ο υπολογιστής μπορεί να τους προβάλει.

Γιατί δεν εμφανίζονται οι χαρακτήρες Το πρόγραμμα δεν έχει πληροφορηθεί για τον τρόπο κωδικοποίησης των χαρακτήρων ή Από κατασκευής δεν υποστηρίζει τη χρησιμοποιούμενη κωδικοποίηση ή Δεν διαθέτει γραμματοσειρές για την απεικόνισή των χαρακτήρων. Αποτέλεσμα αυτών είναι να εμφανίζονται είτε συγκεκριμένα σημάδια αντί των χαρακτήρων που δεν απεικονίζονται (π.χ. «?»), είτε χαρακτήρες που αντιστοιχούν στις ίδιες θέσεις της χρησιμοποιούμενης κωδικοσελίδας, είτε τίποτε.

Text Encoding Initiative

Ορισμοί Κωδικοποίηση κειμένου (text markup, encoding) = Διαδικασία διάκρισης δομικών ή σημασιολογικών (semantic) χαρακτηριστικών κειμένου με βάση κάποιους κανόνες. Text encoding initiative: SGML-DTD Στόχος του είναι να δημιουργήσει ένα περιβάλλον για την κωδικοποίηση κειμένων ακαδημαϊκού ενδιαφέροντος, έτσι ώστε να μπορούν να μεταγράφονται και να διατηρούνται ανεξάρτητα από την εκάστοτε τεχνολογία.

Ανασκόπηση Δε σχετίζεται με τη μορφοποίηση και τον τρόπο εμφάνισης του κειμένου. Παράδειγμα: There are very few risqué passages in Paradise Lost Html: There are very few <i>risqué</i> passages in <i>Paradise Lost</i> TEI: There are very few <foreign>risqué</foreign> passages in <title>Paradise Lost</title> Καλύπτει: Δομή (παράγραφοι, σελίδες, διάλογοι, υποσημειώσεις, σύνδεσμοι) Γλωσσική επεξεργασία (διάλεκτοι, ονόματα, προτάσεις, λέξεις, εκφράσεις, στοιχεία μετάφρασης) Μεταδεδομένα (βιβλιογραφικά στοιχεία, εκδοτικό ιστορικό κ.λπ.)

Βασική δομή <?xml version="1.0"?> <!DOCTYPE TEI.2 SYSTEM "http://faculty-web.at.northwestern.edu/ english/mmueller/TeiXBaby/TeiXBaby.dtd"> <!ELEMENT TEI.2 (teiHeader, text)> <!ELEMENT text (front?, body, back?)> <TEI.2> <teiHeader> [ TEI Header information ] </teiHeader> <text> <front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back> </text> </TEI.2>

Συλλογή από κείμενα TEI corpus <teiCorpus> <teiHeader> [header information for the corpus]</teiHeader> <TEI.2> <teiHeader>[header information for first text]</teiHeader> <text> [first text in corpus] </text> </TEI.2> <teiHeader>[header information for second text]</teiHeader> <text> [second text in corpus] </text> </teiCorpus>

Βασικά στοιχεία <teiHeader> <front> <back> Δεν αποτελεί μέρος του υπο κωδικοποίηση κειμένου, αλλά παρέχει πληροφορίες (μεταδεδομένα) για αυτό. Στοιχεία του teiHeader element: fileDesc, profileDesc, revisionDesc, langUsage language Στοιχεία του fileDesc: titleStmt, publicationStmt, sourceDesc <front> Περιέχει προκαταρκτικό περιεχόμενο (επικεφαλίδες, σελίδες τίτλων, πρόλογοι κ.λπ.) που βρίσκονται πριν την αρχή του κανονικού κειμένου <back> Περιέχει παραρτήματα κ.λπ. που ακολουθούν το κυρίως κείμενο <body> Περιέχει το σώμα ενός μοναδικού κειμένου εκτός του front και back περιεχομένου

Στοιχεία του <body> Βασικά δομικά στοιχεία: div head Στοιχεία παραγράφων p cit q l lg sp Λίστες, πίνακες και σχήματα: list item table row cell figure figDesc Στοιχεία φράσεων: date emph foreign hi name num soCalled term title Στοιχεία χωρισμού σελίδων και γραμμών: milestone pb lb Στοιχεία για σύνδεση στοιχείων: ref rs ptr xref xptr Βιβλιογραφικά στοιχεία: bibl author editor publisher respStmt resp pubPlace

Κανόνες δόμησης Το body ενός κειμένου χωρίζεται από <div> elements Τα <div> elements χωρίζονται σε <p> (παράγραφος), <q> (εδάφιο με εισαγωγικά), <l> (γραμμή), <lg> (ομάδα γραμμών), <sp> (λόγος) και <speaker> (ομιλητής) Τα <p> και παρόμοια στοιχεία περιλαμβάνουν κείμενο (#PCDATA), το οποίο κωδικοποιείται από στοιχεία φράσεων

Στοιχεία δομής div: υποδιαίρεση μέχρι 7 επίπεδα, εφαρμόζεται και στα front, back. Γνωρίσματα: type: ‘Book’, ‘Chapter’, ‘Part’, κ.λπ. id: μοναδικός κωδικός υποδιαίρεσης n: όνομα ή αριθμός υποδιαίρεσης head: ο τίτλος της υποδιαίρεσης, <!ELEMENT head #PCDATA> p: σημείο παραγράφου <!ELEMENT p #PCDATA> <div1 id="UGT1" n="Winter" type="Part"> <div2 id="UGT11" n="1" type="Chapter"> <head>Mellstock-Lane</head> <p>I fully appreciate Gen. Pope's splendid… </p>

Γνωρίσματα Στο TEI-DTD υπάρχουν τα ακόλουθα γνωρίσματα που εφαρμόζονται γενικά στα στοιχεία: <!ATTLIST element id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED (γλώσσα) rend CDATA #IMPLIED (τυπογραφική αναπαράσταση π.χ. <q lang=“FR” rend=“italics” >

Παράδειγμα <div1 type ="Act" n="I"> <head>ACT I</head> <div2 type ="Scene" n="1"> <head>SCENE I</head> <stage rend="italic"> Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn</speaker> <l part="Y">Who's there?</l></sp> <sp><speaker>Fran</speaker> <lg type="stanza" part="I"> <l>But why drives on that ship so fast</l> <l>Withouten wave or wind?</l> </lg> </sp> <sp><speaker>Barn</speaker><l part="i">Long live the King!</l></sp> <sp><speaker>Fran</speaker><l part="m">Barnardo?</l></sp> <sp><speaker>Barn</speaker><l part="f">He.</l></sp> <p> I went to the store to buy<list><item>bread,</item> <item>milk,</item> <item>and bananas</item></p>

Στοιχεία Φράσεων (1/2) <emph> έμφαση φράσης για γλωσσικό ή ρητορικό σκοπό <foreign> φράση ή λέξη που ανήκει σε άλλη γλώσσα από το τριγύρω κείμενο <term> τεχνικός όρος <title> τίτλος με γνωρίσματα: level m βιβλία, συλλογές, έργα ενός τόμου ή πολύτομα, s σειρές, j περιοδικό, u μη δημοσιευμένο υλικό, a αναλυτικός τίτλος που ανήκει σε κάποιο άλλο τεκμήριο (άρθρο, ποίημα κ.λπ. type abbreviated, main, subordinate (υπότιτλοι και τίτλοι μερών), parallel (παράλληλοι).

Στοιχεία Φράσεων (2/2) <name>, <date>, <time>, <num> <name type="person"> Walter de la Mare</name> was born at <name type="place">Charlton</name>, in <name type="county">Kent</name>, in <date value="1873-02-21">21 Feb 1980</date> <l>specially when it's nine below zero</l> <l>and <time value="15:00">three o'clock in the afternoon</time></l> <num value="33">xxxiii</num> <num type="cardinal" value="21">twenty-one</num> <num type="percentage" value="10">ten percent</num> <num type="percentage" value="10">10%</num> <num type="ordinal" value="5">5th</num>

Γραμμές και σελίδες Γραμμές Σελίδες <p><lb n="25"/> Fie, that you'll say so! He plays o' th'      <lb n="26"/> viol-de-gamboys, and speaks three or four languages      <lb n="27"/> word for word without book, and hath all the good      <lb n="28"/> gifts of nature.</p> Σελίδες <p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb ed="ED1" n="475"/> Mary approved the step unreservedly. Diana announced that she would <pb ed="ED2" n="485"/>just give me time to get over the honeymoon, and then she would come and see me.</p>

Αναφορές