ΑΝΑΠΑΡΑΣΤΑΣΗ ΧΑΡΑΚΤΗΡΩΝ Χαρακτήρας: κάθε ένα σύμβολο του πληκτρολογίου εκτυπώσιμο ή μη εκτυπώσιμο. Παραδείγματα Τα γράμματα (κεφαλαία και μικρά) της ελληνικής και αγγλικής αλφαβήτου Οι αριθμοί 0, 1, 2, …….,9 Το κενό διάστημα (spacebar) Τα λειτουργικά πλήκτρα F1, F2, ….F12 Τα πλήκτρα σβησίματος Backspace, Delete Το πλήκτρο του Enter Τα πλήκτρα Caps Lock, Ctrl, Shift, Esc, Tab κ.α Τα σημεία στίξης που χρησιμοποιούμε ,,.,΄,», ; Αριθμητικοί τελεστές +, -, *, /, >, <
Κωδικοποίηση Χαρακτήρων Κωδικοποίηση: η διαδικασία αντιστοίχισης κάθε χαρακτήρα με ένα μοναδικό συνδυασμό των δύο ψηφίων του 0 και του 1 ώστε να αποθηκευτούν στον Η/Υ. Κώδικας: ο πίνακας που περιέχει το σύνολο των χαρακτήρων με τους αντίστοιχους κωδικούς του σε ένα σύστημα κωδικοποίησης.
Ποιο είναι, όμως, το πλήθος των 0 και 1 που χρειάζονται, ώστε κάθε σύμβολο να το αντιστοιχίσουμε μοναδικά με μία ακολουθία από 0 και 1; Γενικά οι ν συνδυασμοί των δύο ψηφίων 0 και 1 μας δίνουν τη δυνατότητα να αναπαραστήσουμε 2ν σύμβολα.
ΚΩΔΙΚΕΣ ΧΑΡΑΚΤΗΡΩΝ Οι πιο γνωστοί κώδικες είναι οι: Κώδικας ASCII Κώδικας Unicode
ΚΩΔΙΚΑΣ ASCII (American Standard Code for Information Interchange) Αρχικά στον ASCII χρησιμοποιούνταν 7 bit για την κωδικοποίηση των χαρακτήρων και το 8ο bit για έλεγχο ορθότητας κατά τη μεταφορά στοιχείων. Το bit αυτό ονομάστηκε ψηφίο ισοτιμίας (parity bit). Έτσι επιτρεπόταν η απεικόνιση 128 (27) διαφορετικών χαρακτήρων. Σε κάθε χαρακτήρα αντιστοιχίζεται ένας μοναδικός αριθμός από το 0 έως το 127.
Παράδειγμα: Κωδικοποίηση της λέξης HELLO
Επέκταση ASCII – χρήση 8 bit
online μετατροπέας http://www.binaryhexconverter.com/ascii-text-to-binary-converter
Μειονέκτημα Ο ΑSCII μπορεί να κωδικοποιήσει 2 αλφάβητα σε έναν Η/Υ. Το λατινικό και το τοπικό κάθε χώρας (πχ το ελληνικό). Δεν μπορεί να κωδικοποιήσει αλφάβητα άλλων χωρών.
ΚΩΔΙΚΑΣ UNICODE Παρέχει τη δυνατότητα κωδικοποίησης όλων των χαρακτήρων των σημαντικότερων γλωσσών του κόσμου καθώς και άλλων συμβόλων που χρησιμοποιούνται στα μαθηματικά, τις Φυσικές Επιστήμες και τη μουσική . Χρησιμοποιεί 16 bit Κωδικοποίηση 216 (65.536) διαφορετικών χαρακτήρων
ΚΩΔΙΚΑΣ UNICODE Προτείνει έναν μοναδικό αριθμό (code point) για κάθε χαρακτήρα, ανεξάρτητα από το λειτουργικό σύστημα, το λογισμικό και τη γλώσσα. Η τιμή του code point παριστάνεται με το πρόθεμα U+ ακολουθούμενο από τη δεκαεξαδική μορφή της θέσης του. Για παράδειγμα στο code point U+0041 αντιστοιχεί το "Latin Capital letter A". Παρέχει επίσης χώρο για περίπου ένα εκατομμύριο επιπλέον θέσεις κωδικών (code points) για συμπληρωματικούς χαρακτήρες (supplementary characters)
Ένα σύνολο χαρακτήρων, πολλαπλές κωδικοποιήσεις: Ο Unicode απεικονίζει κάθε χαρακτήρα που χρησιμοποιείται σε κάποιο αλφάβητο στη Γη σε έναν μοναδικό αριθμό. Όμως κατά την αποθήκευση αυτών των αριθμών κατά την επεξεργασία κειμένου προκύπτουν κάποια προβλήματα από το γεγονός ότι το λογισμικό που γράφεται στον δυτικό κόσμο χειρίζεται μόνο κωδικοποιήσεις 8-bit με την unicode υποστήριξη να προστίθεται πολύ αργότερα. Η εσωτερική λογική παραδοσιακών 8-bit εφαρμογών επιτρέπει μόνο 8 bits για κάθε χαρακτήρα κάνοντας αδύνατη τη χρησιμοποίηση περισσότερων των 256 κωδικών σημείων χωρίς ειδική επεξεργασία. Έτσι οι μηχανικοί λογισμικού έχουν προτείνει διάφορους μηχανισμούς για την υλοποίηση του Unicode.
Κωδικοποιήσεις Unicode 1. UTF κωδικοποιήσεις (Unicode Transformation Format) 2. UCS κωδικοποιήσεις (Universal Character Set). Αυτές οι κωδικοποιήσεις περιλαμβάνουν: UTF-32 UCS-4 UTF-16 UCS-2 UTF-8 UTF-EBCDIC UTF-7