1 Ένα βήμα μετά την γραφομηχανή; Υπολογιστές και φιλολογία Θεσσαλονίκη 22/11/2005 Νότης Τουφεξής University of Cambridge
2 Διάρθρωση της παρουσίασης Ηλεκτρονικό κείμενο – Πλεονεκτήματα – Ελληνικά: Προβλήματα και λύσεις Εφαρμογές – Συμφραστικοί πίνακες λέξεων – Ιεραρχικό μοντέλο απεικόνισης: XML – Βάσεις δεδομένων
3 Το ηλεκτρονικό κείμενο
4 Ηλεκτρονικό κείμενο: Χαρακτηριστικά Ένα προς ένα αντιγραφή Εύκολη επεξεργασία στο ψηφιακό περιβάλλον Δυνατότητα μεταφοράς μέσα από ηλεκτρονικά δίκτυα Δυνατότητα διασύνδεσης (hypertext) – HTML, XML (markup languages)
5 Ότι βλέπουμε δεν είναι το ίδιο για τον υπολογιστή Διάκριση μεταξύ χαρακτήρα (character) και απεικόνισης (glyph) GREEK CAPITAL LETTER KAPPA (922) LATIN CAPITAL LETTER K (75) 2 χαρακτήρες ίδιο glyph Tahoma Κ K διαφ. glyph Code 2000
6 Παλαιότερα προβλήματα με τα ελληνικά 256 χαρακτήρες δεν ήταν αρκετοί για την απεικόνιση μονοτονικών και πολυτονικών ελληνικών – Πολλές γραμματοσειρές για επιπλέον glyphs (ψηφιόγλυφα) Σχέση χαρακτήρων και glyphs – «Διαφορετικά» σε κάθε λειτουργικό σύστημα – Μη συμβατά μεταξύ τους
7 Η τυποποίηση (και η λύση): Unicode Αύξηση των χαρακτήρων κάθε γραμματοσειράς σε Unicode = Τυποποιημένοι πίνακες κωδικοποίησης χαρακτήρων και συμβόλων – Υποστηρίζεται από όλα τα σύγχρονα λειτουργικά συστήματα – Περιέχει δύο πίνακες για τα ελληνικά Κανονικά (Greek and Coptic) και με επιπλέον χαρακτήρες (Greek extended)Greek and CopticGreek extended
8 Απελπισία; Η μετατροπή από παλαιότερη κωδικοποίηση σε Unicode είναι στις περισσότερες περιπτώσεις δυνατή – GreekKeys Converter, Transcoder κτλ. GreekKeys Converter, Transcoder Βασικά πλεονεκτήματα – Συμβατότητα μεταξύ διαφορετικών λειτoυργικών συστημάτων – Αποφυγή του «θανάτου των ψηφιακών δεδομένων»
9 Πρώτο βήμα: δημιουργία ηλεκτρονικού κειμένου
10 Δημιουργία ηλεκτρονικού κειμένου από «παραδοσιακό» κείμενο Λύση 1: Internet (copyright?) – Αρκετά (λογοτεχνικά) κείμενα διαθέσιμα Συχνά προβληματική κωδικοποίηση Λύση 2: OCR – Προηγμένο για μονοτονικά ελληνικά, στα πρώτα του βήματα για πολυτονικά Λύση 3: Δακτυλογράφηση – Τυφλό σύστημα, Κίνα;
11 Βασικά ερωτήματα 1 Τί είδους κωδικοποίηση; – Πολυτονικά: Unicode – Μονοτονικά: Σε συνδυασμό με λατινικά χωρίς επιπλέον χαρακτήρες: Win 1253 ή ISO Σε συνδυασμό με λατινικά με επιπλέον χαρακτήρες: Unicode – UTF-8: Η κωδικοποίηση ειδικά για χρήση στο Internet
12 Βασικά ερωτήματα 2 Τι είδους ηλεκτρονικό format; – Κατά προτίμηση «ανοιχτό», που δεν εξαρτάται δηλ. από μία και μόνο ηλεκτρονική εφαρμογή Να αποφεύγεται το.doc (MS WORD) ως πρώτη και μοναδική επιλογή Προτιμότερο.txt (χωρίς πληροφορίες μορφοποίησης) ή.html (με πληροφορίες μορφοποίησης), ιδανικά.xml για πιο σύνθετες πληροφορίες (σε Unicode)
13 Τι είδους απεικόνιση του κειμένου στο ψηφιακό περιβάλλον; Για κείμενο που ήδη υφίσταται σε τυπωμένη μορφή – Διατήρηση των χαρακτηριστικών του τυπωμένου κειμένου; Πόσων και ποιων; – Αλλαγές που είναι απαραίτητες λόγω ψηφιακού περιβάλλοντος π.χ. συλλαβισμός, ορθογραφικές ιδιαιτερότητες (π.χ. ό,τι), παρασελίδιες σημειώσεις, στιχαρίθμηση κτλ.
14 Τι είδους απεικόνιση του κειμένου στο ψηφιακό περιβάλλον; Για «νέο» και ήδη υπάρχον κείμενο – Ποιο μοντέλο απεικόνισης της δομής του κειμένου Κατανοητό από τον χρήστη μόνο; «Κατανοητό» από τον υπολογιστή; Επίπεδα απεικόνισης; – π.χ. απεικόνιση εναλλαγής μέσα στο ίδιο κείμενο – απεικόνιση πληροφοριών που είναι απαραίτητες για την φιλολογική ανάλυση και επεξεργασία
15 Το έργο του φιλολόγου Η ανάλυση της δομής του περιεχομένου του κειμένου και η λήψη αποφάσεων για την απεικόνιση του σε ψηφιακό περιβάλλον είναι δουλειά του φιλολόγου και όχι του πληροφορικάριου
16 Εφαρμογές με βάση το ηλεκτρονικό κείμενο Συμφραστικός πίνακας λέξεων
17 Εφαρμογές ηλεκτρονικών κειμένων Συμφραστικός πίνακας λέξεων (Keyword In Context Concordance) – Αλφαβητικός πίνακας όλων των λέξεων με τα συμφραζόμενά που ακολουθούν και έπονται Χρησιμοποιείται για υφολογική ανάλυση και ανάλυση λόγου
18 KWIC: Διαθέσιμες εφαρμογές Πολλές εφαρμογές για WinXP διαθέσιμες, έλλειψη στο Mac OS X Πολλές εφαρμογές για WinXP διαθέσιμες, έλλειψη στο Mac OS X – Win XP: Concordance, MonoConc, SCP, MLCT – Mac Os: Conc (χωρίς υποστήριξη Unicode) / Mac OS X:? Άλλη δυνατότητα: χρήση γλώσσας προγραμματισμού: Perl, Java etc.
19 Βασικές λειτουργίες Δέχονται ηλεκτρονικό κείμενο συνήθως σε μορφή TXT (text only) – Συχνά και σε ό,τι βασίζεται σε TXT (HTML, XML) – Ελάχιστες υποστηρίζουν πλήρως Unicode (MLCT, Word Smith Tools) – Επιτρέπουν τη χρήση εξειδικευμένου συστήματος παραπομπών – Επιτρέπουν ρύθμιση του μεγέθους των συμφραζομένων – Επιτρέπουν την δημιουργία σύνθετων αναζητήσεων (regular expressions)
20 Μειονεκτήματα Κανένα πρόγραμμα που να υποστηρίζει Unicode και σωστή αλφαβήτιση πολυτονικών ελληνικών Σχεδόν παντού η αλφαβήτιση γενικώς γίνεται αυτόματα με βάση προκαθορισμένες ρουτίνες του λειτουργικού συστήματος
21 Ιεραρχικό μοντέλο απεικόνισης κειμένου Τι είναι η XML
22 To πρόβλημα Απεικόνιση της δομής των δεδομένων όταν αποθηκεύονται ηλεκτρονικά και πρέπει να διανεμηθούν με ψηφιακό τρόπο Ο υπολογιστής δεν μπορεί να κατανοήσει την δομή ενός περιεχομένου – Παράδειγμα: Το λήμμα ψηφιακός από το λεξικό Τριανταφυλλίδη
23 «Ψηφιακός» ψηφιακός -ή -ό [psifiakós] E1 : α.(για όργανο μέτρησης, συσκευή κτλ.) που εμφανίζει τις σχετικές με τη λειτουργία του ενδείξεις με ψηφία (αριθμούς ή γράμματα): Ψηφιακό ρολόι / χρονόμετρο. Ψηφιακές ενδείξεις. β. (ηλεκτρον.) που επεξεργάζεται τις πληροφορίες που του διοχετεύονται χρησιμοποιώντας αριθμητικά ψηφία ή ειδικά σήματα: Ψηφιακό τηλέφωνο. [λόγ. ψηφί(ο) -ακός μτφρδ. αγγλ. digital] σημασία 1 προφοράκλίσηλήμμα παραδείγματα σημασίας 1 σημασία 2 παραδείγματα σημασίας 2 ετυμολογία
24 Προβλήματα από την οπτική της επεξεργασίας στον υπολογιστή Ο αριθμός των σημασιών δεν μπορεί να προβλεφθεί εκ των προτέρων Υπάρχουν ενότητες που είναι ενταγμένες μέσα σε άλλες ενότητες ή αποτελούν υποκατηγορία άλλης ενότητας – παραδείγματα σε σημασίες – καταλήξεις σε λέξεις – είδη δανείων, προέλευση δανείων Υπάρχουν ενότητες που αποτελούνται από πολλά στοιχεία (ετυμολογία) Κάθε λεξικό μπορεί να έχει διαφορετική δομή Τι από όλα αυτά «καταλαβαίνει» ο υπολογιστής;
25 Απάντηση στα προβλήματα: XML H XML (Extensible markup language) είναι μέθοδος αποθήκευσης ψηφιακών δεδομένων που απεικονίζει την εσωτερική τους δομή – Δεν είναι γλώσσα προγραμματισμού – Είναι «φλύαρη» – Είναι ανοιχτή, δηλ. μπορεί να χρησιμοποιηθεί για κάθε είδους δεδομένα – Υποστηρίζει πλήρως το Unicode – Υποστηρίζεται από πολλές άλλες τεχνολογίες
26 Πως δουλεύει Χρησιμοποιεί ετικέτες (tags) για το μαρκάρισμα στοιχείων (elements) και χαρακτηριστικών (attributes) – ψηφιακός Εντός των ετικετών περικλείεται η πληροφορία του κάθε στοιχείου – Οι ετικέτες, τα στοιχεία και τα χαρακτηριστικά μπορούν να επιλεχθούν κατά βούληση Ακολουθεί αυστηρούς κανόνες ιεραρχικής οργάνωσης (που πρέπει να έχουν καθοριστεί από πρίν)
27 Χρήση της XML Το λήμμα «ψηφιακός» ως XML χωρίς μορφοποίηση Το λήμμα «ψηφιακός» ως XML Το λήμμα «ψηφιακός» με μορφοποίηση Το λήμμα «ψηφιακός» Το αρχείο css που δημιουργεί την μορφοποίησηαρχείο css
28 Πλεονεκτήματα «Διάφανη» δομή – Διάφανη αποθήκευση (text only) Απεριόριστες και προσωπικές «ετικέτες» Συμβατή με όλα τα λειτουργικά συστήματα – Διαβάζεται από οποιοδήποτε εφαρμογή που διαβάζει απλό κείμενο Διαχωρισμός δομής και περιεχομένου Μη πατενταρισμένη, ελεύθερη στη χρήση Συνδυάζεται εύκολα με άλλες τεχνολογίες
29 Απαιτήσεις Σαφείς, προκαθορισμένοι κανόνες που ρυθμίζουν την ιεραρχία των περιεχομένων – Υπάρχουν ήδη τυποποιημένοι κανόνες για πολλά επίπεδα πληροφορίας Σωστή χρήση των ετικετών και των ιεραρχικών κανόνων – Μη έγκυρη (non valid) XML δεν «διαβάζεται» και δεν μπορεί να χρησιμοποιηθεί κλίση="E1" δεν είναι το ίδιο με κλίση=„E1“!
30 Διαχωρισμός μορφής και περιεχομένου Σε ένα αρχείο XML περιέχεται η ιεραρχική δομή της πληροφορίας και η ίδια η πληροφορία Οι λεπτομέρειες της μορφοποίησης αποθηκεύονται χωριστά σε ένα αρχείο διαφορετικού τύπου (CSS ή XSL stylesheet)
31 Εναλλακτικό μοντέλο απεικόνισης: βάση δεδομένων Relational databases
32 Βάση δεδομένων = Πίνακας σε ηλεκτρονική μορφή Ένας πίνακας αποτελείται από μία ή περισσότερες σειρές και μία ή περισσότερες στήλες Κάθε σειρά συνήθως εκπροσωπεί μια εμφάνιση του πράγματος υπό κατηγοριοποίηση Κάθε στήλη εκπροσωπεί ένα χαρακτηριστικό γνώρισμα αυτού του πράγματος
33 Πίνακας: ανάλυση δομής... Γενάρης 1935Περιοδικό Νέα γράμματαΗ Στέρνα 50Οχτώβρης 1932Τυπογραφείο «Εστία»ΑθήναΗ Στέρνα 200Μάης 1931Τυπογραφείο «Εστία»ΑθήναΣτροφή Αριθμός αντιτύπωνΧρονολογίαΕκδότηςΠόληΤίτλος συλλογής Πρώτες εκδόσεις και δημοσιεύσεις Γ. Σεφέρη
34 Τι συλλέγουμε; Για τι πράγμα (entity) συλλέγουμε πληροφορίες (attributes); – Εκδόσεις και δημοσιεύσεις ή Εκδόσεις Δημοσιεύσεις πρόκειται για το ίδιο ή για διαφορετικά πράγματα;
35 Ποιες πληροφορίες χρειάζονται για αυτό που συλλέγουμε; Πόσες πληροφορίες διαφορετικού τύπου αφορούν το πράγμα για το οποίο συλλέγουμε πληροφορίες; – «Αφορούν» σημαίνει είναι σημαντικές για την φιλολογική ανάλυση Πως αναλύουμε το εξής: – H Στέρνα... Χωρίς όνομα συγγραφέα, αλλά με την υπογραφή του, 50 αντίτυπα αριθμημένα με το χέρι
36 Οι πληροφορίες που συλλέγουμε είναι σύνθετες; Ημερομηνία: Χρόνος / Mήνας – Αν η πληροφορία για τον μήνα έκδοσης είναι σημαντική πρέπει να αποθηκευθεί με τρόπο «κατανοητό» για τον υπολογιστή Αν ναι, μήπως πρέπει να καταγραφεί με πολλούς τρόπους; – Οχτώβρης ή Οκτώβρης ή Οκτώβριος ή 10/XXX ή October;
37 Σχεδιασμός των πινάκων της βάσης δεδομένων Ο κάθε πίνακας αφορά ένα και μόνο ένα πράγμα – Κάθε σειρά εκπροσωπεί μία και μόνο μία εμφάνιση του πράγματος στο πρωτογενές μας υλικό Περιέχει τις πληροφορίες που είναι απαραίτητες για την φιλολογική ανάλυση του πράγματος – Κάθε στήλη εκπροσωπεί ένα και μόνο ένα χαρακτηριστικό του πράγματος
38 «Κανονικοποίηση» των δεδομένων (data normalization) Πληροφορίες για ένα συγκεκριμένο πράγμα δεν πρέπει να αποθηκεύονται στον πίνακα που αφορά άλλο πράγμα – Π.χ. τίτλοι των ποιημάτων στον πίνακα πρώτων δημοσιεύσεων Μία πληροφορία για ένα πράγμα πρέπει να αποθηκεύεται σε μία και μόνο μία στήλη
39 Δημιουργία σχέσεων (relations) μεταξύ πινάκων Οι πίνακες μπορούν να συνδεθούν μεταξύ τους 3Αργά μιλούσεςΚοχύλια, ΣύννεφαΣτροφή 3 Κοχύλια, ΣύννεφαΣτροφή Αρ. στ.Τίτλος ποιήματοςΜέροςΤίτλος συλλογής 200Μάης 1931Τυπογραφείο «Εστία»ΑθήναΣτροφή Αρ. αντ.ΧρονολογίαΕκδότηςΠόληΤίτλος συλλογής
40 Πλεονεκτήματα βάσης δεδομένων Οικονομικός τρόπος αποθήκευσης πολλών δεδομένων – Εύκολη και γρήγορη αναζήτηση και ανάκληση Ταξινόμηση με διαφορετικά κριτήρια Εύκολη στην κατασκευή και την εισαγωγή δεδομένων Μπορεί να χρησιμοποιηθεί ως υπόβαθρο εφαρμογών web
41 Μειονεκτήματα βάσης δεδομένων Το μοντέλο του πίνακα αφού «στηθεί» δεν τροποποιείται εύκολα – Μπορεί να αποβεί περιοριστικό για την ανάλυση Δεν μπορεί να αποδώσει ιεραρχίες παρά μόνο μέσω σχέσεων Έχει περιορισμένες δυνατότητες μορφοποίησης των δεδομένων Δεν ενδείκνυται για αποθήκευση κείμενου
42 Συμπεράσματα
43 Τι χρειάζεται να ξέρει ο φιλόλογος; Να έχει αποκτήσει εξοικείωση με τα πρακτικά ζητήματα της δημιουργίας ηλεκτρονικού κειμένου Να αναλύει σωστά τα περιεχόμενα του πρωτογενούς υλικού για να επιτύχει την κατάλληλη ψηφιακή τους αναπαράσταση Να είναι εξοικειωμένος / -η με τις βασικές τεχνολογίες και τα μειονεκτήματα / πλεονεκτήματά τους
44 Γιατί Πληροφορική και Φιλολογία; Για να διευκολύνουμε την φιλολογική έρευνα με κατάλληλα ερευνητικά εργαλεία Για να καθορίζουμε εμείς που έχουμε την κατάλληλη εκπαίδευση και ευαισθησία τις ψηφιακές εφαρμογές που χρησιμοποιούνται σήμερα και αύριο Γιατί καλώς ή κακώς το ψηφιακό περιβάλλον αντικαθιστά με ραγδαίους ρυθμούς παραδοσιακές δομές παντού Γιατί έχει πλάκα!