Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική Ημερίδα Προτύπου-Πειραματικού ΓΕΛ Πανεπιστημίου Μακεδονίας
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 2 Είναι η αυτόματη (μηχανική ή ηλεκτρονική) αναγνώριση κειμένου ψηφιοποιημένων εικόνων ενός δακτυλογραφημένου ή τυπωμένου ή ακόμα και χειρόγραφου κειμένου. Τι είναι OCR;
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 3 Γιατί OCR; Χρησιμοποιείται ευρέως για τη μετατροπή διαφορετικών τύπων κειμένου (σκαναρισμένων, PDF, φωτογραφημένων κλπ.) σε κείμενο στο οποίο μπορεί να γίνει επεξεργασία ή οποιαδήποτε αναζήτηση. Σε ορισμένες περιπτώσεις είναι άκρως απαραίτητη, π.χ. σε βιβλιοθήκες και γραφεία όπου χιλιάδες βιβλία ψηφιοποιούνται για backup και αρχειοθέτηση. Ο scanner φωτογραφίζει το κείμενο τους και στη συνέχεια το μετατρέπει συνήθως σε PDF. Δεν μπορεί έτσι να γίνει οποιαδήποτε αναζήτηση ή επεξεργασία στο κείμενο.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 4 Γιατί OCR; Η αποθήκευση εικόνων απαιτεί σημαντικά μεγαλύτερο χώρο (ακόμα και συμπιεσμένες να είναι σε JPEG κλπ.) από ότι ένα κείμενο: Βιβλίο 100 σελίδων απαιτεί: Ψηφιοποιημένο σε μέτρια ποιότητα και συμπίεση εικόνων: περίπου 10 MB. Σε μορφή επεξεργάσιμου κειμένου: περίπου 20 ΚΒ.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 5 Τεχνολογία OCR Πάνω από 30 χρόνια έρευνας και εξέλιξης στα συστήματα αναγνώρισης κειμένου. Συνεχείς βελτιώσεις στην ποιότητα και την πιστότητα της αναγνώρισης. Τα πιο δημοφιλή λογισμικά OCR: –ABBYY Fine Reader –IRIS Read Iris –ExperVision –κλπ.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 6 Σύγκριση Πιστότητας OCR Αποτελέσματα σε πειράματα αναγνώρισης κειμένων με την ακραία χειρότερη ποιότητα εικόνας:
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 7 Ποιότητα εικόνας και OCR Η ποιότητα εικόνας είναι ο σημαντικότερος παράγοντας στην πιστότητα της αναγνώρισης κειμένων. Τα τυπωμένα κείμενα συχνά εμφανίζουν προβλήματα (μελάνι, ξεθώριασμα, κιτρίνισμα σελίδας λόγω παλαιότητας, κλπ.). Τα προβλήματα αυτά μεταφέρονται στο σκανάρισμα:
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 8 Ποιότητα εικόνας και OCR Ο προσανατολισμός και το πλάγιασμα της σελίδας δεν είναι πρόβλημα καθώς όλα τα σύγχρονα λογισμικά τον εντοπίζουν επιτυχώς. Ο προσανατολισμός όμως του κειμένου μεταξύ των γραμμάτων είναι επίσης σημαντικός (π.χ. τσαλάκωμα ή ζάρωμα σελίδας ή οποιαδήποτε άλλη αλλοίωση):
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 9 Πόσο έξυπνα είναι τα OCR; Όλες οι προηγούμενες δυσκολίες μπορεί να κάνουν τα συστήματα OCR να αποτύχουν παταγωδώς στην αναγνώριση του κειμένου: ~~~.I~~~ ~~i1~~ N/A ~~I~~ Παρόλα αυτά ακόμα και ένα μικρό παιδί θα μπορούσε να τα διαβάσει! Σε αυτό βασίζεται η δημιουργία των γνωστών CAPTCHAs:
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 10 Τι μπορούμε να βελτιώσουμε; Αν οι γραμματοσειρές είναι πολύ μικρές τότε χρειάζεται να αυξήσουμε την ανάλυση. Μία καλή πρακτική είναι να ρυθμίσουμε την ανάλυση: Στα 300 dpi για μεγέθη 10 και πάνω. Στα dpi για μεγέθη 9 και κάτω.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 11 Τι μπορούμε να βελτιώσουμε; Αν τα γράμματα είναι πολύ λεπτά ή ξεθωριασμένα: Μειώνουμε τη φωτεινότητα (brightness). και στις δύο περιπτώσεις επιλέγουμε την κλίμακα του γκρι (grayscale). Αν τα γράμματα είναι κολλημένα, παραμορφωμένα ή παραγεμισμένα: Αυξάνουμε τη φωτεινότητα (brightness).
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 12 Τι μπορούμε να βελτιώσουμε; Περιπτώσεις φαξ, εφημερίδων με έντονα τα προηγούμενα φαινόμενα: πάντα επιλέγουμε την κλίμακα του γκρι (grayscale).
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 13 Άλλες δυσκολίες Η αναγνώριση κειμένου μέσα σε φωτογραφίες. Ακόμα και αν επεξεργαστούμε την φωτογραφία η αναγνώριση του κειμένου θα έχει πολύ μικρή επιτυχία (<20%) Προτιμότερο να πληκτρολογήσουμε το κείμενο από το να διορθώσουμε τα λάθη που θα εμφανιστούν!
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 14 Άλλες δυσκολίες Η αναγνώριση γλωσσών που δεν υποστηρίζονται, π.χ. Αρχαίων Ελληνικών κλπ.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 15 Άλλες δυσκολίες Τα δημοφιλή λογισμικά OCR υποστηρίζουν τέτοιες γλώσσες μόνο με πολύ μεγάλη εκπαίδευση. Ο «Αναγνώστης» αναγνωρίζει Αρχαία Ελληνικά αλλά κοστίζει 585€ και δεν κάνει άριστη αναγνώριση πάντα. Tesseract: Λογισμικό ανοικτού κώδικα (Google).
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 16 Άλλες δυσκολίες Η αναγνώριση μαθηματικών και επιστημονικών τύπων και συμβόλων. Είναι πιο δύσκολο από ότι φαίνεται. Μεγάλη έρευνα και προσπάθειες για να γίνει κάτι λειτουργικό. Πολλά λογισμικά αποτυγχάνουν. Μία λύση; ΙnftyReader
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 17 ABBYY FineReader Software Από τα πιο δημοφιλή και πρακτικά OCR: Υποστήριξη πάρα πολλών Formats.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 18 Περιβάλλον του FineReader Κείμενο
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 19 Εφαρμογές στο FineReader Αυτοματοποιημένες διαδικασίες: –(1) File (PDF/Image) to Microsoft Word –(2) Photo to Microsoft Word Κείμενο με κανονικά μεγέθη γραμματοσειράς. Κείμενο με μικρά μεγέθη γραμματοσειράς. Κείμενο όπου χρειάζεται ρύθμιση φωτεινότητας. Κείμενο από ΦΑΞ και Εφημερίδας. Άλλες Περιπτώσεις.
31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 20 Ευχαριστώ