Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική."— Μεταγράφημα παρουσίασης:

1 Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική Ημερίδα Προτύπου-Πειραματικού ΓΕΛ Πανεπιστημίου Μακεδονίας

2 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 2 Είναι η αυτόματη (μηχανική ή ηλεκτρονική) αναγνώριση κειμένου ψηφιοποιημένων εικόνων ενός δακτυλογραφημένου ή τυπωμένου ή ακόμα και χειρόγραφου κειμένου. Τι είναι OCR;

3 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 3 Γιατί OCR; Χρησιμοποιείται ευρέως για τη μετατροπή διαφορετικών τύπων κειμένου (σκαναρισμένων, PDF, φωτογραφημένων κλπ.) σε κείμενο στο οποίο μπορεί να γίνει επεξεργασία ή οποιαδήποτε αναζήτηση. Σε ορισμένες περιπτώσεις είναι άκρως απαραίτητη, π.χ. σε βιβλιοθήκες και γραφεία όπου χιλιάδες βιβλία ψηφιοποιούνται για backup και αρχειοθέτηση. Ο scanner φωτογραφίζει το κείμενο τους και στη συνέχεια το μετατρέπει συνήθως σε PDF. Δεν μπορεί έτσι να γίνει οποιαδήποτε αναζήτηση ή επεξεργασία στο κείμενο.

4 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 4 Γιατί OCR; Η αποθήκευση εικόνων απαιτεί σημαντικά μεγαλύτερο χώρο (ακόμα και συμπιεσμένες να είναι σε JPEG κλπ.) από ότι ένα κείμενο: Βιβλίο 100 σελίδων απαιτεί: Ψηφιοποιημένο σε μέτρια ποιότητα και συμπίεση εικόνων: περίπου 10 MB. Σε μορφή επεξεργάσιμου κειμένου: περίπου 20 ΚΒ.

5 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 5 Τεχνολογία OCR Πάνω από 30 χρόνια έρευνας και εξέλιξης στα συστήματα αναγνώρισης κειμένου. Συνεχείς βελτιώσεις στην ποιότητα και την πιστότητα της αναγνώρισης. Τα πιο δημοφιλή λογισμικά OCR: –ABBYY Fine Reader –IRIS Read Iris –ExperVision –κλπ.

6 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 6 Σύγκριση Πιστότητας OCR Αποτελέσματα σε πειράματα αναγνώρισης κειμένων με την ακραία χειρότερη ποιότητα εικόνας:

7 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 7 Ποιότητα εικόνας και OCR Η ποιότητα εικόνας είναι ο σημαντικότερος παράγοντας στην πιστότητα της αναγνώρισης κειμένων. Τα τυπωμένα κείμενα συχνά εμφανίζουν προβλήματα (μελάνι, ξεθώριασμα, κιτρίνισμα σελίδας λόγω παλαιότητας, κλπ.). Τα προβλήματα αυτά μεταφέρονται στο σκανάρισμα:

8 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 8 Ποιότητα εικόνας και OCR Ο προσανατολισμός και το πλάγιασμα της σελίδας δεν είναι πρόβλημα καθώς όλα τα σύγχρονα λογισμικά τον εντοπίζουν επιτυχώς. Ο προσανατολισμός όμως του κειμένου μεταξύ των γραμμάτων είναι επίσης σημαντικός (π.χ. τσαλάκωμα ή ζάρωμα σελίδας ή οποιαδήποτε άλλη αλλοίωση):

9 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 9 Πόσο έξυπνα είναι τα OCR; Όλες οι προηγούμενες δυσκολίες μπορεί να κάνουν τα συστήματα OCR να αποτύχουν παταγωδώς στην αναγνώριση του κειμένου: ~~~.I~~~ ~~i1~~ N/A ~~I~~ Παρόλα αυτά ακόμα και ένα μικρό παιδί θα μπορούσε να τα διαβάσει! Σε αυτό βασίζεται η δημιουργία των γνωστών CAPTCHAs:

10 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 10 Τι μπορούμε να βελτιώσουμε; Αν οι γραμματοσειρές είναι πολύ μικρές τότε χρειάζεται να αυξήσουμε την ανάλυση. Μία καλή πρακτική είναι να ρυθμίσουμε την ανάλυση: Στα 300 dpi για μεγέθη 10 και πάνω. Στα 400-600 dpi για μεγέθη 9 και κάτω.

11 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 11 Τι μπορούμε να βελτιώσουμε; Αν τα γράμματα είναι πολύ λεπτά ή ξεθωριασμένα: Μειώνουμε τη φωτεινότητα (brightness). και στις δύο περιπτώσεις επιλέγουμε την κλίμακα του γκρι (grayscale). Αν τα γράμματα είναι κολλημένα, παραμορφωμένα ή παραγεμισμένα: Αυξάνουμε τη φωτεινότητα (brightness).

12 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 12 Τι μπορούμε να βελτιώσουμε; Περιπτώσεις φαξ, εφημερίδων με έντονα τα προηγούμενα φαινόμενα: πάντα επιλέγουμε την κλίμακα του γκρι (grayscale).

13 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 13 Άλλες δυσκολίες Η αναγνώριση κειμένου μέσα σε φωτογραφίες. Ακόμα και αν επεξεργαστούμε την φωτογραφία η αναγνώριση του κειμένου θα έχει πολύ μικρή επιτυχία (<20%) Προτιμότερο να πληκτρολογήσουμε το κείμενο από το να διορθώσουμε τα λάθη που θα εμφανιστούν!

14 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 14 Άλλες δυσκολίες Η αναγνώριση γλωσσών που δεν υποστηρίζονται, π.χ. Αρχαίων Ελληνικών κλπ.

15 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 15 Άλλες δυσκολίες Τα δημοφιλή λογισμικά OCR υποστηρίζουν τέτοιες γλώσσες μόνο με πολύ μεγάλη εκπαίδευση. Ο «Αναγνώστης» αναγνωρίζει Αρχαία Ελληνικά αλλά κοστίζει 585€ και δεν κάνει άριστη αναγνώριση πάντα. Tesseract: Λογισμικό ανοικτού κώδικα (Google).

16 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 16 Άλλες δυσκολίες Η αναγνώριση μαθηματικών και επιστημονικών τύπων και συμβόλων. Είναι πιο δύσκολο από ότι φαίνεται. Μεγάλη έρευνα και προσπάθειες για να γίνει κάτι λειτουργικό. Πολλά λογισμικά αποτυγχάνουν. Μία λύση;  ΙnftyReader

17 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 17 ABBYY FineReader Software Από τα πιο δημοφιλή και πρακτικά OCR: Υποστήριξη πάρα πολλών Formats.

18 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 18 Περιβάλλον του FineReader Κείμενο

19 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 19 Εφαρμογές στο FineReader Αυτοματοποιημένες διαδικασίες: –(1) File (PDF/Image) to Microsoft Word –(2) Photo to Microsoft Word Κείμενο με κανονικά μεγέθη γραμματοσειράς. Κείμενο με μικρά μεγέθη γραμματοσειράς. Κείμενο όπου χρειάζεται ρύθμιση φωτεινότητας. Κείμενο από ΦΑΞ και Εφημερίδας. Άλλες Περιπτώσεις.

20 31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 20 Ευχαριστώ


Κατέβασμα ppt "Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google