Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Έκθεση (μάθημα 3ο).
Advertisements

1 Προτεινόμενες πρακτικές για τη δημιουργία δικτυακών πυλών στις Περιφέρειες Νικόλαος Χατζηγεωργίου Παράρτημα Θράκης ΙΕΛ.
Δημιουργία Παρουσιάσεων με τη βοήθεια του PowerPoint
Πανεπιστήμιο Δυτικής Μακεδονίας Πανεπιστήμιο Δυτικής Μακεδονίας Παιδαγωγικό Τμήμα Νηπιαγωγών Τίτλος Μαθήματος Ενότητα # (bold): Τίτλος Ενότητας (normal)
Ο χώρος της Δευτεροβάθμιας Οικονομικής Εκπαίδευσης στο διαδίκτυο
Γυμνάσιο Νέας Κυδωνίας
ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ 1 ο Λύκειο Ρόδου Δημητρης Γεωργαλίδης.
Κίνητρα & Στόχοι εργασίας
ΑΛΛΑΓΕΣ ΣΤΗΝ ΕΠΙΚΟΙΝΩΝΙΑ
 Παρουσιάζοντας πολιτισμικό υλικό στα σχολεία
Ανάλυση Πολλαπλής Παλινδρόμησης
Σχεδιαστικά εργαλεία Διαχείριση σελίδων Βιβλιοθήκες αντικειμένων Διαχείριση αντικειμένων Επιφάνεια ψηφιακής μελάνης Πληκτρολόγιο οθόνης ΟΦΕΛΗ Αναγνώριση.
ΤΑΞΗ Γ ΓΥΜΝΑΣΙΟΥ Βασικές Έννοιες Επανάληψη (2).
Το υλικό του Υπολογιστή
Τεχνολογία Δικτύων Επικοινωνιών
Τεχνολογική επισκόπηση τοπικής και διαδικτυακής πρόσβασης στη βάση δεδομένων e-pyxis e-pyxis Αναστάσιος Κεσίδης, Αναστάσιος Κλείσας, Ευάγγελος Νόνας, Γεώργιος.
Μάθημα: Πληροφορική Οδοντιάτρων 4 ο εξάμηνο Ομάδα: Αργυρού Αντώνης Δαμιανού Στεφανία Ιωάννου Παναγιώτα
ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΤΕ 21,23/2/2005Πληροφοριακή σχεδίαση για πολιτισμική τεκμηρίωση και διαλειτουργικότητα1 Τεκμηρίωση.
ΔΙΥΛΙΣΤΗΡΙΑ ΠΕΤΡΕΛΑΙΟΥ ΣΗΜΕΡΑ
Αξιολόγηση εκπαιδευτικού λογισμικού DT Trainer
Από τη Θερμότητα στη Θερμοκρασία Η Θερμική Ισορροπία
Προσβάσιμα Βιβλία Βιβή Ρήγα Τμήμα Ηλεκτρονικής Προσβασιμότητας
Επεξεργασία Κειμένου Ονομ/νυμο Επιμορφωτή Επιμορφωτής: Ονομ/νυμο Επιμορφωτή ΥΠΕΠΘ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΕΠΙΜΟΡΦΩΣΗ.
ΚΕΝΤΡΟ ΠΟΛΙΤΙΣΜΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ I ΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ IΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΚΗΣ Σύστημα Τεκμηρίωσης, Διαχείρισης και.
Τομέας Πληροφορικής ΙΕΚ ΔΕΛΤΑ Θεσσαλονίκη
ΟΙ “ΜULTI-ΔΙΑΣΤΑΣΕΙΣ” ΤΩΝ MULTIMEDIA ΣΤΟ BLOG ΜΑΣ
Πολυμέσα – Δίκτυα (μαθ. επιλογής Γ’ Λυκείου)
Title of the presentation | Date |1 Καταγραφή απαιτήσεων ερευνητών ανθρωπιστικών επιστημών για γλωσσικούς πόρους και εργαλεία Δρ Νίκος Χούσος Εθνικό Κέντρο.
Ψηφιακές Βιβλιοθήκες Αποκατάσταση αρχαίας μουσικής σε ψηφιακές βιβλιοθήκες Εισηγητής: Σαράντος Καπιδάκης Σπουδάστρια: Μαρία Σίδερη ΑΘΗΝΑ 2008.
ΕΡΓΑΣΙΑ ΤΑΒ «484» «ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ» ΚΑΤΟΥΝΑ ΧΡΙΣΤΙΝΑ-Β ΝΙΚΟΛΑΟΥ ΑΝΤΩΝΙΑ-Β
Επιμορφωτής: Ονομ/νυμο Επιμορφωτή
Ψηφιακή Βιβλιοθήκη ΤΕΕ
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
Συντάκτης :Δομουχτσής Στέργιος Κατασκευή Ιστοσελίδας Αυτόματο σύστημα Σχολικού Δικτύου Iware.
Ελληνική Μαθηματική Εταιρεία Ιστορικό Ιδρυσης Το Μάρτη του 1918, μία ομάδα μαθηματικών αποφάσισε να δημιουργήσει την Ελληνική Μαθηματική Εταιρεία, με.
ΜΕΘΟΔΟΙ ΔΙΔΑΣΚΑΛΙΑΣ Δομιστική προσέγγιση (Ι)
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Υλικό/ Αρχιτεκτονική Ηλεκτρονικού Υπολογιστή
ΚΕΦΑΛΑΙΟ 3 ΠΟΛΥΜΕΣΑ.
Διεύθυνση Α/θμιας Εκπ/σης Ν. Σερρών Κατασκευή Ιστοσελίδας  Απόλυτα πεπεισμένοι πως η κοινωνία της γνώσης προσκαλεί αλλά και προκαλεί τα Στελέχη της Εκπαίδευσης.
Το περιεχόμενο ενός βιβλίου πρέπει να διαβαστεί από την αρχή ως το τέλος. Αυτού του είδους την πρόσβαση στην πληροφορία την ονομάζουμε γραμμική. Το 1965.
ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ ΔΙΕΘΝΗΣ ΨΗΦΙΑΚΗ ΒΙΒΛΙΟΘΗΚΗ ΓΙΑ ΠΑΙΔΙΑ: ΜΙΑ ΕΙΣΑΓΩΓΗ ΣΤΟ ΠΡΟΓΡΑΜΜΑ ΚΑΙ ΜΙΑ ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΑΡΧΙΚΩΝ ΕΡΕΥΝΗΤΙΚΩΝ ΣΥΜΠΕΡΑΣΜΑΤΩΝ. (IFLA,
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
Μελέτη για την Επίδραση των Προγραμμάτων Ψηφιοποίησης στη Διαχείριση και στη Σταθερότητα των Συλλογών με Ιστορικές Φωτογραφίες. Φοιτήτρια: Παγώνη Αποστολία.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
1 Πρώτη διαφάνεια Εξώφυλλο. 2 Εισαγωγή Παρουσίαση του θέματος.
Δομικά στοιχεία πολυμέσων
Τι ακριβώς είναι οι Η.Υ.; Είναι μηχανές που επεξεργάζονται δεδομένα – για την ακρίβεια επεξεργάζονται σύμβολα – και παράγουν πληροφορίες. Τα δεδομένα είναι.
1 + 1 = 12 Νέα Εκπαιδευτικά Λογισμικά για Κωφούς μαθητές
Περιφερειακό Επιχειρησιακό Πρόγραμμα Μακεδονίας - Θράκης
ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΣΩΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ.
ΦΩΤΟΑΝΑΠΑΡΑΓΩΓΗ ΚΑΙ ΧΕΙΡΙΣΜΟΣ ΓΡΑΦΕΙΑΚΗΣ ΥΛΗΣ. Φωτοαναπαραγωγή είναι η διαδικασία δημιουργίας αντίγραφων των διαφόρων εγγράφων. Τα κύρια στοιχεία που.
Τι είναι η Ψηφιακή Επιμέλεια; Πάνος Κωνσταντόπουλος Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό Κέντρο «Αθηνά» και Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο.
Ήχος Ως Δομικό στοιχείο των Πολυμέσων. Ήχος  Διευκολύνει την παρακολούθηση μιας εφαρμογής Ακουστικής απόλαυσης Εντυπωσιασμός μέσω των ηχητικών εφέ 
Ψηφιακή επεξεργασία εικόνας Άγγελος Μπάκας Δεκέμβριος 2008.
Αρχές Πληροφορικής Ενότητα # 13: Επεξεργασία κειμένου – LibreOffice #3
Ιστορικός Άτλας Centennia
Ψηφιακός Κόσμος Ιωάννα Γαρδίκη
Αρχές Πληροφορικής Ενότητα # 11: Επεξεργασία κειμένου - LibreOffice
Διανυσματικές & Ψηφιογραφικές Εικόνες
Εφαρμογές Πληροφορικής
ΚΑΤΑΣΚΕΥΗ ΙΣΤΟΕΞΕΡΕΥΝΗΣΗΣ ΣΤΟ
Δημιουργία ηλεκτρονικού βιβλίου
Πειραματικό Γυμνάσιο Πανεπιστημίου Μακεδονίας
Πειραματικό Γυμνάσιο Πανεπιστημίου Μακεδονίας
Εικόνα 10.1: Το Περιβάλλον του Επεξεργαστή Κειμένου Word του MS-Office
Κείμενο.
Δίκτυα Ι Βπ - 2ο ΕΠΑΛ ΝΕΑΣ ΣΜΥΡΝΗΣ 2011.
ΔΙΠΛΩΜΑΤΙΚΗ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γεώργιος Τζούμας (ΑΕΜ:45)  
Μεταγράφημα παρουσίασης:

Αναγνώριση Κειμένου Optical Character Recognition (OCR) Ελευθέριος Τιάκας ΕΠΙΜΟΡΦΩΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΜΕ ΣΥΓΧΡΟΝΟ ΚΑΙ ΑΣΥΓΧΡΟΝΟ ΤΡΟΠΟ Επιμορφωτική Ημερίδα Προτύπου-Πειραματικού ΓΕΛ Πανεπιστημίου Μακεδονίας

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 2 Είναι η αυτόματη (μηχανική ή ηλεκτρονική) αναγνώριση κειμένου ψηφιοποιημένων εικόνων ενός δακτυλογραφημένου ή τυπωμένου ή ακόμα και χειρόγραφου κειμένου. Τι είναι OCR;

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 3 Γιατί OCR; Χρησιμοποιείται ευρέως για τη μετατροπή διαφορετικών τύπων κειμένου (σκαναρισμένων, PDF, φωτογραφημένων κλπ.) σε κείμενο στο οποίο μπορεί να γίνει επεξεργασία ή οποιαδήποτε αναζήτηση. Σε ορισμένες περιπτώσεις είναι άκρως απαραίτητη, π.χ. σε βιβλιοθήκες και γραφεία όπου χιλιάδες βιβλία ψηφιοποιούνται για backup και αρχειοθέτηση. Ο scanner φωτογραφίζει το κείμενο τους και στη συνέχεια το μετατρέπει συνήθως σε PDF. Δεν μπορεί έτσι να γίνει οποιαδήποτε αναζήτηση ή επεξεργασία στο κείμενο.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 4 Γιατί OCR; Η αποθήκευση εικόνων απαιτεί σημαντικά μεγαλύτερο χώρο (ακόμα και συμπιεσμένες να είναι σε JPEG κλπ.) από ότι ένα κείμενο: Βιβλίο 100 σελίδων απαιτεί: Ψηφιοποιημένο σε μέτρια ποιότητα και συμπίεση εικόνων: περίπου 10 MB. Σε μορφή επεξεργάσιμου κειμένου: περίπου 20 ΚΒ.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 5 Τεχνολογία OCR Πάνω από 30 χρόνια έρευνας και εξέλιξης στα συστήματα αναγνώρισης κειμένου. Συνεχείς βελτιώσεις στην ποιότητα και την πιστότητα της αναγνώρισης. Τα πιο δημοφιλή λογισμικά OCR: –ABBYY Fine Reader –IRIS Read Iris –ExperVision –κλπ.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 6 Σύγκριση Πιστότητας OCR Αποτελέσματα σε πειράματα αναγνώρισης κειμένων με την ακραία χειρότερη ποιότητα εικόνας:

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 7 Ποιότητα εικόνας και OCR Η ποιότητα εικόνας είναι ο σημαντικότερος παράγοντας στην πιστότητα της αναγνώρισης κειμένων. Τα τυπωμένα κείμενα συχνά εμφανίζουν προβλήματα (μελάνι, ξεθώριασμα, κιτρίνισμα σελίδας λόγω παλαιότητας, κλπ.). Τα προβλήματα αυτά μεταφέρονται στο σκανάρισμα:

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 8 Ποιότητα εικόνας και OCR Ο προσανατολισμός και το πλάγιασμα της σελίδας δεν είναι πρόβλημα καθώς όλα τα σύγχρονα λογισμικά τον εντοπίζουν επιτυχώς. Ο προσανατολισμός όμως του κειμένου μεταξύ των γραμμάτων είναι επίσης σημαντικός (π.χ. τσαλάκωμα ή ζάρωμα σελίδας ή οποιαδήποτε άλλη αλλοίωση):

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 9 Πόσο έξυπνα είναι τα OCR; Όλες οι προηγούμενες δυσκολίες μπορεί να κάνουν τα συστήματα OCR να αποτύχουν παταγωδώς στην αναγνώριση του κειμένου: ~~~.I~~~ ~~i1~~ N/A ~~I~~ Παρόλα αυτά ακόμα και ένα μικρό παιδί θα μπορούσε να τα διαβάσει! Σε αυτό βασίζεται η δημιουργία των γνωστών CAPTCHAs:

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 10 Τι μπορούμε να βελτιώσουμε; Αν οι γραμματοσειρές είναι πολύ μικρές τότε χρειάζεται να αυξήσουμε την ανάλυση. Μία καλή πρακτική είναι να ρυθμίσουμε την ανάλυση: Στα 300 dpi για μεγέθη 10 και πάνω. Στα dpi για μεγέθη 9 και κάτω.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 11 Τι μπορούμε να βελτιώσουμε; Αν τα γράμματα είναι πολύ λεπτά ή ξεθωριασμένα: Μειώνουμε τη φωτεινότητα (brightness). και στις δύο περιπτώσεις επιλέγουμε την κλίμακα του γκρι (grayscale). Αν τα γράμματα είναι κολλημένα, παραμορφωμένα ή παραγεμισμένα: Αυξάνουμε τη φωτεινότητα (brightness).

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 12 Τι μπορούμε να βελτιώσουμε; Περιπτώσεις φαξ, εφημερίδων με έντονα τα προηγούμενα φαινόμενα: πάντα επιλέγουμε την κλίμακα του γκρι (grayscale).

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 13 Άλλες δυσκολίες Η αναγνώριση κειμένου μέσα σε φωτογραφίες. Ακόμα και αν επεξεργαστούμε την φωτογραφία η αναγνώριση του κειμένου θα έχει πολύ μικρή επιτυχία (<20%) Προτιμότερο να πληκτρολογήσουμε το κείμενο από το να διορθώσουμε τα λάθη που θα εμφανιστούν!

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 14 Άλλες δυσκολίες Η αναγνώριση γλωσσών που δεν υποστηρίζονται, π.χ. Αρχαίων Ελληνικών κλπ.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 15 Άλλες δυσκολίες Τα δημοφιλή λογισμικά OCR υποστηρίζουν τέτοιες γλώσσες μόνο με πολύ μεγάλη εκπαίδευση. Ο «Αναγνώστης» αναγνωρίζει Αρχαία Ελληνικά αλλά κοστίζει 585€ και δεν κάνει άριστη αναγνώριση πάντα. Tesseract: Λογισμικό ανοικτού κώδικα (Google).

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 16 Άλλες δυσκολίες Η αναγνώριση μαθηματικών και επιστημονικών τύπων και συμβόλων. Είναι πιο δύσκολο από ότι φαίνεται. Μεγάλη έρευνα και προσπάθειες για να γίνει κάτι λειτουργικό. Πολλά λογισμικά αποτυγχάνουν. Μία λύση;  ΙnftyReader

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 17 ABBYY FineReader Software Από τα πιο δημοφιλή και πρακτικά OCR: Υποστήριξη πάρα πολλών Formats.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 18 Περιβάλλον του FineReader Κείμενο

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 19 Εφαρμογές στο FineReader Αυτοματοποιημένες διαδικασίες: –(1) File (PDF/Image) to Microsoft Word –(2) Photo to Microsoft Word Κείμενο με κανονικά μεγέθη γραμματοσειράς. Κείμενο με μικρά μεγέθη γραμματοσειράς. Κείμενο όπου χρειάζεται ρύθμιση φωτεινότητας. Κείμενο από ΦΑΞ και Εφημερίδας. Άλλες Περιπτώσεις.

31/3/2015 Επιμόρφωση στις νέες τεχνολογίες 20 Ευχαριστώ