Σύστημα Αυτόματης Επεξεργασίας Εγράφου και Αναγνώρισης Χειρόγραφων Χαρακτήρων, Ανεξάρτητο Συγγραφέα
Δομή Παρουσίασης Το πρόβλημα Οπτικής Αναγνώρισης Χαρακτήρων (OCR) Στόχοι Παρουσίαση Συστήματος – Ανάλυση Modules Πειραματικά Δεδομένα Πειραματικά Αποτελέσματα Συμπεράσματα - Προοπτικές
Οπτική Αναγνώριση Χαρακτήρων (OCR) Ορισμός Η μετατροπή εικόνων κειμένων ή λέξεων, τυπωμένων ή χειρόγραφων (ICR), σε ηλεκτρονικό κείμενο.
Οπτική Αναγνώριση Χαρακτήρων (OCR) Ιστορική Αναδρομή 19ος αιώνας: πατέντες αναγνώρισης χαρακτήρων για τηλέγραφο. 1916: εμπορικά πακέτα για τηλέγραφο. 1950: εμπορικά πακέτα αναγνώρισης τυπωμένων ψηφίων. 1960: ανάλυση εικόνων εγγράφων (DIA).
Ιστορική Αναδρομή (συν.) Οπτική Αναγνώριση Χαρακτήρων (OCR) Ιστορική Αναδρομή (συν.) 1965: εγκατάσταση αναγνωστών για τυπωμένες ταχ.διευθύνσεις. 1971: πρώτο περιοδικό στο OCR (Pattern Recognition). 1980: Συσκευές ανάγνωσης τυπωμένων και μεμονωμένων χειρόγραφων χαρακτήρων.
Συστημάτα Επεξεργασίας Γραφής Οπτική Αναγνώριση Χαρακτήρων (OCR) Συστημάτα Επεξεργασίας Γραφής Αναγνώρισης Γραφής Κατανόησης Γραφής Προσδιορισμού Συγγραφέα Αναγνώρισης Υπογραφής
Συστήματα Αναγνώρισης Γραφής Οπτική Αναγνώριση Χαρακτήρων (OCR) Συστήματα Αναγνώρισης Γραφής Ως προς τον τρόπο εισόδου δεδομένων: On-line Off-line Ως προς το είδος των δεδομένων: μεμονωμένων χαρακτήρων συνεχόμενης γραφής γραφής χωρίς περιορισμούς
Στόχοι Δημιουργία οff-line συστήματος οπτικής αναγνώρισης γραφής χωρίς περιορισμούς. Ανεξάρτητο συγγραφέα. Με κατάτμηση σε χαρακτήρες. Υψηλής ακρίβειας.
Στόχοι Γρήγορης ανταπόκρισης. Εύκολα εκπαιδεύσιμο. Εύκολα προσαρμόσιμο σε συγκεκριμένη γλώσσα. Εύκολα προσαρμόσιμο σε συγκεκριμένο συγγραφέα.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής με Εφαρμογή Wigner-Ville Κατανομής. Διάκριση χειρόγραφου και τυπωμένου κειμένου Διόρθωση Κλίσης Χαρακτήρων με Κατάτμηση σε Χαρακτήρες με Αυτόματη Εξαγωγή Κανόνων. Αναγνώριση βασισμένη σε νέα Μορφολογικά Χαρακτηριστικά. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Επεξεργασία Εγγράφου Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Διόρθωση Γωνίας Εκτροπής Εγγράφου Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου Γωνία εκτροπής -42.1°
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Τεχνικές Συνήθεις τεχνικές σε χρήση (O’Gorman, 1993): Ιστογράμματα Πλησιέστεροι Γείτονες Μετασχηματισμός Hough
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Μειονεκτήματα Συνήθη μειονεκτήματα που αντιμετωπίζουμε: Μεγάλο υπολογιστικό κόστος Χειρόγραφα έγγραφα Παρουσία πλαισίων, γραφικών, φωτογραφιών κ.α. Μεγάλες γωνίες κλίσης (89o)
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου Χρήση οριζοντίου ιστογράμματος και κατανομής Wigner-Ville. Χρήση μέρους της σελίδας για μείωση υπολογιστικού κόστους. Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Step=1 Διορθωμένο έγγραφο Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Έγγραφο Διορθωμένο έγγραφο Step=10 Step=0.1
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Step=1 Διορθωμένο έγγραφο Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Έγγραφο Διορθωμένο έγγραφο Step=10 Step=0.1
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα
Απόδοση Αλγορίθμου Διόρθωσης Γωνίας Εκτροπής Παρουσίαση Συστήματος – Ανάλυση Modules Απόδοση Αλγορίθμου Διόρθωσης Γωνίας Εκτροπής CPU χρόνος 4.1-4.6 sec σε Pentium III 350Mhz. Απόδοση ανεξάρτητη ανάλυσης (resolution), παρουσίας πινάκων, γραφικών, είδος και οργάνωσης κειμένου. Ακρίβεια πάνω από 100% για ανοχή 0.3ο
Παρουσίαση Συστήματος – Ανάλυση Modules Σύγκριση με άλλες μεθόδους
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός χειρόγραφου κειμένου Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Διαδικασία Κατάτμηση εγγράφου σε περιοχές (CC) Ξεκαθάρισμα περιοχών (θόρυβος, γραμμές) Εντοπισμός συστατικών κάθε περιοχής (λέξεις, γράμματα) Εισαγωγή εγγράφου Κατάταξη περιοχών (βάσει συστατικών) σε χειρόγραφες ή μη Χειρόγραφο
Απόδοση Αλγορίθμου Εντοπισμού Χειρόγραφου Κειμένου Παρουσίαση Συστήματος – Ανάλυση Modules Απόδοση Αλγορίθμου Εντοπισμού Χειρόγραφου Κειμένου Ακρίβεια 96% επί των εντοπισμένων περιοχών. CPU χρόνος 15 sec / παράθυρο 600x600pixels. Το υπόλοιπο 4% είναι συνήθως μικρές περιοχές με ανεπαρκή πληροφορία.
Εντοπισμός Χειρόγραφου Κειμένου – Παράδειγμα Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Παράδειγμα
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Γραμμές Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Γραμμές
Κατάτμηση σε Γραμμές - Διαδικασία Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Γραμμές - Διαδικασία Τροποποίηση της μεθόδου των Shridar and Kasturi. Χρήση οριζοντίου Ιστογράμματος. χειρόγρ. Εντοπισμός ορίων γραμμών στο Ιστόγραμμα Χάραξη μονοπατιού λευκών pixels από αριστερά προς δεξιά Κόψιμο και αποθήκευση γραμμών γραμμές
Απόδοση Αλγορίθμου Τεμαχισμού σε Γραμμές Παρουσίαση Συστήματος – Ανάλυση Modules Απόδοση Αλγορίθμου Τεμαχισμού σε Γραμμές άριστη αντιμετώπιση περιπτώσεων καλά διαχωρισμένων γραμών. εισαγωγή θορύβου στην αντίθετη περίπτωση.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Διόρθωση Κλίσης Χαρακτήρων Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων
Διόρθωση Κλίσης Χαρακτήρων - Τεχνικές Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Τεχνικές Συνήθεις τεχνικές σε χρήση: Μέση κλίση κάθετων ή σχεδόν κάθετων γραμμών. Μεταβολή περιγραμμάτων χαρακτήρων.
Διόρθωση Κλίσης Χαρακτήρων - Μειονεκτήματα Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Μειονεκτήματα Συνήθη μειονεκτήματα που αντιμετωπίζουμε: Μεγάλο υπολογιστικό κόστος Εξάρτηση από χαρακτήρες.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Χαρακτηριστικά Χρήση κάθετου ιστογράμματος γραμμής και κατανομής Wigner-Ville. Χρήση τμημάτων λέξεων κατά την ανίχνευση για μείωση υπολογιστικού κόστους. Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.
Τα περισσότερα γράμματα έχουν περίπου ίσο πλάτος με ύψος, wchc: Παρατηρήσεις Τα περισσότερα γράμματα έχουν περίπου ίσο πλάτος με ύψος, wchc: Εξαιρέσεις: Γράμματα με ουρές προς τα πάνω (ascenders) ή κάτω (descenders): Iσχύει η παρατήρηση 1 αν αφαιρέσουμε τις ουρές. Οι χαρακτήρες ι,i,j,l,t , όπου προσεγγιστικά wchc/2. Οι χαρακτήρες ω,w,m, όπου προσεγγιστικά wc3hc/2.
Παρατηρήσεις Εντός των λέξεων είναι απίθανο να υπάρχει κενό πλάτους μεγαλύτερο του wc. Οι χειρόγραφες λέξεις απέχουν μεταξύ τους διάστημα πλάτους ενός τουλάχιστον χαρακτήρα wc.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV κλίσης Angle που μεγιστοποιεί την ένταση Διόρθωση κλίσης ως προς Angle Step=1 Διορθωμένες γραμμές Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV κλίσης Angle που μεγιστοποιεί την ένταση Διόρθωση κλίση ως προς Angle Γραμμές Διορθωμένες γραμμές Step=10
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV κλίσης Angle που μεγιστοποιεί την ένταση Διόρθωση κλίσης ως προς Angle Step=1 Διορθωμένες γραμμές Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step αντίστοιχων κατανομών WV κλίσης Angle που μεγιστοποιεί την ένταση Διόρθωση κλίση ως προς Angle Γραμμές Διορθωμένες γραμμές Step=10
Παρουσίαση Συστήματος – Ανάλυση Modules Σύγκριση με άλλες μεθόδους
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Κατάτμηση σε λέξεις Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Λέξεις
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Λέξεις Υπολογισμός κάθετων Ιστογραμμάτων Γραμμών Εντοπισμός κοιλάδων Ιστογραμμάτων με πλάτος > hc Κόψιμο και αποθήκευση λέξεων Γραμμές Λέξεις
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Κατάτμηση σε χαρακτήρες Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες - Πλεονεκτήματα Πλεονεκτήματα συστημάτων αναγνώρισης χαρακτήρων με κατάτμηση: Γενικότερες εφαρμογές (λεξικά, γλώσσες). Μεγαλύτερη ταχύτητα. Μειωμένες ανάγκες σε μνήμη.
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Συνήθεις Μέθοδοι Εφαρμογή εμπειρικών κανόνων: αδυναμία εύρεσης όλων των κανόνων. Αυτόματη εξαγωγή κανόνων με στατιστικές μεθόδους (Markov Models, Neural Networks): εξαγωγή δυσνόητων κανόνων για περαιτέρω επεξεργασία.
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Τεχνική Προεπεξεργασία Εντοπισμός όλων των πιθανών ορίων Εξαγωγή Διανυσμάτων Κατάργηση των μη-ορίων Χαρακτήρες Λέξη
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Απόδοση Αλγορίθμου
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Εικόνα Εγγράφου Κατάτμηση σε γραμμές Διόρθωση κλίσης Αναγνώριση Χαρακτήρων Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης
Παρουσίαση Συστήματος – Ανάλυση Modules Αναγνώριση Χαρακτήρων – Συνήθεις Μέθοδοι Οι προτεινόμενες τεχνικές αναγνώρισης ποικίλουν ως προς: Εξαγωγή Χαρακτηριστικών (στατιστικά ή περιγραφικά). Μέθοδοι Κατηγοριοποίησης (K-means, Markov Models, Νευρωνικά δίκτυα, γράφοι).
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Τεχνική Επιλογή περιγραφικών χαρακτηριστικών (Bunke, 1985, Pavlidis 2000) Kατηγοριοποίηση με Κ-means Κείμενο Εξαγωγή Διανυσμάτων Κατηγοριοποίηση με Κ-means Χαρακτήρες Προεπεξεργασία
Αρχική μήτρα χαρακτήρα Προεπεξεργασία Οριζόντια Προβολή Κάθετη Προβολή Κανονικ. Χαρακτ. Καθάρισμα χαρακτήρα Ακτινική Προβολή Αρχική μήτρα χαρακτήρα Ακτ. Εξωτ. Profile Ακτ. Εσωτ. Profile
Παρουσίαση Συστήματος – Ανάλυση Modules Αναγνώριση Χαρακτήρων – Εκπαίδευση Δεδομένα από τις βάσεις GRUHD, NIST, IAM-DB. 2000 δείγματα ανά χαρακτήρα. Κατηγοριοποίηση με K-means σε 128 κλάσεις/χαρακτήρα
Πειραματικά Δεδομένα GRUHD Βάση Δεδομένων Βάση Ελληνικών χαρακήρων, ψηφίων και άλλων συμβόλων. Συγκεκριμένο κείμενο γραμμένο χωρίς περιορισμούς (unconstrained). 1000 συγγραφέων. Τουλάχιστον 2500 δείγματα ανά σύμβολο.
Πειραματικά Δεδομένα NIST Βάση Δεδομένων Αμερικάνικη βάση Λατινικών χαρακήρων, ψηφίων και άλλων συμβόλων. Συγκεκριμένο κείμενο γραμμένο καθαρά (handprinted). 3700 συγγραφέων. Τουλάχιστον 2600 δείγματα ανά σύμβολο.
Πειραματικά Δεδομένα IAM-DB Βάση Δεδομένων Ελβετική βάση Λατινικών κειμένων γραμμένων χωρίς περιορισμούς. Κείμενα αποσπάσματα της βάσης Lancaster-Oslo-Bergen (LOB). 1000 συγγραφέων.
Πείραμα 1o: Εκπαίδευση από NIST δοκιμή στη NIST Πειραματικά Αποτελέσματα Πείραμα 1o: Εκπαίδευση από NIST δοκιμή στη NIST 1η Επιλογή 2η Επιλογή 3η Επιλογή Ψηφία 98.8% 99.91 100% Κεφαλαία 93.85% 96.54 98.86% Πεζά 91.4% 94.50% 98.85% Μικτά 82.79 89.27% 96.85%
Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD Πειραματικά Αποτελέσματα Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD 1η Επιλογή 2η Επιλογή 3η Επιλογή Ψηφία 94% 97.42% 99,54% Κεφαλαία 86.03% 96.40% 98.96% Πεζά 81% 90.36% 96.60% Μικτά 72.8% 80.04% 88.83%
Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD Πειραματικά Αποτελέσματα Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD Σε συνεχόμενο κείμενο: 65.6%-72.4% όταν λαμβάνεται υπ’όψιν η πρώτη επιλογή. Πάνω από 80% όταν λαμβάνεται υπ’όψιν και η δέυτερη επιλογή.
Πείραμα 3o: Εκπαίδευση από NIST δοκιμή στη IAM-DB Πειραματικά Αποτελέσματα Πείραμα 3o: Εκπαίδευση από NIST δοκιμή στη IAM-DB Σε συνεχόμενο κείμενο: 71%-75.8% όταν λαμβάνεται υπόψιν η πρώτη επιλογή. Πάνω από 80% όταν λαμβάνεται υπόψιν και η δέυτερη επιλογή.
Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - NIST Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - NIST Ψηφία Κεφαλαία Ψηφία Πεζά Μικτά
Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - GRUHD Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - GRUHD Ψηφία Κεφαλαία Πεζά Μικτά
Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - NIST Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - NIST Ψηφία Κεφαλαία Πεζά Μικτά
Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - GRUHD Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - GRUHD Ψηφία Κεφαλαία Πεζά Μικτά
Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - NIST Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - NIST Ψηφία Κεφαλαία Πεζά Μικτά
Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - GRUHD Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - GRUHD Ψηφία Κεφαλαία Πεζά Μικτά
Ακρίβεια Συναρτήσει Πλήθους Συγγραφέων Πειραματικά Αποτελέσματα Ακρίβεια Συναρτήσει Πλήθους Συγγραφέων 1η επιλογή 2η επιλογή 3η επιλογή 1ος συγγραφέας 93.38 96.75 97.88 2ος συγγραφέας 82.35 96,08 3ος συγγραφέας 86,38 90,62 8 κλάσεις αντί 128, 8 δείγματα ανά χαρακτήρα αντί 2000.
Πειραματικά Αποτελέσματα Πίνακας Συσχέτισης Νist
Πειραματικά Αποτελέσματα Υπολογιστικός Χρόνος
Παρουσίαση Συστήματος – Ανάλυση Modules Σύγκριση με άλλες μεθόδους
Πειραματικά Αποτελέσματα Παράδειγμα possilililiy tlat thi govemment mnght invohe the Public Ordir act , tgjb , and declare the whob ralby illegal – whitter the demomhators ut clown or not – uas bang diuuned in whilehall last mght . Jt uas last iised a year ago , to cleal with the St. Pancras sent nots . Toclay Mr. Butfr will have talhs with Rlici Comnimioner hi Joseph hmpson to clraw up linal plans for the n Battb of Parliument Guaren Nmp
Πειραματικά Αποτελέσματα Παράδειγμα μ(μ,μ)ς(ε,ς) τ(τ,ζ)ω(ι,ι) (κ,κ)α(ο,ο)φ(μ,ρ)δ(δ,γ)ι(ι,υ)α(δ,α) μ(ρ,ρ)ε(ι,ν) τ(τ,τ)ι(ι,ς) π(π,η)κ(κ,ν)ο(ο,ο)ξ(η,η) τ(τ,τ)ι(ι,ι) π(η,π)ο(σ,ο)θ(θ,ς)ο(α,ο)ω(ν,κ)ε(ι,ι)ς(ξ,ς) κ(χ,κ)α(α,α)η(κ,ι) ι(ι,τ) π(β,κ)α(α,α),ι)θ(θ,δ)ο(α,σ)ι(ς,ς) π(π,π)ν(ν,τ)ρ(λ,χ)α(α,α)μ(ν,γ)β(ε,β) ο(α,α)ν(ι,φ) ζ(σ,ξ)κ(ω,ι)ξ(η,π) μ(υ,γ)α(α,α)ς(δ,ς)ι(ι,ς)λ(τ,χ)α(α,ο) θ(δ,δ)σ(ο,α)ς(ς,δ) κ(χ,κ)υ(ι,ι) α(α,ω)χ(λ,λ)χ(χ,λ)α(α,α)ζ(δ,ξ)α(α,α)ψ(μ,ς)ε(ε,ε) ξ(ζ,ξ)ω(β,κ)χ(χ,η)
Επιλογή Παραθύρου προς Χρήση Παρουσίαση Συστήματος – Ανάλυση Modules Επιλογή Παραθύρου προς Χρήση Σάρωση εγγράφου με επικαλυπτόμενα κατά το ήμισυ παράθυρα μεγέθους 600x600. Καταμέτρηση των μαύρων pixels του παράθυρου D. Καταμέτρηση των εναλλαγών από μαύρα σε άσπρα pixels και αντίστροφα C. Επιλογή του παράθυρου που μεγιστοποιεί το γινόμενο C*D.
Κατανομή Wigner-Ville Παρουσίαση Συστήματος – Ανάλυση Modules Κατανομή Wigner-Ville
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Διαδικασία
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Διαδικασία
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Κριτήρια Κατάταξης Συστατικών Πυκνότητα μαύρων pixels. Μεταβολή ύψους συστατικών μιας περιοχής. Μέση κάθετη συσχέτιση περιοχής:
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Κριτήρια Κατάταξης Συστατικών Οριζόντια συμμετρία συστατικών. Κάθετη συμμετρία συστατικών. Συμμετρία κέντρου συστατικών. Λόγος πλάτους ως προς το ύψος συστατικών.
Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Κανόνες Κατάταξης Συστατικών Εφαρμόζονται με τη σειρά οι κανόνες: 0.3 < Πυκνότητα μαύρων pixels <0.6 χειρόγραφο. πλήθος διακεκρ. σε ύψος συστατικών/πλήθος συστ.<1 τυπωμένο. Άθροισμα συμμετριών <1.5 χειρόγραφο. Άθροισμα συμμετριών >1.9 τυπωμένο. Μέσος λόγος πλάτος ως προς ύψος συστ.>2.48 χειρόγραφο, αλλιώς τυπωμένο.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων – Επιλογή Τμημάτων προς Χρήση Υπολογισμός κάθετων Ιστογραμμάτων γραμμών. Υπολογισμός ύψους κυρίου σώματος χαρακτήρων hc Εντοπισμός κοιλάδων Ιστογραμμάτων με πλάτος Τ> hc/2 Επιλογή των Ν τμημάτων με το μεγαλύτερο μήκος που εμπεριέχονται μεταξύ των κοιλάδων.
Υπολογισμός Υψους Κυρίους Σώματος Λέξης Hc Υπολογισμός του Ιστογράμματος ενός τμήματος γραμμής. Έυρεση μεγίστου Ιστογράμματος (peak) Εύρεση σημείων που η τιμή του Ιστογράμματος πέφτει κάτω από το 1/3 peak, πριν (πάνω όριο) και μετά (κάτω όριο) το peak.
Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων – Χρήση Κατανομής Wigner-Ville
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Προεπεξεργασία Εντοπισμός κυρίου σώματος λέξης Υπολογισμός καθ. Ιστογραμ. κυρίου σώματος Εντοπισμός πιθανών ορίων από τα ελάχιστα του ιστογράμματος Λέξη εισόδου Όροι: Τα όρια να απέχουν μεταξύ τους τουλάχιστον hc/2. Τα όρια να μην ξεπερνούν σε πλήθος το: μήκος λέξης hc/2
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Εξαγωγή Διανυσμάτων τη θέση τομής ορίου-χαρακτήρα (αν υπάρχει) κανονικοποιημένη ως προς το hc. Τιμή κάθετου ιστογράμματος στο σημείο τομής. Πλάτος τμήματος κανονικοποιημένο ως προς το hc. - Τις θέσεις των δυο μεγαλύτερων κάθετων γραμμών (αν υπάρχουν) στο τμήμα. - Τις θέσεις των δυο μεγαλύτερων οριζόντιων γραμμών (αν υπάρχουν) στο τμήμα.
Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Κατάργηση των μη ορίων Αυτόματη εξαγωγή κανόνων με τη μέθοδο της Εκμάθησης Βάσει Μετασχηματισμών (Stamatatos, et al., 1999).
Εκμάθησης Βάσει Μετασχηματισμών (Stamatatos, et al., 1999). Λέξεις με όλα τα πιθανά όρια Αρχικοποίηση Σύνολο κανόνων Σώμα Απομάκρυνση μη ορίων εκπαίδευσης Χαρακτήρες
Εκπαίδευση Μεθόδου Μετασχηματισμών 350 λέξεις από 250 διαφορετικούς συγγραφείς (βάση GRUHD).