Παρουσίαση Πτυχιακής Εργασίας Διόρθωση της τοπικής καμπυλότητας των ψηφιακών εγγράφων Φοιτητής Ντιρογιάννης Κώστας Επιβλέποντες Θεοδωρίδης Σέργιος, καθηγητής τμήματος Πληροφορικής κ Τηλ/νιών Γάτος Βασίλειος, ερευνητής Γ’ ΕΚΕΦΕ «Δημόκριτος»
Περιεχόμενα πτυχιακής Εισαγωγή Περιγραφή των βασικότερων τεχνικών διόρθωσης της τοπικής καμπυλότητας Ανάλυση της προτεινόμενης τεχνικής Πειραματικά αποτελέσματα Συμπεράσματα Παρουσίαση προγράμματος
1. Εισαγωγή - γενικά Αιτίες εμφάνισης της καμπυλότητας: Σάρωση βιβλίων (μεγάλου όγκου) Λήψη φωτογραφιών εικόνων κειμένου Παλαιότητα του εγγράφου Χρησιμότητα διόρθωσης καμπυλότητας: Βελτίωση της οπτικής αναγνώρισης των χαρακτήρων (OCR)
1. Εισαγωγή – Τεχνικές διόρθωσης της καμπυλότητας Κατηγορίες τεχνικών: Τεχνικές δυσδιάστατης επεξεργασίας Τεχνικές τρισδιάστατου μοντέλου Κατηγορία προτεινόμενης τεχνικής: Δυσδιάστατη επεξεργασία
1. Εισαγωγή – Αναφορά στις τεχνικές τρισδιάστατου μοντέλου Τεχνικές με απαραίτητο τον ειδικό εξοπλισμό + διόρθωση τυχαίας καμπυλότητας - ειδικός εξοπλισμός
1. Εισαγωγή – Αναφορά στις τεχνικές τρισδιάστατου μοντέλου Τεχνικές χωρίς ειδικό εξοπλισμό + μη απαίτηση ειδικού εξοπλισμού - διόρθωση μόνο καμπυλότητας κυλινδρικού τύπου
2. Περιγραφή βασικότερων τεχνικών Τεχνικές αναπαράστασης της καμπυλότητας μέσω ενός μοντέλου (model fitting) – Τεχνικές Wu και Ezaki Τεχνικές διόρθωσης της καμπυλωμένης περιοχής με βάση τη σκιασμένη περιοχή (shape from shading) – Τεχνική Zhang Τεχνικές τοπικής διόρθωσης της καμπυλότητας – Τεχνική Ulges και προτεινόμενη τεχνική
Τεχνική Wu - 1 Μαρκάρισμα της περιοχής κειμένου από το χρήστη (τέσσερα γωνιακά σημεία) plt (left top), plb (left bottom), prt και prb
Τεχνική Wu - 2 Εντοπισμός του σημείου εκκίνησης και του προσανατολισμού των γραμμών κατά μήκος της πλευράς plb-plt, με βάση το άθροισμα των οριζόντιων προβολών
Τεχνική Wu - 3 Εντοπισμός των γραμμών του κειμένου με αθροιστική προβολή σε ένα εύρος διευθύνσεων
Τεχνική Wu - 4 Αφαίρεση λανθασμένων γραμμών κειμένου: οι γραμμές που δε φτάνουν ως τη δεξιά πλευρά του τετραπλεύρου Με βάση το μέσο προσανατολισμό ανά στήλη, εξαιρούνται οι γραμμές με προσανατολισμό μεγαλύτερο από ένα κατώφλι
Τεχνική Wu - 5 Κατασκευή πλέγματος Οριζόντιες γραμμές, οι γραμμές που εντοπίστηκαν Κάθετες γραμμές, με το διαχωρισμό κάθε οριζόντιας γραμμής σε ένα προκαθορισμένο αριθμό τμημάτων
Τεχνική Wu - 6 Τελική διόρθωση με μετασχηματισμό πλέγματος
Τεχνική Ezaki - 1 Το μοντέλο σκέβρωσης της εικόνα εκτιμάται με τη βοήθεια ενός συνόλου από cubic splines (καμπύλες γραμμές με τρία σημεία ελέγχου). Κάθε cubic spline ταιριάζεται μη γραμμικά με μια γραμμή κειμένου ή με ένα κενό ανάμεσα στις γραμμές. Τα splines γίνονται βέλτιστα καθολικώς (optimized globally), δηλαδή προσαρμόζονται ανάλογα για να βελτιστοποιούν την όλη εικόνα και όχι τη γειτονία στην οποία βρίσκονται. Αυτό έχει ως αποτέλεσμα τα splines να αλληλοεξαρτώνται για την βελτιστοποίησή τους.
Τεχνική Ezaki - 2 Για εικόνα με ύψος H (Height) και πλάτος W (Width), χρησιμοποιούνται H το πλήθος cubic splines Κάθε cubic spline ελέγχεται από τρία σημεία: P(αi,1), κινείται κάθετα στην πρώτη στήλη κατά αi. Q(i,βi), κινείται οριζόντια κατά βi στην γραμμή i. R(γi,W), κινείται κάθετα στην τελευταία (W-ιοστή) στήλη. Περιορισμοί για τα μεγάλα κενά και τις τομές ανάμεσα σε διπλανά splines (παράλληλα αυξάνεται η ευρωστία για τις διάφορες τοπικές ανωμαλίες που εμφανίζονται)
Τεχνική Ezaki - 3 Για την καθολική βέλτιστη μοντελοποίηση της καμπυλότητας, χρησιμοποιείται δυναμικός προγραμματισμός
Τεχνική Ezaki - 4 Καλύτερα αποτελέσματα με διαχωρισμό της εικόνας σε υποεικόνες και εφαρμογή της μεθόδου σε κάθε υποεικόνα
Τεχνική Zhang - 1 Χωρισμός της εικόνας σύμφωνα με τη σκιά Εύρεση συνδεδεμένων συστατικών (ΣΣ) της (δυαδικοποιημένης) εικόνας Ταξινόμηση των ΣΣ σε χαρακτήρες και σύμβολα
Τεχνική Zhang - 2 Δύο γραμμές αναφοράς υπολογίζονται για κάθε γραμμή του κειμένου της καθαρής περιοχής y=mx+c Τα σημεία που χρησιμοποιούνται είναι τα πάνω και κάτω κέντρα των παραλληλογράμμων που περικλύουν τα ΣΣ (bounding boxes)
Τεχνική Zhang - 3 Υπολογισμός κατωφλίου D ώστε: κενό μεταξύ χαρακτήρων μιας λέξης < D < κενό μεταξύ των λέξεων κατακόρυφη προβολή κατά μήκος κάθε γραμμής και παρατήρηση των μηδενικών στο ιστόγραμμα Δύο περιοχές (κορυφές) ξεχωρίζουν Κενό μεταξύ χαρακτήρων Κενό μεταξύ λέξεων
Τεχνική Zhang - 4 Εντοπισμός λέξεων της σκιαμένης περιοχής με βάση την τιμή D Δύο συνδεδεμένα συστατικά ανήκουν στην ίδια λέξη αν η μεταξύ τους ευκλείδια απόσταση είναι μικρότερη από D Ομαδοποίηση των λέξεων στις καμπύλες γραμμές με τη μέθοδο box-hands Τα χεράκια εισάγονται στις λέξεις και με την επικάλυψή τους εντοπίζονται οι καμπύλες γραμμές
Τεχνική Zhang - 5 Υπολογισμός καμπύλων γραμμών αναφοράς για τις καμπύλες γραμμές κειμένου. Τα σημεία που χρησιμοποιούνται είναι τα κέντρα των πάνω και κάτω πλευρών των ΣΣ
Τεχνική Zhang - 6 Εισαγωγή χεριών στις άκρες των ευθείων γραμμών, με σκοπό την ενοποίησή τους με τις καμπύλες γραμμές. Η τελική διόρθωση επιτυγχάνεται με την σωστή τοποθέτηση των ΣΣ που ανήκουν στις καμπύλες γραμμές, ώστε να ανήκουν πλέον στις αντίστοιχες ευθείες
Τεχνική Ulges - 1 Εύρεση των ΣΣ Ταξινόμηση των ΣΣ σε γραμμές κειμένου με τα παρακάτω κριτήρια: Επικαλύψεις των κουτιών (bounding boxes) των ΣΣ Σύμφωνα με μια δεδομένη απόσταση
Τεχνική Ulges - 2 Για την εύρεση της τοπικής κλίσης κάθε γράμματος χρησιμοποιούνται επιπλέον ορισμένα γειτονικά γράμματα Η εύρεση της κλίσης κάθε γράμματος γίνεται με αλγόριθμο εύρεσης baseline
Τεχνική Ulges - 3 Κατασκευή κελιών που περικλύουν τα γράμματα Η κάτω πλευρά είναι η γραμμή που βρέθηκε από τον αλγόριθμο baseline μετατοπισμένη για να μην διαπερνά τα «χαμηλά» γράμματα Η πάνω είναι η γραμμή που βρέθηκε στην αμέσως προηγούμενη γραμμή με τον ίδιο τρόπο. Οι πλαϊνές πλευρές είναι κάθετες και περνούν απο το κέντρο που βρίσκεται ανάμεσα στα δυο γράμματα
Τεχνική Ulges - 4 Ο υπολογισμός του βάθους γίνεται με την υπόθεση ότι η απόσταση μεταξύ των γραμμών (line spacing) είναι γενικά ομοιόμορφη (σταθερή) σε όλο το αρχικό κείμενο Για κάθε γράμμα υπολογίζεται διαφορετική τιμή βάθους Κάθε κελί μετασχηματίζεται σε ένα κελί σωστού μεγέθους και προσανατολισμού στην τελική διορθωμένη εικόνα
Προτεινόμενη τεχνική - 1 Στάδια μεθοδολογίας Δυαδικοποίηση Εύρεση συνδεδεμένων συστατικών (ΣΣ) Εντοπισμός γραμμών και λέξεων Εύρεση ανώτερης και κατώτερης γραμμής (upper/lower baseline) για τον εντοπισμό της κλίσης των λέξεων Στροφή και μετατόπιση των λέξεων Ανακατασκευή της διορθωμένης grayscale εικόνας
Προτεινόμενη τεχνική - 2 Δυαδικοποίηση της εικόνας (μέθοδος προσαρμοσμένης κατωφλίωσης Kamel & Zhao)
Προτεινόμενη τεχνική - 3 Εύρεση συνδεδεμένων συστατικών (ΣΣ) Εύρεση των παραλληλογράμμων που περικλύουν τα ΣΣ (bounding boxes)
Προτεινόμενη τεχνική - 4 Εύρεση επικρατέστερου ύψους των ΣΣ Hmax από το ιστόγραμμα με τα ύψη των bounding boxes Τροποποιημένη μέθοδος box-hands για τον εντοπισμό γραμμών και λέξεων Οι τροποποιήσεις αφορούν Την παραμετροποίηση του μήκους των χεριών για τον εντοπισμό τόσο των γραμμών όσο και των λέξεων Η μη συμμετοχή του bounding box λόγω πυκνής γραφής στα χειρόγραφα
Προτεινόμενη τεχνική - 5 Mέθοδος box-hands της προτεινόμενης τεχνικής Τα συνδεδεμένα συστατικά με ύψος hi που ικανοποιούν την ακόλουθη συνθήκη συμμετέχουν στη μέθοδο:
Προτεινόμενη τεχνική - 6 Εφαρμογή της νέας μεθόδου box-hands για τον εντοπισμό των γραμμών και των λέξεων του κειμένου
Προτεινόμενη τεχνική - 7 Νέα εύρεση συνδεδεμένων συστατικών για τον εντοπισμό των γραμμών και των λέξεων του κειμένου Ορισμός εικόνας γραμμών και εικόνας λέξεων
Προτεινόμενη τεχνική - 8 Εύρεση ανώτερης και κατώτερης βασικής γραμμής (upper/lower baseline) Υπολογισμός κατώτερων σημείων λέξης Εύρεση καλύτερης ευθείας για τα σημεία αυτά y=αx+β Εντοπισμός και εξαίρεση σημείου που απέχει περισσότερο από την ευθεία Νέα εύρεση ευθείας ώσπου η συνολική απόστασή της από τα σημεία που έχουν απομείνει να είναι μκρότερη από ένα όριο
Προτεινόμενη τεχνική - 9 Εύρεση κλίσης και στροφή των λέξεων η μικρότερη κλίση είναι συνήθως η πιο αντιπροσωπευτική
Προτεινόμενη τεχνική - 10 Στροφή της λέξης Wij (x,y) σύμφωνα με τη μικρότερη κλίση όπου Wrij(x,y) είναι η λέξη μετά τη στροφή και xmin είναι η αριστερή πλευρά του bounding box της λέξης Wij
Προτεινόμενη τεχνική - 11 Κατακόρυφη μετατόπιση των λέξεων ώστε οι λέξεις κάθε γραμμής να είναι ευθυγραμμισμένες Η μετατοπισμένη και στραμμένη λέξη Wrsij(xr, yr) Κάθε λέξη ευθυγραμμίζεται με την upper ή lower baseline της πρώτης λέξης, ανάλογα σε ποια baseline αντιστοιχεί η γωνία περιστροφής
Προτεινόμενη τεχνική - 12 Η διαδικασία της τοπικής διόρθωσης της καμπυλότητας
Προτεινόμενη τεχνική - 13 Ανακατασκευή της διορθωμένης grayscale εικόνας με την καθοδήγηση της διορθωμένης ασπρόμαυρης Για τα pixel στα οποία δεν έχουν αντιστοιχιστεί παράγοντες μετασχηματισμού, κληρονομούνται οι παράγοντες του κοντινότερου pixel
Πειραματικά αποτελέσματα - 1
Πειραματικά αποτελέσματα - 2
Πειραματικά αποτελέσματα - 3
Πειραματικά αποτελέσματα - 4
Πειραματικά αποτελέσματα - 5
Συμπεράσματα - 1 Αλγόριθμος εύρεσης των baselines όχι πάντα αντιπροσωπευτικός της κλίσης των λέξεων, ειδικά αν οι λέξεις καμπυλώνουν στο χώρο Μη κανονικοποίηση των χαρακτήρων ως προς το μέγεθος (διόρθωση της προοπτικής) Αλλοίωση εικόνων κατά την ανακατασκευή της grayscale εικόνας
Συμπεράσματα - 2
Συμπεράσματα - 3 Ικανοποιητικά αποτελέσματα Προτάσεις βελτίωσης Καλύτερος αλγόριθμος εύρεσης της κλίσης των λέξεων Διαχωρισμός των μεγάλων λέξεων σε μικρότερες
Δοκιμή OCR - 94.6% σε επίπεδο λέξεων και 98.3% σε επίπεδο χαρακτήρων