Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

- Bonus: Μέχρι 5 (δυνατότητα επέκτασης σε απαλλακτική) - Software: - Όλα τα ενδιάμεσα στάδια των αλγορίθμων θα πρέπει να μπορούν να εμφανίζονται αν το.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "- Bonus: Μέχρι 5 (δυνατότητα επέκτασης σε απαλλακτική) - Software: - Όλα τα ενδιάμεσα στάδια των αλγορίθμων θα πρέπει να μπορούν να εμφανίζονται αν το."— Μεταγράφημα παρουσίασης:

1 - Bonus: Μέχρι 5 (δυνατότητα επέκτασης σε απαλλακτική) - Software: - Όλα τα ενδιάμεσα στάδια των αλγορίθμων θα πρέπει να μπορούν να εμφανίζονται αν το έχει επιλέξει ο χρήστης. - Οι βασικοί παράμετροι που χρησιμοποιούνται στο πρόγραμμα να εμφανίζονται σε ειδική φόρμα (ρυθμίσεις). - Το κείμενο που θα συνοδεύει την εργασία θα πρέπει να περιγράφει - (α) την μεθοδολογία, - (β) το πρόγραμμα, - (γ) τα πειραματικά αποτελέσματα, - (δ) την ανασκόπηση της σχετικής βιβλιογραφίας (αν απαιτείται). Εργασίες – Γενικές οδηγίες

2 Εργασία 1. Αποτίμηση μεθόδων δυαδικής μετατροπής Εργασία 2. Αποτίμηση μεθόδων δυαδικής μετατροπής Εργασία 3. Αποτίμηση της μεθόδου δυαδικής μετατροπής των Kamel & Zhao Εργασία 4. Βελτίωση της ποιότητας των εγγράφων Εργασία 5. Απομάκρυνση συμβόλων του υποβάθρου. Εργασία 6. Διόρθωση της στροφής με χρήση του μετασχηματισμού Hough Εργασία 7. Διόρθωση της κλίσης των γραμμάτων Εργασία 8. Εντοπισμός του προσανατολισμού του εγγράφου Εργασία 9. Κατάτμηση σε γραμμές κειμένου, λέξεις και χαρακτήρες με χρήση των προβολών Εργασία 10. Ταξινόμηση περιοχών σε κείμενο, εικόνες ή γραφικά Εργασία 11. Αναγνώριση Ελληνικών Χειρόγραφων Χαρακτήρων με χρήση ζωνών Εργασία 12. Αναγνώριση Ελληνικών Χειρόγραφων Χαρακτήρων με χρήση του περιγράμματος

3 Εργασία 1. Αποτίμηση μεθόδων δυαδικής μετατροπής Αποτίμηση των παρακάτω μεθοδολογιών δυαδικής μετατροπής: (1) Εύρεση κορυφών ιστογράμματος (2) Εύρεση κορυφών ιστογράμματος με χρήση των σημείων ακμών (3) Επιλογή μετά από επανάληψη (4) Otsu (5) ImagXpress (ColorDepth(1,0,0)) με χρήση του F-Measure (Recall, Precision based on TP, FP, FN ). Εικόνες από το http://users.iit.demokritos.gr/~bgat/DIBCO2009/benchmark/

4 Δυαδική μετατροπή εγγράφων Εύρεση κορυφών  Βρίσκω i 1 : Hist(i)=max για i= i 1  Βρίσκω i 2 : Hist(i 2 )*(i 2 -i 1 ) 2 =max για i= i 2 i1i1 i2i2

5 Χρήση σημείων ακμών – Weszka Δυαδική μετατροπή εγγράφων Τα σημεία ακμών είναι σημεία ανάμεσα στο αντικείμενο και στο υπόβαθρο της εικόνας ή μεταξύ δύο αντικειμένων. Το ιστόγραμμα της εικόνας που προκύπτει μόνο από τα σημεία αυτά μας δίνει καλύτερη διαχωρισιμότητα κειμένου-υποβάθρου σε σχέση με το ιστόγραμμα της συνολικής εικόνας.  Yπολογίζεται η Laplacian της εικόνας των σταθμών του γκρι.  Προσδιορίζεται το ιστόγραμμα της αρχικής εικόνας λαμβάνοντας υπόψη μόνο τα σημεία που έχουν υψηλές Laplacian τιμές.  Υπολογίζεται το κατώφλι ανάμεσα στις κορυφές του ιστογράμματος.

6 Χρήση σημείων ακμών – Weszka Δυαδική μετατροπή εγγράφων

7 εγγράφων Χρήση σημείων ακμών – Weszka

8 Επιλογή μετά από επανάληψη – Ridler Δυαδική μετατροπή εγγράφων Ξεκινάμε από μία αρχική εκτίμηση για την τιμή του κατωφλιού και στη συνέχεια γίνεται διόρθωση αυτής της τιμής λαμβάνοντας υπόψη τις περιοχές κειμένου και υποβάθρου που προκύπτουν κάθε φορά.  Η αρχική εκτίμηση του κατωφλιού είναι η μέση τιμή των gray scale τιμών.  Υπολογίζεται η μέση τιμή των gray scale τιμών των pixels κάτω από το αρχικό κατώφλι και αποθηκεύεται στην μεταβλητή Tb.  Υπολογίζεται η μέση τιμή των gray scale τιμών των pixels πάνω από το αρχικό κατώφλι και αποθηκεύεται στην μεταβλητή Tο.  Υπολογίζεται μία νέα προσέγγιση του κατωφλιού στην τιμή (Tb + Tο)/2.  Η διαδικασία επαναλαμβάνεται μέχρι να μην υπάρχει αλλαγή στο κατώφλι μεταξύ δύο διαδοχικών επαναλήψεων.

9 Δυαδική μετατροπή εγγράφων Επιλογή μετά από επανάληψη – Ridler 1. Τ = 238 2. Τ = 209 3. Τ = 189 4. Τ = 182

10 Επεξεργασία του ιστογράμματος – Otsu Δυαδική μετατροπή εγγράφων Bασίζεται στην επεξεργασία του ιστογράμματος της εικόνας και στον προσδιορισμό του κατωφλιού βάσει του κριτηρίου της μεγιστοποίησης της διαχωρισιμότητας μεταξύ των περιοχών κειμένου και υποβάθρου.  Yπολογίζουμε το ολικό τετράγωνο της τυπικής απόκλισης (global variance) των επιπέδων του γκρι της εικόνας: όπου p(i) η πιθανότητα εμφάνισης της i στάθμης της εικόνας, Ν το συνολικό πλήθος των pixels της εικόνας και u t το συνολικό μέσο επίπεδο γκρι της εικόνας:

11 Επεξεργασία του ιστογράμματος – Otsu Δυαδική μετατροπή εγγράφων  Για κάθε υποψήφιο κατώφλι t το ιστόγραμμα της εικόνας χωρίζεται σε δύο περιοχές - κλάσεις. Μπορούμε να υπολογίζουμε το τετράγωνο της τυπικής απόκλισης μεταξύ των δύο κλάσεων (between classes variance) το οποίο είναι το τετράγωνο της τυπικής απόκλισης των μέσων τιμών κάθε κλάσης από την συνολική μέση τιμή όλων των pixels:  H βέλτιστη τιμή για το κατώφλι t επιτυγχάνεται όταν μεγιστοποιείται ο λόγος του τετραγώνου της τυπικής απόκλισης μεταξύ των δύο κλάσεων (between classes variance) προς το ολικό τετράγωνο της τυπικής απόκλισης (global variance) των επιπέδων του γκρι της εικόνας:

12

13

14 - Δυνατότητα δημιουργίας GT με χρήση συνθετικών εικόνων. - Εμπλουτισμός μεθοδολογιών δυαδικής μετατροπής - Εμπλουτισμός μετρικών αποτίμησης (PSNR – NRM – MPM) Επέκταση για απαλλακτική:

15 Εργασία 2. Αποτίμηση μεθόδων δυαδικής μετατροπής Αποτίμηση των παρακάτω μεθοδολογιών δυαδικής μετατροπής: (1) Pun (2) Kapur (3) Niblack (για διάφορα μεγέθη παραθύρων και τιμών του k) (4) Sauvola (για διάφορα μεγέθη παραθύρων και τιμών του k) (5) ImagXpress (ColorDepth(1,0,0)) με χρήση του F-Measure (Recall, Precision based on TP, FP, FN ). Μέτρηση της επιτάχυνσης που μπορείτε να επιτύχετε. Εικόνες από το http://users.iit.demokritos.gr/~bgat/DIBCO2009/benchmark/

16 Χρησιμοποιώντας την εντροπία – Pun, Kapur Δυαδική μετατροπή εγγράφων H βέλτιστη τιμή κατωφλιού t είναι εκείνη που μεγιστοποιεί την H = H b + H w  Αν έχουμε n πιθανά σύμβολα (π.χ. γράμματα ή ψηφία) και το σύμβολο i εμφανίζεται με πιθανότητα p(x i ), η εντροπία που σχετίζεται με τα σύμβολα X είναι:  Η εικόνα μπορεί να θεωρηθεί σαν ένα σύνολο συμβόλων ή τιμών του γκρι. Θεωρώντας ένα κατώφλι t, οι εντροπίες που σχετίζονται με τα pixels του κειμένου/φόντου και του υποβάθρου μπορούν να δοθούν από τους τύπους:  H βέλτιστη τιμή κατωφλιού t είναι εκείνη που μεγιστοποιεί την H = H b + H w

17 Χρησιμοποιώντας την εντροπία – Pun, Kapur Δυαδική μετατροπή εγγράφων  Μία παραλλαγή του παραπάνω αλγορίθμου προτάθηκε από τον Kapur ο οποίος ορίζει τις πιθανότητες των δύο βασικών κατανομών ως εξής: όπου P t η αθροιστική πιθανότητα εμφάνισης μέχρι την στάθμη t : Οι εντροπίες των περιοχών κειμένου/φόντου και υποβάθρου υπολογίζονται ανάλογα:

18 Χρήση παραθύρου – Niblack, Sauvola Δυαδική μετατροπή εγγράφων  Χρησιμοποιούμε την μέση τιμή m και την τυπική απόκλιση s των τιμών των επιπέδων φωτεινότητας στο παράθυρο. k είναι σταθερά ίση με -0.2. Η τιμή του k εξαρτάται από το ποσοστό του ορίου των χαρακτήρων που θεωρείται σαν μέρος των χαρακτήρων. k = -0.2 k = -0.5 k = -0.8 k = -1.1 k = -1.4

19 Χρήση παραθύρου – Niblack, Sauvola Δυαδική μετατροπή εγγράφων  Sauvola: Υπόθεση στα επίπεδα φωτεινότητας του κειμένου-φόντου και του υποβάθρου (τα pixels κειμένου έχουν στάθμες του γκρι κοντά στο 0 ενώ τα pixels του υποβάθρου έχουν στάθμες του γκρι κοντά στο 255). R είναι το δυναμικό εύρος της τυπικής απόκλισης ίσο με 128 και k σταθερά ίση με 0.5

20 - Δυνατότητα δημιουργίας GT με χρήση συνθετικών εικόνων. - Εμπλουτισμός μεθοδολογιών δυαδικής μετατροπής - Εμπλουτισμός μετρικών αποτίμησης (PSNR – NRM – MPM) Επέκταση για απαλλακτική:

21 Εργασία 3. Αποτίμηση της μεθόδου δυαδικής μετατροπής των Kamel & Zhao Αποτίμηση των παρακάτω μεθοδολογιών δυαδικής μετατροπής: - Kamel & Zhao (για διάφορες τιμές των W, T) - ImagXpress (ColorDepth(1,0,0)) με χρήση του F-Measure (Recall, Precision based on TP, FP, FN ). Εικόνες από το http://users.iit.demokritos.gr/~bgat/DIBCO2009/benchmark/

22 Εργασία 3. Αποτίμηση της μεθόδου δυαδικής μετατροπής των Kamel & Zhao (x,y) P0P0 P1P1 P2P2 P3P3 P4P4 P5P5 P6P6 P7P7 W L(P i ) = ave(P i )-f(x,y) > T ave(P i ) η μέση τιμή των pixels στο παράθυρο WxW στο P i Επιλέγονται τα pixels τα οποία παρουσιάζουν τοπική διαφορά φωτεινότητας και ανήκουν σε χαρακτήρες με γραμμές πλάτους W.

23 - Υλοποίηση και αποτίμηση μεθοδολογίας για αυτόματη επιλογή των W, T Επέκταση για απαλλακτική:

24 Εργασία 4. Βελτίωση της ποιότητας των εγγράφων Υλοποίηση βελτίωσης της ποιότητας των εγγράφων με χρήση: - μασκών - μαθηματικής μορφολογίας - φίλτρων συρρίκνωσης και διόγκωσης Δυνατότητα διαδοχικής εφαρμογής μεθόδων Αποτίμηση με χρήση του F-Measure (Recall, Precision based on TP, FP, FN ). Εικόνες από το http://users.iit.demokritos.gr/~bgat/DIBCO2009/benchmark/ (χρήση ImagXpress (ColorDepth(1,0,0) για δυαδική μετατροπή)

25 Εργασία 4. Βελτίωση της ποιότητας των εγγράφων Βάσει των 8 γειτονικών pixels Βάσει των 4 γειτονικών pixels

26 Εργασία 4. Βελτίωση της ποιότητας των εγγράφων

27 P sh = 24 P sh = 19 k sh = 21

28 - Υλοποίηση νέας μεθόδου καθαρισμού εγγράφων - Δημιουργία συνθετικών εικόνων με προσθήκη θορύβου Επέκταση για απαλλακτική:

29 Εργασία 5. Απομάκρυνση συμβόλων του υποβάθρου Εφαρμογής της μαθηματικής μορφολογία με χρήση κατάλληλου δομικού στοιχείου για την απομάκρυνση συμβόλων του υποβάθρου που επικαλύπτουν τους χαρακτήρες σε εικόνα εγγράφου

30 Εργασία 5. Απομάκρυνση συμβόλων του υποβάθρου Χρήση συνθετικών αλλά και πραγματικών εικόνων Αποτίμηση μετά από οπτική παρατήρηση

31 Βελτίωση ποιότητας Μαθηματική μορφολογία – Παράδειγμα 4 Εφαρμογής της μαθηματικής μορφολογία με χρήση κατάλληλου δομικού στοιχείου για την απομάκρυνση συμβόλων του υποβάθρου που επικαλύπτουν τους χαρακτήρες σε εικόνα εγγράφου

32 Βελτίωση ποιότητας Μαθηματική μορφολογία – Παράδειγμα 4 PDH PDV

33 Βελτίωση ποιότητας Μαθηματική μορφολογία – Παράδειγμα 4

34 Βελτίωση ποιότητας Μαθηματική μορφολογία – Παράδειγμα 4 X: Αρχική εικόνα Υ: Υπόβαθρο Β1, Β2: 5x5 δομικά στοιχεία

35 - Αυτόματη αποτίμηση - Υλοποίηση βελτιωμένης τεχνικής Επέκταση για απαλλακτική:

36 Εργασία 6. Διόρθωση της στροφής με χρήση του μετασχηματισμού Hough - Βιβλιογραφική αναζήτηση των μεθοδολογιών εντοπισμού στροφής εγγράφων με χρήση της μετασχηματισμού Hough. - Aνάπτυξη εφαρμογής για τον εντοπισμό και διόρθωση της στροφής των εγγράφων με χρήση του μετασχηματισμού Hough. Προβολή του πεδίου Hough. - Επιτάχυνση με χρήση της “burst image” καθώς και των κάτω οριακών pixels. Μέτρηση της επιτάχυνσης που πραγματοποιείται - Αποτίμηση της μεθοδολογίας http://users.iit.demokritos.gr/~alexpap/DISEC13/resources.html

37 Μετασχηματισμός Hough Διόρθωση στροφής Aντιστοιχεί τα σημεία μιας ευθείας του επιπέδου x-y σε ένα σημείο (ρ,θ) του επιπέδου των πολικών συντεταγμένων. ένα σημείο δύο σημεία πολλά σημεία

38 Μετασχηματισμός Hough Διόρθωση στροφής Όλα τα εξαγόμενα ζευγάρια τιμών (ρ,θ) αποθηκεύονται σε ένα πίνακα συσσώρευσης ο οποίος δημιουργείται με κατάλληλο βήμα κβάντισης των ρ,θ Το μέγιστο των αθροισμάτων του πίνακα συσσώρευσης ως προς θ αντιστοιχεί στην κλίση του εγγράφου

39 Επιτάχυνση μετασχηματισμού Hough Διόρθωση στροφής Burst image Κάτω οριακά pixels των συνδεδεμένων συστατικών

40 Επιτάχυνση μετασχηματισμού Hough Διόρθωση στροφής

41 - Υλοποίηση και αποτίμηση νέας μεθόδου που βασίζεται στον Hough Transform. Επέκταση για απαλλακτική:

42 Εργασία 7. Διόρθωση της κλίσης των γραμμάτων - Είσοδος γραμμή κειμένου ή λέξη - Διόρθωση της κλίσης των γραμμάτων κάθε περιοχής Απομάκρυνση όλων των οριζόντιων γραμμών που περιέχουν ένα τουλάχιστον τμήμα με διαδοχικα 1 μήκους > th Αφαίρεση και όλων των οριζόντιων τμημάτων με ύψος < h_th Κομμάτια κάθε τμήματος που διαχωρίζονται με κάθετες γραμμές απομονώνονται σε παράθυρα. Για κάθε παράθυρο: τα κέντρα βάρους των πάνω και κάτω τμημάτων υπολογίζονται και συνδέονται. Κλίση θ = μέση τιμή των κλίσεων των συνδεδεμένων γραμμών Διόρθωση κλίσης

43 Εργασία 7. Διόρθωση της κλίσης των γραμμάτων - Αποτίμηση μετά από οπτική παρατήρηση Απομάκρυνση όλων των οριζόντιων γραμμών που περιέχουν ένα τουλάχιστον τμήμα με διαδοχικά 1 μήκους > th Αφαίρεση και όλων των οριζόντιων τμημάτων με ύψος < h_th Κομμάτια κάθε τμήματος που διαχωρίζονται με κάθετες γραμμές απομονώνονται σε παράθυρα. Για κάθε παράθυρο: τα κέντρα βάρους των πάνω και κάτω τμημάτων υπολογίζονται και συνδέονται. Κλίση θ = μέση τιμή των κλίσεων των συνδεδεμένων γραμμών Διόρθωση κλίσης

44 Εργασία 7. Διόρθωση της κλίσης των γραμμάτων Εικόνες από το http://www.iit.demokritos.gr/~bgat/HandSegmCont2009/Benchmark

45 - Υλοποίηση και σύγκριση με παρόμοια τεχνική (αυτόματη αποτίμηση). Επέκταση για απαλλακτική:

46 Εργασία 8. Εύρεση του προσανατολισμού του εγγράφου - Βιβλιογραφική αναζήτηση μεθοδολογιών εντοπισμού του προσανατολισμού του εγγράφου - Υπολογισμός με χρήση εξομάλυνσης και μέτρησης των εναλλαγών 01 - Υπολογισμός με χρήση του φάσματος του εγγράφου - Δημιουργία βάσης εγγράφων για την αποτίμηση των μεθοδολογιών

47 Εντοπισμός προσανατολισμού εγγράφων Διόρθωση στροφής Portrait Landscape

48 Αλγόριθμος εξομάλυνσης διαδοχικών pixels - RLSA Διόρθωση στροφής Η εικόνα εξετάζεται ως προς την διεύθυνση σάρωσης που έχει οριστεί και τα διαδοχικά pixels υποβάθρου με μήκος μικρότερο από το μέγιστο μήκος διαδοχικών pixels υποβάθρου T max μετατρέπονται σε σημεία εικόνας T max = 4 T max = 5

49 Εντοπισμός προσανατολισμού εγγράφων Διόρθωση στροφής Horizontal smoothingVertical smoothing 28 2 NoH<NoV Portrait

50 Εντοπισμός προσανατολισμού εγγράφων Διόρθωση στροφής Horizontal smoothing Vertical smoothing 24 2 NoH>NoV Landscape

51 Ανάλυση του φάσματος του εγγράφου - DocStrum Κατάτμηση Σελίδας Εγγράφου  Το φάσμα του εγγράφου (Document Spectrum – DocStrum) είναι μια αναπαράσταση της σελίδας του εγγράφου η οποία περιγράφει τα καθολικά δομικά χαρακτηριστικά της σελίδας και μπορεί να χρησιμοποιηθεί για την κατάτμησή της.  Η χρήση του φάσματος του εγγράφου είναι μία προσέγγιση «από κάτω προς τα πάνω» (bottom-up) που βασίζεται στην ομαδοποίηση των συνδεδεμένων συστατικών της εικόνας χρησιμοποιώντας του κ- κοντινότερους γείτονες (K–nearest neighbor – KNN)  Οι κ-κοντινότεροι γείτονες για κάθε συνδεδεμένο συστατικό i είναι τα κ πλησιέστερα συνδεδεμένα συστατικά. k=5

52 Ανάλυση του φάσματος του εγγράφου - DocStrum Κατάτμηση Σελίδας Εγγράφου Εντοπισμός προσανατολισμού του εγγράφου Δημιουργούμε ένα ιστόγραμμα με την κατανομή των γωνιών του φάσματος του εγγράφου Η μέγιστη κορυφή του ιστογράμματος αντιστοιχεί στην διεύθυνση προσανατολισμού του εγγράφου

53 - Υλοποίηση και σύγκριση με παρόμοια τεχνική. Επέκταση για απαλλακτική:

54 Εργασία 9. Κατάτμηση σε γραμμές κειμένου, λέξεις και χαρακτήρες με χρήση των προβολών - Βιβλιογραφική αναζήτηση μεθοδολογιών κατάτμησης με χρήση προβολών - Εντοπισμός γραμμών κειμένου με εντοπισμό των τοπικών ελάχιστων των οριζόντιων προβολών - Εφαρμογή κάθετων προβολών σε κάθε γραμμή για τον εντοπισμό λέξεων και γραμμάτων. - Αποτίμηση με χρήση της βάσης http://www.iit.demokritos.gr/~bgat/HandSegmCont2009/Benchmark

55 Χρήση προβολών Κατάτμηση Σελίδας Εγγράφου Επαναληπτική εφαρμογή των οριζόντιων και κάθετων προβολών (Recursive X-Y cuts)  Υπολογίζονται οι προβολές (άθροισμα των pixels σε γραμμή ή στήλη της εικόνας του εγγράφου) σε οριζόντια και κάθετη διεύθυνση  Στη συνέχεια εντοπίζονται τα διαδοχικά μηδενικά των προβολών τα οποία θεωρούνται και όρια οριζόντιας ή κάθετης τμηματοποίησης όταν είναι πάνω από ένα ελάχιστο μήκος.

56 Χρήση προβολών Κατάτμηση Σελίδας Εγγράφου  Για κάθε τέτοιο όριο, η εικόνα χωρίζεται σε δύο υπο-εικόνες.  Για κάθε υπο-εικόνα, η ίδια διαδικασία επαναλαμβάνεται στην άλλη διεύθυνση (αν το πρώτο χώρισμα είναι κάθετο, το επόμενο είναι οριζόντιο) και η όλη διαδικασία επαναλαμβάνεται μέχρι να μην μπορεί να χωριστεί η εικόνα άλλο σε οριζόντια ή κάθετη διεύθυνση.  Αν η εικόνα περιέχει θόρυβο, τότε αντι να αναζητούμε μηδενικά στις προβολές, μπορούμε να αναζητούμε μικρό αριθμό pixels, όμως τότε πέφτει η ακρίβεια της μεθόδου.

57 - Υλοποίηση και σύγκριση με παρόμοια τεχνική (αυτόματη αποτίμηση). Επέκταση για απαλλακτική:

58 Εργασία 10. Ταξινόμηση περιοχών σε κειμένο, εικόνες ή γραφικά -Δημιουργία βάσης με τμήματα εικόνων που ανήκουν στις 3 κατηγορίες (~30 εικόνες ανά κατηγορία) -Αυτόματη κατηγοριοποίηση με χρήση του ποσοστού των μαύρων pixels κανονικοποιημένο από 0 μέχρι 1 και της διασυσχέτισης του σήματος - Αποτίμηση της μεθόδου

59 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου  Περιοχές κειμένου/εικόνων/γραφικών:  Υπολογίζουμε το ποσοστό των μαύρων pixels κανονικοποιημένο από 0 μέχρι 1 : ABP είναι το σύνολο των μαύρων pixels (ABP: Amount of Black Pixels) και Ε το σύνολο των pixels της περιοχής.  Υπολογίζουμε την διασυσχέτιση του σήματος (signal cross-correlation): Υπολογίζουμε μία κανονικοποιημένη διασυσχέτιση της πληροφορίας μεταξύ των οριζόντιων γραμμών σε απόσταση y και y+a από το πάνω όριο των περιοχών. I(x,y) η ασπρόμαυρη εικόνα, Μ το πλάτος της περιοχής που εξετάζουμε, a η κατακόρυφη απόσταση μεταξύ των κατακόρυφων γραμμών των οποίων τις πληροφορίες συσχετίζουμε. Η διασυσχέτιση C(a,y) παίρνει τιμές από -1 (οι δύο οριζόντιες γραμμές είναι εντελώς διαφορετικές) μέχρι 1 (οι δύο οριζόντιες γραμμές είναι ίδιες). Η συνολική διασυσχέτιση προκύπτει από την μέση τιμή των τιμών C(a,y) για όλες τις οριζόντιες γραμμές της περιοχής.

60 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου B C 0.12 0.69 0.40 0.33 0.93 0.95 B C 0.52 0.56 0.76 0.68 0.91 0.96

61 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου B C 0.15 0.58 0.41 0.32 0.96 B C 0.54 0.63 0.68 0.85 0.74 0.98

62 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου B C 0.13 0.73 0.23 0.67 0.34 0.85 B C 0.27 0.61 0.65 0.80 0.76 0.95

63 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου B B1 C 0.12 0.93 0.33 0.15 0.96 0.32 0.52 0.91 0.68 0.54 0.74 0.85 0.13 0.34 0.67 0.27 0.76 0.80

64 Ταξινόμηση περιοχών Κατάτμηση Σελίδας Εγγράφου

65 - Υλοποίηση και σύγκριση με παρόμοια τεχνική (αυτόματη αποτίμηση). Επέκταση για απαλλακτική:

66 Εργασία 11. Αναγνώριση Ελληνικών Χειρόγραφων Χαρακτήρων με χρήση ζωνών Βήμα 1: Δίνονται train-set και test-set με χειρόγραφους ελληνικούς χαρακτήρες για τους οποίους γνωρίζουμε σε ποια κλάση ανήκουν. Βήμα 2: Εξαγωγή χαρακτηριστικών και για τα 2 sets με χρήση Jaccard - Yule distances, προβολών και ζωνών του χαρακτήρα. Βήμα 3: Για κάθε pattern του test-set υπολογίζουμε την Ευκλείδεια απόστασή του από το όλα τα patterns του train-set και αποφασίζουμε ότι ανήκει στην κλάση που ανήκει το πιο κοντινό του από το train-set. Βήμα 4: Υπολογισμός ποσοστού αναγνώρισης.

67 Εργασία 12. Αναγνώριση Ελληνικών Χειρόγραφων Χαρακτήρων με χρήση του περιγράμματος Βήμα 1: Δίνονται train-set και test-set με χειρόγραφους ελληνικούς χαρακτήρες για τους οποίους γνωρίζουμε σε ποια κλάση ανήκουν. Βήμα 2: Εξαγωγή χαρακτηριστικών και για τα 2 sets με χρήση Jaccard - Yule distances, προβολών και περιγράμματος του χαρακτήρα. Βήμα 3: Για κάθε pattern του test-set υπολογίζουμε την Ευκλείδεια απόστασή του από το όλα τα patterns του train-set και αποφασίζουμε ότι ανήκει στην κλάση που ανήκει το πιο κοντινό του από το train-set. Βήμα 4: Υπολογισμός ποσοστού αναγνώρισης.

68 ΕξαγωγήΧαρακτηριστικών [0.45, 0.22, 0, 0, 0.89,... ] [0, 1, 1, 1, 0,... ] C H = 2 C V = 2 Ζώνη 1 Ζώνη 2 Ζώνη 3

69 ΕξαγωγήΧαρακτηριστικών Α Α Β Β...... Εξαγωγή ΧαρακτηριστικώνΚανονικοποίηση Εκπαίδευση ταξινομητή Χαρακτήρες εκπαίδευσης ASCII περιγραφή χαρακτήρων Σύστημα εκπαίδευσης/αναγνώρισης Στάδιο εκπαίδευσης Στάδιο αναγνώρισης Α Προς αναγνώριση χαρακτήρας Εξαγωγή ΧαρακτηριστικώνΚανονικοποίησηΤαξινομητής ASCII περιγραφή του χαρακτήρα

70 ΕξαγωγήΧαρακτηριστικών 122 n 11 1110 n 10 n 01 111 233 0,8460,769 n 00 222 0,9130,818 XOR Jaccard distance Yule distance 1. Απευθείας σύγκριση - Template matching

71 3. Χρήση προβολών ΕξαγωγήΧαρακτηριστικών  Οι οριζόντιες και κάθετες προβολές έχουν προταθεί για την εξαγωγή χαρακτηριστικών από το 1956  Το ιστόγραμμα της προβολής συνήθως κανονικοποιείται με την ομαδοποίηση γειτονικών γραμμών ή στηλών ώστε να χρησιμοποιείται σταθερός αριθμός περιοχών σε οριζόντια και κάθετη διεύθυνση  Είναι πολύ ευαίσθητες στην στροφή και στον τύπο γραψίματος.  Βασική πληροφορία σχετικά με την μορφή του χαρακτήρα χάνεται. Από το σώμα των χαρακτήρωνΣτατιστικά χαρακτηριστικάΠεριγραφή αντικειμένου: ▲ ΝOΝOSHSIROSLDE ▲▲▲

72 3. Χρήση προβολών ΕξαγωγήΧαρακτηριστικών  Ομοιότητα μεταξύ δύο ιστογραμμάτων:  Αθροιστικό ιστόγραμμα:  Η απόσταση D δεν είναι τόσο ευαίσθητη σε τυχών μετατοπίσεις των επικρατέστερων κορυφών των οριζόντιων και κάθετων προβολών.

73

74 Εξαγωγή χαρακτηριστικών βάση περιγράμματος: Αρχικά βρίσκουμε το περίγραμμα του χαρακτήρα. Στη συνέχεια o χαρακτήρας χωρίζεται σε ζώνες NxN και από κάθε ζώνη εξάγεται ένα ιστόγραμμα όσον αφορά την καμπυλότητα για 0,45,90 και 135 μοίρες. Έτσι προκύπτει ένα διάνυσμα χαρακτηριστικών 4xNxN για κάθε χαρακτήρα.

75  Αναλυτικότερα: Ταξινόμηση: Η ταξινόμηση γίνεται με βάση των πιο κοντινό γείτονα χρησιμοποιώντας την Ευκλείδεια. Ποσοστό αναγνώρισης (RR): Υπολογίζεται ως εξής: Όπου, k= αριθμός σωστών ταξινομημένων patterns και S = συνολικός αριθμός patterns του test-set.

76 - Χρήση και άλλης μεθοδολογίας εξαγωγής χαρακτηριστικών - Χρήση ταξινομητή K-NN Επέκταση για απαλλακτική:


Κατέβασμα ppt "- Bonus: Μέχρι 5 (δυνατότητα επέκτασης σε απαλλακτική) - Software: - Όλα τα ενδιάμεσα στάδια των αλγορίθμων θα πρέπει να μπορούν να εμφανίζονται αν το."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google