Μεταπτυχιακή Διατριβή Θέμα: “Γρήγορες τεχνικές αναγνώρισης αντικειμένων με νευρωνικά δίκτυα και εφαρμογές τους σε συστήματα ελέγχου και παραγωγής” Επιβλέπων: Καθηγητής Β. Μέρτζιος Βουτριαρίδης Χριστόδουλος
Περιεχόμενα Γενικές πληροφορίες για τα νευρωνικά δίκτυα και τους αλγορίθμους εκπαίδευσης αυτών Παρουσίαση των νευρωνικών δικτύων Πι – σίγμα και R.P.N. (Ridge Polynomial Networks) Επεξεργασία εικόνας, αναπαράσταση με ομάδες (Image Block Representation IBR) Υλοποίηση, εφαρμογή και παρουσίαση των αποτελεσμάτων.
Γνωστό για την εκπαίδευση Νευρωνικό Δίκτυο Γνωστό για την εκπαίδευση Γνωστό Άγνωστο Συνάρτηση Ενεργοποίησης Έξοδος Νευρώνα Σκοπός: Εύρεση των κατάλληλων βαρών
Αλγόριθμοι εκπαίδευσης Αλγόριθμος μέσου τετραγωνικού σφάλματος Δημιουργία του σήματος σφάλματος Συνάρτηση κόστους Καθορίστε το βέλτιστο σύνολο βαρών για το οποίο το μέσο τετραγωνικό σφάλμα J είναι ελάχιστο Back Propagation Κόμβος εξόδου Κρυμμένος νευρώνας
Νευρωνικά Δίκτυα Ανωτέρου Βαθμού Ισχυρή απεικόνιση Μαθαίνουν πιο εύκολα σταθερές γεωμετρικές ιδιότητες Γρήγορη εκμάθηση Γρήγορα αυξανόμενος αριθμός προσαρμόσιμων βαρών. Μόνο δίκτυα πρώτου βαθμού χρησιμοποιούνται Προσαρμόσιμα βάρη Αριθμός βαρών Προσαρμόσιμα βάρη
Pi - sigma δίκτυα Βασικό κίνητρο: Να βρεθεί ένα δίκτυο που να διατηρεί την ιδιότητα της γρήγορης μάθησης και της ικανότητας της αποτελεσματικής απεικόνισης των δικτύων ανωτέρου βαθμού με ένα επίπεδο, αποφεύγοντας ταυτόχρονα την συνδυαστική αύξηση του αριθμού των βαρών και των μονάδων επεξεργασίας που απαιτούνται. Ο όρος πι – σίγμα προέρχεται από το γεγονός ότι αυτά τα δίκτυα χρησιμοποιούν το γινόμενο των αθροισμάτων των στοιχείων εισόδου (Product of sums) Έχουν αυστηρά κανονική δομή Πολύ μικρότερο αριθμό βαρών
Αρχιτεκτονική του δικτύου Αριθμός βαρών
Αλγόριθμοι Εκπαίδευσης Για τα PSN χρησιμοποιούνται δύο τροποποιημένες μορφές του Back Propagation Κανόνας τυχαίας επιλογής (Randomized rule): σε κάθε βήμα ανανέωσης, επιλέγουμε τυχαία μία αθροιστική μονάδα και ανανεώνουμε μόνο το σύνολο των Ν + 1 βαρών που σχετίζονται με τις εισόδους αυτής Ασύγχρονος κανόνας (Asynchronous rule): σε κάθε βήμα ανανέωσης, όλα τα Κ σύνολα των βαρών ανανεώνονται, αλλά με ένα ασύγχρονο τρόπο.
Ridge Polynomial Networks Το τίμημα που έχουμε να πληρώσουμε για τη χρήση μικρότερου αριθμού βαρών σε ένα PSN είναι ότι δεν είναι ένας καθολικός προσεγγιστής (universal approximator). Eμπειρικές μελέτες έδειξαν ότι είναι ένα πολύ καλό μοντέλο για ομαλές συναρτήσεις και δίνει καλά αποτελέσματα σε διάφορες εφαρμογές RPN Είναι αποδοτικό γιατί εκμεταλλεύεται πολυώνυμα μιας μεταβλητής, αντίθετα από τα συνήθη δίκτυα ανωτέρου βαθμού Οδηγεί σε δομημένη κατασκευή Διατηρεί την ιδιότητα της γρήγορης εκπαίδευσης Είναι καθολικός προσεγγιστής.
Ridge Polynomials Ένα ridge πολυώνυμο είναι μία ridge συνάρτηση η οποία μπορεί να εκφραστεί ως: Θεώρημα από τους Chui και Li αποδεικνύει ότι κάθε πολυώνυμο στο μπορεί να εκφραστεί με όρους ενός ridge πολυώνυμου.
Ορισμός των R.P.N. Ένα Ridge Polynomial Network (RPN) ορίζεται ως το πρώσο τροφοδότησης δίκτυο το οποίο βασίζεται στην εξίσωση Μία άγνωστη συνάρτηση f σε ένα συμπαγές σύνολο μπορεί να προσεγγιστεί από το RPN ως: Ας σημειωθεί ότι κάθε όρος γινομένου μπορεί να αποκτηθεί από την έξοδο ενός πι – σίγμα δικτύου (PSN) με γραμμικές μονάδες εξόδου
Αρχιτεκτονική του δικτύου Συνάρτηση ενεργοποίησης Γραμμική έξοδος
Αλγόριθμοι εκπαίδευσης Αφού κάθε Pi στην παρακάτω εξίσωση μπορεί να αποκτηθεί σαν την έξοδο ενός PSN βαθμού i με γραμμικές μονάδες εξόδου, ο αλγόριθμος εκπαίδευσης που αναπτύχθηκε για τα PSN μπορεί να χρησιμοποιηθεί και για τα RPN. Επιλέγουμε τα PSN που αποτελούν το RPN και να ανανεώσουμε τα βάρη τους χρησιμοποιώντας τους αντίστοιχους αλγορίθμους εκπαίδευσης. Κανόνας τυχαίας επιλογής (Randomized rule) Ασύγχρονος κανόνας ανανέωσης (Asynchronous Rule)
Κατασκευαστικός Αλγόριθμος Μάθησης για το RPN Μία άγνωστη συνάρτηση f προσεγγίζεται επιτυχώς από τον κατασκευαστικό αλγόριθμο μάθησης ως: Σε κάθε epoch μεταβάλλονται μόνο οι παράμετροι του τελευταία προστιθέμενου PSN.
Αναπαράσταση δυαδικών εικόνων με ομάδες Ομάδα καλείται μια ορθογώνια περιοχή της εικόνας με ακμές παράλληλες προς τους άξονες που περιέχει εικονοστοιχεία της ίδιας φωτεινότητας. Μια δυαδική εικόνα καλείται αναπαριστώμενη με ομάδες, αν αναπαριστάται από ένα σύνολο ομάδων με τη φωτεινότητα των αντικειμένων και κάθε στοιχείο της εικόνας ανήκει σε μία και μόνο μία ομάδα. Εικόνα του χαρακτήρα d και οι ομάδες που έχουν εξαχθεί. Εφαρμογή του αλγορίθμου σε μια δυαδική εικόνα. Κάθε ομάδα b παριστάνεται από τις συντεταγμένες δύο απέναντι γωνιών της.
Στόχος Δημιουργία ενός γρήγορου και αποδοτικού νευρωνικού δικτύου. Εξαγωγή χαρακτηριστικών από μία εικόνα και εφαρμογή τους στο νευρωνικό δίκτυο για ακόμα μικρότερους χρόνους εκπαίδευσης και αναγνώρισης. Pi – sigma network (PSN), Ridge Polynomial Network(RPN) Image Block Representation (IBR)
Το RPN είναι ένα πολυπαραμέτρικό σύστημα, γεγονός που κάνει την μελέτη του πολύπλοκη και χρονοβόρα Κατώφλι μέσου τετραγωνικού σφάλματος Κατώφλι μέσου τετραγωνικού σφάλματος προηγούμενου epoch Κατώφλι για νέο PSN Ρυθμός μάθησης Συντελεστής μείωσης κατωφλίου για νέο PSN Συντελεστής μείωσης ρυθμού μάθησης Αριθμός epoch. Epoch: μία παρουσίαση όλων των δειγμάτων εκπαίδευσης επιλεγμένα με τυχαία σειρά Εμφάνιση MSE Βαθμός εκκίνησης
Κατώφλι μέσου τετραγωνικού σφάλματος Μέσο τετραγωνικό σφάλμα Κατώφλι μέσου τετραγωνικού σφάλματος Πραγματική και επιθυμητή έξοδος για ένα epoch Μπάρα αναμονής για κάθε epoch
Εφαρμογές Προσέγγιση συναρτήσεων
Εφαρμογή σε αναγνώριση προτύπων Δυαδικές εικόνες (b&w) 16x16 εικονοστοιχείων. Εξαγωγή των ομάδων τους Τροφοδότηση του νευρωνικού δικτύου με τις συντεταγμένες των ομάδων για εκπαίδευση. Στο διπλανό σχήμα φαίνονται οι επιθυμητές έξοδοι. Αλλοίωση των χαρακτήρων, χρησιμοποιώντας την imnoise με παραμέτρους “salt & pepper” και 0,05.
Έξόδος 1η, 2η.
‘Εξοδος 3η
Έξοδος 4η
Έξοδος 5η
Συμπεράσματα Τα αποτελέσματα και οι γραφικές παραστάσεις έδειξαν ότι τα RPN έδωσαν πολύ καλά αποτελέσματα και στην προσέγγιση συναρτήσεων, αλλά και στην αναγνώριση προτύπων. Οι εξαγωγή των δεδομένων εισόδου με την αναπαράσταση των εικόνων με ομάδες, είναι προγραμματιστικά χρονοβόρα και επίπονη διαδικασία, μειώνει όμως αισθητά τον αριθμό των εισόδων του νευρωνικού δικτύου
Προτάσεις για μελλοντικές εφαρμογές Να γίνει ένα ολοκληρωμένο σύνολο προτύπων εκπαίδευσης με όλα τα γράμματα μικρά και κεφαλαία και πολλές τροποποιήσεις αυτών, ώστε να γίνει μία πλήρης εκπαίδευση. Χρησιμοποίηση των ζωτικών σημείων μιας εικόνας ως είσοδο στο νευρωνικό δίκτυο Άλλη μέθοδο εξαγωγής χαρακτηριστικών μιας εικόνας, με πιο σημαντικό σημαντικό χαρακτηριστικό την εξαγωγή σταθερού αριθμού χαρακτηριστικών από μία εικόνα. Δημιουργία γραφικού περιβάλλοντος (GUI) για την διευκόλυνση του χρήστη