Acquiring Visibly Intelligent Behavior with Example-Guided Neuroevolution Paper: Bobby D.Bryant and Risto Miikkulainen Παρουσίαση: Δήμα Μαρία Δεκέμβριος 2007 Hmm…Let me think…where should I go?
Αυτόνομοι Πράκτορες σε Σύνθετα Περιβάλλοντα Διαφορετική συμπεριφορά κατά περίπτωση Διαφορετική συμπεριφορά κατά περίπτωση Ιδεολογία χαρακτήρα αντίστοιχη του είδους του Ιδεολογία χαρακτήρα αντίστοιχη του είδους του Μη προβλεψιμότητα Μη προβλεψιμότητα Αυξανόμενη δυσκολία ανά επίπεδο Αυξανόμενη δυσκολία ανά επίπεδο Πληθώραενεργειώνκαικαταστάσεων Εγχείρημα Αφομοίωση ευφυούς συμπεριφοράς μέσω καθοδήγησης βασιζόμενης σε παραδείγματα ειδικών Ευφυή συμπεριφορά πρακτόρων, ακόμα και με κόστος απόδοσης
Legion II Game (Προσομοιωτής Παιχνιδιού) Λεγεώνες Προστασία πόλεων Προστασία πόλεων Καταδίωξη βαρβάρων στην ύπαιθρο Καταδίωξη βαρβάρων στην ύπαιθρο Στόχος: Ελαχιστοποίηση λεηλασίας Παιχνίδι στρατηγικής διακριτών καταστάσεων Ομάδες Βαρβάρων Λεηλασία πόλεων (100 πόντοι) Λεηλασία πόλεων (100 πόντοι) Λεηλασία αγροκτημάτων (1 πόντος) Λεηλασία αγροκτημάτων (1 πόντος) Στόχος: Μεγιστοποίηση λεηλασίας Στο τέλος κάθε γύρου, καταμετρούνται οι πόντοι λεηλασίας. Σκορ παιχνιδιού:
Αισθητήρες Λεγεώνων Εγωκεντρική αντίληψη του χώρου Εγωκεντρική αντίληψη του χώρου Κάθε αισθητήρας επιστρέφει ένα αριθμό Κάθε αισθητήρας επιστρέφει ένα αριθμό Αντιπροσωπευτικός της παρουσίας οντοτήτων στο τμήμα του ταμπλό Αντιπροσωπευτικός της παρουσίας οντοτήτων στο τμήμα του ταμπλό Διατήρηση 3 πινάκων για κάθε είδος οντοτήτων ( λεγεώνες, βάρβαροι, πόλεις ) Διατήρηση 3 πινάκων για κάθε είδος οντοτήτων ( λεγεώνες, βάρβαροι, πόλεις ) ΧΒΑΑΝΑ ΝΔΔ ΒΔ ΒΑΑΝΑ ΝΔΔ ΒΔ Τοπική αίσθηση Γειτονική αίσθηση Μακρινή αίσθηση «Πίνακας Αισθήσεων» Ασαφής εικόνα Ασαφής εικόνα Απουσία μνήμης και στόχωνΤοπικές αποφάσεις Απουσία μνήμης και στόχωνΤοπικές αποφάσεις
Ελεγκτής Λεγεώνων Μηχανισμός ελέγχου της κίνησης με χρήση νευρωνικού δικτύου Στόχος: Εκπαίδευση νευρωνικού δικτύου για προσδιορισμό τοπικής ενέργειας (Ακινησία ή κίνηση σε ένα από τα 6 γειτονικά εξάγωνα) (Ακινησία ή κίνηση σε ένα από τα 6 γειτονικά εξάγωνα) Απόδοση κατάλληλων τιμών στα βάρη του δικτύου Απόδοση κατάλληλων τιμών στα βάρη του δικτύου Χ ΒΑΑΝΑΝΔΔΒΔ Τιμές Εξόδου Ελεγκτή Είσοδος: Τιμές Αισθητήρων (39 στοιχεία) Νευρώνες Κρυφού Επιπέδου Νευρώνες Επιπέδου Εξόδου Είσοδος των τιμών των 3 πινάκων που σχηματίστηκαν από τις τιμές των αισθητήρων Είσοδος των τιμών των 3 πινάκων που σχηματίστηκαν από τις τιμές των αισθητήρων Έξοδος τιμών που σχετίζονται με τις 7 πιθανές ενέργειες των λεγεώνων Έξοδος τιμών που σχετίζονται με τις 7 πιθανές ενέργειες των λεγεώνων
Neuroevolution Γενικός κανόνας: Χρήση γενετικών αλγορίθμων για την εκπαίδευση νευρωνικών δικτύων Γενετικοί αλγόριθμοι Διατήρηση ενός πληθυσμού από λύσεις του προβλήματος Διατήρηση ενός πληθυσμού από λύσεις του προβλήματος - Λύση (Σύνολο τιμών)Χρωμόσωμα - Λύση (Σύνολο τιμών)Χρωμόσωμα - Παράμετροι στις οποίες αναφέρονται οι λύσεις Γονότυπος - Παράμετροι στις οποίες αναφέρονται οι λύσεις Γονότυπος - Οντότητα που δημιουργείται από τις λύσεις Φαινότυπος - Οντότητα που δημιουργείται από τις λύσεις Φαινότυπος Ανάπτυξη και τροποποίηση του πληθυσμού μέσω Ανάπτυξη και τροποποίηση του πληθυσμού μέσω - Διασταυρώσεων - Διασταυρώσεων - Μεταλλάξεων - Μεταλλάξεων Enforced Sub-Populations (ESP) Διατήρηση πληθυσμού λύσεων για κάθε νευρώνα ξεχωριστά Διατήρηση πληθυσμού λύσεων για κάθε νευρώνα ξεχωριστά Κατασκευή νευρωνικού δικτύου, επιλέγοντας τυχαία μία λύση από κάθε νευρώνα Κατασκευή νευρωνικού δικτύου, επιλέγοντας τυχαία μία λύση από κάθε νευρώνα Επιλογή αντιπροσώπων νευρώνων που συνεργάζονται καλά μεταξύ τους. Επιλογή αντιπροσώπων νευρώνων που συνεργάζονται καλά μεταξύ τους.
Neuroevolution with ESP Αλγόριθμος Για 5000 επαναλήψεις { Επιλογή 3 παιχνιδιών από ένα σύνολο 10 παιχνιδιών Για κάθε ένα από τα 3 παιχνίδια { Μέχρι να τελειώσουν τα χρωμοσώματα των πληθυσμών { Επέλεξε τυχαία 1 χρωμόσωμα για κάθε νευρώνα Σχηματισμός νευρωνικού δικτύου Αξιολόγηση καταλληλότητας δικτύου Καταγραφή καταλληλότητας νευρώνων }} Μέσος όρος καταλληλότητας για κάθε χρωμόσωμα Επιλογή καταλληλότερου χρωμοσώματος για κάθε νευρώνα Αξιολόγηση καταλληλότητας βέλτιστου νευρωνικού δικτύου ( Αποθήκευση ) Διασταυρώσεις – Μεταλλάξεις χρωμοσωμάτων για κάθε πληθυσμό } Επιστροφή τελευταίου αποθηκευμένου νευρωνικού δικτύου
Θεωρία του Lamarck ΠεριβάλλονΑλλαγή φαινοτύπου οργανισμού ΠεριβάλλονΑλλαγή φαινοτύπου οργανισμού Φαινότυπος Γονότυπος Μεταβίβαση χαρακτηριστικών Φαινότυπος Γονότυπος Μεταβίβαση χαρακτηριστικών... Πληθυσμοί νευρώνων Νευρώνας 1 Νευρώνας 17 Νευρωνικό Δίκτυο Προσαρμοσμένο Νευρωνικό Δίκτυο Ανθρώπινα Παραδείγματα Εκμάθηση Περιβάλλον Αξιολόγηση Καταλληλότητας Προσαρμοσμένα Χρωμοσώματα Backpropagation Αντίστροφος Μηχανισμός
Lamarckian Neuroevolution Αλγόριθμος Για 5000 επαναλήψεις { Επιλογή 3 παιχνιδιών από ένα σύνολο 10 παιχνιδιών Για κάθε ένα από τα 3 παιχνίδια { Μέχρι να τελειώσουν τα χρωμοσώματα των πληθυσμών { Επέλεξε τυχαία 1 χρωμόσωμα για κάθε νευρώνα Σχηματισμός νευρωνικού δικτύου Προσαρμογή εφαρμόζοντας τη θεωρία του Lamarck ( backpropagatιon ) Αξιολόγηση καταλληλότητας δικτύου Καταγραφή καταλληλότητας νευρώνων }} Μέσος όρος καταλληλότητας για κάθε χρωμόσωμα Επιλογή καταλληλότερου χρωμοσώματος για κάθε νευρώνα Αξιολόγηση καταλληλότητας βέλτιστου νευρωνικού δικτύου ( Αποθήκευση ) Διασταυρώσεις – Μεταλλάξεις χρωμοσωμάτων για κάθε πληθυσμό } Επιστροφή τελευταίου αποθηκευμένου νευρωνικού δικτύου
Χαρακτηριστικά Παραδειγμάτων Μορφή: Μορφή: Ισομορφική της εισόδου του νευρωνικού δικτύου Ισομορφική της εισόδου του νευρωνικού δικτύου Κανόνες Κανόνες - Μέγιστη απόσταση φρουρού από πόλη: d 0 - Μέγιστη απόσταση φρουρού από πόλη: d 0 - Επιστροφή στην πόλη, απουσίας βαρβάρων σε απόσταση d - Επιστροφή στην πόλη, απουσίας βαρβάρων σε απόσταση d - Συνθήκη ασφαλείας - Συνθήκη ασφαλείας Πολιτική L 0 και L 1 Πολιτική L 0 και L 1 12 παιχνίδια παραδειγμάτων παραδείγματα ( ) 12 παιχνίδια παραδειγμάτων παραδείγματα ( ) 3 * = διαφορετικά υποσύνολα 3 * = διαφορετικά υποσύνολα Εκπαίδευση μέσω Ανάστροφης Μετάδοσης Λάθους ( επαναλήψεις) Εκπαίδευση μέσω Ανάστροφης Μετάδοσης Λάθους ( επαναλήψεις), Ενέργεια
Έλεγχος Υιοθέτησης Συμπεριφοράς Χρήση Μετρικών Χονδρική προσέγγιση Χονδρική προσέγγιση - Σκορ παιχνιδιών - Σκορ παιχνιδιών - Συμφωνία τοπικών αποφάσεων με αυτών του ανθρώπου (λά θη ) - Συμφωνία τοπικών αποφάσεων με αυτών του ανθρώπου (λά θη ) Συμβιβασμοί Συμβιβασμοί - 1% ανθρώπινο λάθος - Αυθαίρετες ενέργειες όταν δεν παραβιάζεται κάποιος κανόνας - Κατάστρωση επιπρόσθετων σχεδίων Αυστηρή προσέγγιση Αυστηρή προσέγγιση - Έλεγχος συμμόρφωσης στους 3 κανόνες - Έλεγχος συμμόρφωσης στους 3 κανόνες
Χονδρική Προσέγγιση Συμπέρασμα Η εκπαίδευση με χρήση παραδειγμάτων υπερτερεί της απλής εφαρμογής της Ανάστροφης Μετάδοσης Λάθους Neuroevolution L 0 : Lamarckian L 0 : Άνθρωπος L 0 : Backpropagation L 1 : Lamarckian L 1 : Άνθρωπος L 1 : Backpropagation Ποσοστό Λαθών Σκορ Παιχνιδιού
Συμμόρφωση στους Κανόνες Μέση απόσταση από πόλη Απόσταση από πόλη d Συνθήκη ασφαλείας Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Συμπέρασμα Ταχύτερη συμμόρφωση στους κανόνες με την εκπαίδευση με χρήση παραδειγμάτων Πολιτική L 0 Πολιτική L 1 Παραβιάσεις Απόστασης Γύρος Παιχνιδιού Μέση απόσταση Γύρος Παιχνιδιού Παραβιάσεις Ασφάλειας
Μελλοντικές Ενέργειες Περιβάλλοντα συνεχή στο χώρο και το χρόνο Περιβάλλοντα συνεχή στο χώρο και το χρόνο Ελεγκτές με αξιοποίηση μνήμης Ελεγκτές με αξιοποίηση μνήμης Αυστηρότερες και ακριβέστερες μετρικές (Λεπτομέρειες εφαρμογής) Αυστηρότερες και ακριβέστερες μετρικές (Λεπτομέρειες εφαρμογής) Συνάρτηση καταλληλότητας για επιβράβευση εκμάθησης Συνάρτηση καταλληλότητας για επιβράβευση εκμάθησης Εξάλειψη πρόσθετης γνώσης (God’s-eye View) Εξάλειψη πρόσθετης γνώσης (God’s-eye View) Δημιουργία μοντέλου αντιπάλων Πρόβλεψη κινήσεων Δημιουργία μοντέλου αντιπάλων Πρόβλεψη κινήσεων
Συναφείς Προσπάθειες Έλεγχος Αεροπλάνου Έλεγχος Αεροπλάνου - Τεχνική behavioral cloning (Sammut et al) - Τεχνική behavioral cloning (Sammut et al) C4.5 Αλγόριθμος - Rule-based KnoMic “Knowledge Mimic” system (Lent & Laird) - Rule-based KnoMic “Knowledge Mimic” system (Lent & Laird) Τροποποιημένος Find-S αλγόριθμος Έμμεση Υιοθέτηση Συμπεριφοράς (Ng & Russell) Έμμεση Υιοθέτηση Συμπεριφοράς (Ng & Russell) - Υπολογισμός συνάρτησης ανταμοιβής ( inverse reinforcement learning ) - Υπολογισμός συνάρτησης ανταμοιβής ( inverse reinforcement learning ) - Εκπαίδευση πρακτόρων με μεθόδους reinforcement learning - Εκπαίδευση πρακτόρων με μεθόδους reinforcement learning