Acquiring Visibly Intelligent Behavior with Example-Guided Neuroevolution Paper: Bobby D.Bryant and Risto Miikkulainen Παρουσίαση: Δήμα Μαρία Δεκέμβριος.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Προσομοίωση Απλού Μοντέλου Markov σε
Advertisements

Δομές Δεδομένων και Αλγόριθμοι
Μεταπτυχιακή Διατριβή
1. Εισαγωγή Ορισμοί:  VOD  NVOD  Live Streaming.
Δασική Διαχειριστική Ι
Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire
Η Μετρηση της Παραγωγικοτητασ των Εργαζομενων στα Logistics
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΠΛΗ513: ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ Othello – TD Learning Μαντάκος Γιώργος Καθηγητής: Μιχαήλ Γ. Λαγουδάκης.
ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ & ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ
ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ ΤΜΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ
Εργαστήριο Λογικής και Υπολογισμών
Peer-to-Peer Systems Ευθυμία Ρόβα Βίκυ Τζιοβάρα Μαρία Χριστοδουλίδου.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΕΠΙΜΕΛΕΙΑ ΕΡΓΑΣΙΑΣ: ΔΗΜΗΤΡΙΟΣ ΜΑΪΟΓΛΟΥ YOU ARE NOW ENTERING TO THE WORLD OF AGENT BASED MODELS.
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
Εφαρμογή της Θεωρίας Βέλτιστης Παύσης στον έλεγχο συνέπειας (consistency) σε WWW Caching Servers Δημήτριος Λορέντζος ΠΛΣ Διπλωματική Εργασία Επιβλέπων:
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
8/4/2002Α.Τσάκωνας, Γ.Δούνιας, SETN-02 Hybrid Computational Intelligence Schemes in Complex Domains: An Extended Review Athanasios Tsakonas and George.
Αναγνώριση Προτύπων.
Προσεγγιστικοί Αλγόριθμοι
Ιωάννης Γ. Κοντοχριστόπουλος Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Επιβλέπων: Επ. Καθηγητής Κ. Σγάρμπας Τετάρτη 10 Οκτωβρίου 2012.
Στοιχεία Διοίκησης Επιχειρήσεων
ΚΕΦΑΛΑΙΟ 15 ΧΩΡΟΘΕΤΗΣΕΙΣ - ΚΑΤΑΝΟΜΕΣ. Είναι δυνατόν μέρος της διαφοροποίησης στην παρατηρούμενη τιμή μιας μεταβλητής να αποδοθεί στη διαφορετική γεωγραφική.
Χωρικά διαφοροποιημένη διαχείριση νερού στη Μεσογειακή Γεωργία Ιωάννης Μανάκος και Χρήστος Καρυδάς Μεσογειακό Αγρονομικό Ινστιτούτο Χανίων, Τμήμα Διαχείρισης.
Computational Imaging Laboratory Υπολογιστική Όραση ΤΜΗΥΠ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ.
«ΣΧΕΔΙΑΣΜΟΣ ΠΡΟΓΡΑΜΜΑΤΩΝ ΜΑΡΚΕΤΙΝΓΚ »
Πτυχιακή εργασία: «Ανάπτυξη αλγορίθμου Γενετικού Προγραμματισμού (Genetic Programming) με δυνατότητα διαχείρισης δενδροειδών δομών και εφαρμογή του στην.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΧΩΡΟΘΕΤΗΣΕΙΣ-ΚΑΤΑΝΟΜΕΣ. Η βασική αρχή του οικονομικού σχεδιασμού είναι η δημιουργία οικονομικών και κοινωνικών στόχων για το μέλλον, εκφρασμένων σε ποσοτικοποιημένα.
Εισαγωγή στην Αξιολόγηση Έργων Πληροφορικής Στρατηγική και Οικονομική των Π.Σ. Βέμου Κωνσταντίνα Τσάμα Ριγκέρς.
Επίλυση Προβλημάτων με Η/Υ
Συστήματα Στήριξης Αποφάσεων
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
ΠΙΝΑΚΑΣ ΕΡΩΤΗΣΕΩΝ Πατήστε στα ποσά για ερώτηση
Ανάπτυξη Πρωτοτύπου Λογισμικού
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Πρόβλεψη εύρους σφάλματος μοντέλου T.E.C. με τη βοήθεια των δεικτών Aa, AE με την Μέθοδο Νευρωνικών Δικτύων Αξενόπουλος Απόστολος & Δάνης Πέτρος Θεσσαλονίκη.
Προηγμένη Τεχνητή Νοημοσύνη Solving Dots-And-Boxes Joseph K. Barker and Richard E. Korf Μεταπτυχιακός Φοιτητής: Ιωάννης Σίδερης (Μ1068) 1/500.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Τηλεπικοινωνιών και Πληροφορίας & Δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ “Χρονοπρογραμματισμός.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Παρεμβολή συνάρτησης μιας μεταβλητής με την βοήθεια νευρωνικών δικτύων
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
ΠΡΟΓΡΑΜΜΑ ΕΞΑΣΚΗΣΗΣ «ΠΑΡΑΔΟΣΙΑΚΟΙ ΧΟΡΟΙ» ΟΝΟΜΑΤΕΠΩΝΥΜΟ : ΣΠΥΡΕΤΑ ΣΠΥΡΟΠΟΥΛΟΥ ΑΕΜ : 1022.
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.
Ιατρικά Συστήματα Τεχνητής Νοημοσύνης με την συνεργασία τεχνικών Ασαφούς Λογικής, Νευρωνικών Δικτύων και Γενετικών Αλγορίθμων. A.Τζαβάρας P.R.Weller B.
ΣΤΡΑΤΗΓΙΚΗ ΑΝΑΠΤΥΞΗΣ ΤΗΣ ΕΥΦΥΟΥΣ ΠΟΛΗΣ
Αποτελέσματα Έργου Έρευνας, Ανάπτυξης και Επίδειξης στα πλαίσια του ΣΥΝΕΡΓΑΣΙΑ11 ΕΣΠΑ Dynamic Cargo Routing on-the-Go Δυναμική Δρομολόγηση.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
Ασκήσεις WEKA Νευρωνικά δίκτυα.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Προσομοίωση και Μοντέλα Συστημάτων (Μέρος B)
Επεξεργασία Κειμένου Διδακτική προσέγγιση των λογισμικών γενικής χρήσης Ζωγραφική Λογιστικά φύλλα Βάσεις δεδομένων.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Βιομηχανικός έλεγχος στην εποχή των υπολογιστών
Συντομότερα Μονοπάτια
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
‘Δομημένος Εξελικτικός Αλγόριθμος’ Επιβλέπων: Κυριάκος Χ. Γιαννάκογλου
ΟΜΑΔΑ Ομαδική εργασία Τζιάτζιος Δημήτριος Ψουρούκα Ευαγγελία
Μεταγράφημα παρουσίασης:

Acquiring Visibly Intelligent Behavior with Example-Guided Neuroevolution Paper: Bobby D.Bryant and Risto Miikkulainen Παρουσίαση: Δήμα Μαρία Δεκέμβριος 2007 Hmm…Let me think…where should I go?

Αυτόνομοι Πράκτορες σε Σύνθετα Περιβάλλοντα Διαφορετική συμπεριφορά κατά περίπτωση Διαφορετική συμπεριφορά κατά περίπτωση Ιδεολογία χαρακτήρα αντίστοιχη του είδους του Ιδεολογία χαρακτήρα αντίστοιχη του είδους του Μη προβλεψιμότητα Μη προβλεψιμότητα Αυξανόμενη δυσκολία ανά επίπεδο Αυξανόμενη δυσκολία ανά επίπεδο Πληθώραενεργειώνκαικαταστάσεων Εγχείρημα Αφομοίωση ευφυούς συμπεριφοράς μέσω καθοδήγησης βασιζόμενης σε παραδείγματα ειδικών Ευφυή συμπεριφορά πρακτόρων, ακόμα και με κόστος απόδοσης

Legion II Game (Προσομοιωτής Παιχνιδιού) Λεγεώνες Προστασία πόλεων Προστασία πόλεων Καταδίωξη βαρβάρων στην ύπαιθρο Καταδίωξη βαρβάρων στην ύπαιθρο Στόχος: Ελαχιστοποίηση λεηλασίας Παιχνίδι στρατηγικής διακριτών καταστάσεων Ομάδες Βαρβάρων Λεηλασία πόλεων (100 πόντοι) Λεηλασία πόλεων (100 πόντοι) Λεηλασία αγροκτημάτων (1 πόντος) Λεηλασία αγροκτημάτων (1 πόντος) Στόχος: Μεγιστοποίηση λεηλασίας Στο τέλος κάθε γύρου, καταμετρούνται οι πόντοι λεηλασίας. Σκορ παιχνιδιού:

Αισθητήρες Λεγεώνων Εγωκεντρική αντίληψη του χώρου Εγωκεντρική αντίληψη του χώρου Κάθε αισθητήρας επιστρέφει ένα αριθμό Κάθε αισθητήρας επιστρέφει ένα αριθμό Αντιπροσωπευτικός της παρουσίας οντοτήτων στο τμήμα του ταμπλό Αντιπροσωπευτικός της παρουσίας οντοτήτων στο τμήμα του ταμπλό Διατήρηση 3 πινάκων για κάθε είδος οντοτήτων ( λεγεώνες, βάρβαροι, πόλεις ) Διατήρηση 3 πινάκων για κάθε είδος οντοτήτων ( λεγεώνες, βάρβαροι, πόλεις ) ΧΒΑΑΝΑ ΝΔΔ ΒΔ ΒΑΑΝΑ ΝΔΔ ΒΔ Τοπική αίσθηση Γειτονική αίσθηση Μακρινή αίσθηση «Πίνακας Αισθήσεων» Ασαφής εικόνα Ασαφής εικόνα Απουσία μνήμης και στόχωνΤοπικές αποφάσεις Απουσία μνήμης και στόχωνΤοπικές αποφάσεις

Ελεγκτής Λεγεώνων Μηχανισμός ελέγχου της κίνησης με χρήση νευρωνικού δικτύου Στόχος: Εκπαίδευση νευρωνικού δικτύου για προσδιορισμό τοπικής ενέργειας (Ακινησία ή κίνηση σε ένα από τα 6 γειτονικά εξάγωνα) (Ακινησία ή κίνηση σε ένα από τα 6 γειτονικά εξάγωνα) Απόδοση κατάλληλων τιμών στα βάρη του δικτύου Απόδοση κατάλληλων τιμών στα βάρη του δικτύου Χ ΒΑΑΝΑΝΔΔΒΔ Τιμές Εξόδου Ελεγκτή Είσοδος: Τιμές Αισθητήρων (39 στοιχεία) Νευρώνες Κρυφού Επιπέδου Νευρώνες Επιπέδου Εξόδου Είσοδος των τιμών των 3 πινάκων που σχηματίστηκαν από τις τιμές των αισθητήρων Είσοδος των τιμών των 3 πινάκων που σχηματίστηκαν από τις τιμές των αισθητήρων Έξοδος τιμών που σχετίζονται με τις 7 πιθανές ενέργειες των λεγεώνων Έξοδος τιμών που σχετίζονται με τις 7 πιθανές ενέργειες των λεγεώνων

Neuroevolution Γενικός κανόνας: Χρήση γενετικών αλγορίθμων για την εκπαίδευση νευρωνικών δικτύων Γενετικοί αλγόριθμοι Διατήρηση ενός πληθυσμού από λύσεις του προβλήματος Διατήρηση ενός πληθυσμού από λύσεις του προβλήματος - Λύση (Σύνολο τιμών)Χρωμόσωμα - Λύση (Σύνολο τιμών)Χρωμόσωμα - Παράμετροι στις οποίες αναφέρονται οι λύσεις Γονότυπος - Παράμετροι στις οποίες αναφέρονται οι λύσεις Γονότυπος - Οντότητα που δημιουργείται από τις λύσεις Φαινότυπος - Οντότητα που δημιουργείται από τις λύσεις Φαινότυπος Ανάπτυξη και τροποποίηση του πληθυσμού μέσω Ανάπτυξη και τροποποίηση του πληθυσμού μέσω - Διασταυρώσεων - Διασταυρώσεων - Μεταλλάξεων - Μεταλλάξεων Enforced Sub-Populations (ESP) Διατήρηση πληθυσμού λύσεων για κάθε νευρώνα ξεχωριστά Διατήρηση πληθυσμού λύσεων για κάθε νευρώνα ξεχωριστά Κατασκευή νευρωνικού δικτύου, επιλέγοντας τυχαία μία λύση από κάθε νευρώνα Κατασκευή νευρωνικού δικτύου, επιλέγοντας τυχαία μία λύση από κάθε νευρώνα Επιλογή αντιπροσώπων νευρώνων που συνεργάζονται καλά μεταξύ τους. Επιλογή αντιπροσώπων νευρώνων που συνεργάζονται καλά μεταξύ τους.

Neuroevolution with ESP Αλγόριθμος Για 5000 επαναλήψεις { Επιλογή 3 παιχνιδιών από ένα σύνολο 10 παιχνιδιών Για κάθε ένα από τα 3 παιχνίδια { Μέχρι να τελειώσουν τα χρωμοσώματα των πληθυσμών { Επέλεξε τυχαία 1 χρωμόσωμα για κάθε νευρώνα Σχηματισμός νευρωνικού δικτύου Αξιολόγηση καταλληλότητας δικτύου Καταγραφή καταλληλότητας νευρώνων }} Μέσος όρος καταλληλότητας για κάθε χρωμόσωμα Επιλογή καταλληλότερου χρωμοσώματος για κάθε νευρώνα Αξιολόγηση καταλληλότητας βέλτιστου νευρωνικού δικτύου ( Αποθήκευση ) Διασταυρώσεις – Μεταλλάξεις χρωμοσωμάτων για κάθε πληθυσμό } Επιστροφή τελευταίου αποθηκευμένου νευρωνικού δικτύου

Θεωρία του Lamarck ΠεριβάλλονΑλλαγή φαινοτύπου οργανισμού ΠεριβάλλονΑλλαγή φαινοτύπου οργανισμού Φαινότυπος Γονότυπος Μεταβίβαση χαρακτηριστικών Φαινότυπος Γονότυπος Μεταβίβαση χαρακτηριστικών... Πληθυσμοί νευρώνων Νευρώνας 1 Νευρώνας 17 Νευρωνικό Δίκτυο Προσαρμοσμένο Νευρωνικό Δίκτυο Ανθρώπινα Παραδείγματα Εκμάθηση Περιβάλλον Αξιολόγηση Καταλληλότητας Προσαρμοσμένα Χρωμοσώματα Backpropagation Αντίστροφος Μηχανισμός

Lamarckian Neuroevolution Αλγόριθμος Για 5000 επαναλήψεις { Επιλογή 3 παιχνιδιών από ένα σύνολο 10 παιχνιδιών Για κάθε ένα από τα 3 παιχνίδια { Μέχρι να τελειώσουν τα χρωμοσώματα των πληθυσμών { Επέλεξε τυχαία 1 χρωμόσωμα για κάθε νευρώνα Σχηματισμός νευρωνικού δικτύου Προσαρμογή εφαρμόζοντας τη θεωρία του Lamarck ( backpropagatιon ) Αξιολόγηση καταλληλότητας δικτύου Καταγραφή καταλληλότητας νευρώνων }} Μέσος όρος καταλληλότητας για κάθε χρωμόσωμα Επιλογή καταλληλότερου χρωμοσώματος για κάθε νευρώνα Αξιολόγηση καταλληλότητας βέλτιστου νευρωνικού δικτύου ( Αποθήκευση ) Διασταυρώσεις – Μεταλλάξεις χρωμοσωμάτων για κάθε πληθυσμό } Επιστροφή τελευταίου αποθηκευμένου νευρωνικού δικτύου

Χαρακτηριστικά Παραδειγμάτων Μορφή: Μορφή: Ισομορφική της εισόδου του νευρωνικού δικτύου Ισομορφική της εισόδου του νευρωνικού δικτύου Κανόνες Κανόνες - Μέγιστη απόσταση φρουρού από πόλη: d 0 - Μέγιστη απόσταση φρουρού από πόλη: d 0 - Επιστροφή στην πόλη, απουσίας βαρβάρων σε απόσταση d - Επιστροφή στην πόλη, απουσίας βαρβάρων σε απόσταση d - Συνθήκη ασφαλείας - Συνθήκη ασφαλείας Πολιτική L 0 και L 1 Πολιτική L 0 και L 1 12 παιχνίδια παραδειγμάτων παραδείγματα ( ) 12 παιχνίδια παραδειγμάτων παραδείγματα ( ) 3 * = διαφορετικά υποσύνολα 3 * = διαφορετικά υποσύνολα Εκπαίδευση μέσω Ανάστροφης Μετάδοσης Λάθους ( επαναλήψεις) Εκπαίδευση μέσω Ανάστροφης Μετάδοσης Λάθους ( επαναλήψεις), Ενέργεια

Έλεγχος Υιοθέτησης Συμπεριφοράς Χρήση Μετρικών Χονδρική προσέγγιση Χονδρική προσέγγιση - Σκορ παιχνιδιών - Σκορ παιχνιδιών - Συμφωνία τοπικών αποφάσεων με αυτών του ανθρώπου (λά θη ) - Συμφωνία τοπικών αποφάσεων με αυτών του ανθρώπου (λά θη ) Συμβιβασμοί Συμβιβασμοί - 1% ανθρώπινο λάθος - Αυθαίρετες ενέργειες όταν δεν παραβιάζεται κάποιος κανόνας - Κατάστρωση επιπρόσθετων σχεδίων Αυστηρή προσέγγιση Αυστηρή προσέγγιση - Έλεγχος συμμόρφωσης στους 3 κανόνες - Έλεγχος συμμόρφωσης στους 3 κανόνες

Χονδρική Προσέγγιση Συμπέρασμα Η εκπαίδευση με χρήση παραδειγμάτων υπερτερεί της απλής εφαρμογής της Ανάστροφης Μετάδοσης Λάθους Neuroevolution L 0 : Lamarckian L 0 : Άνθρωπος L 0 : Backpropagation L 1 : Lamarckian L 1 : Άνθρωπος L 1 : Backpropagation Ποσοστό Λαθών Σκορ Παιχνιδιού

Συμμόρφωση στους Κανόνες Μέση απόσταση από πόλη Απόσταση από πόλη d Συνθήκη ασφαλείας Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Neuroevolution Lamarckian Backpropagation Συμπέρασμα Ταχύτερη συμμόρφωση στους κανόνες με την εκπαίδευση με χρήση παραδειγμάτων Πολιτική L 0 Πολιτική L 1 Παραβιάσεις Απόστασης Γύρος Παιχνιδιού Μέση απόσταση Γύρος Παιχνιδιού Παραβιάσεις Ασφάλειας

Μελλοντικές Ενέργειες Περιβάλλοντα συνεχή στο χώρο και το χρόνο Περιβάλλοντα συνεχή στο χώρο και το χρόνο Ελεγκτές με αξιοποίηση μνήμης Ελεγκτές με αξιοποίηση μνήμης Αυστηρότερες και ακριβέστερες μετρικές (Λεπτομέρειες εφαρμογής) Αυστηρότερες και ακριβέστερες μετρικές (Λεπτομέρειες εφαρμογής) Συνάρτηση καταλληλότητας για επιβράβευση εκμάθησης Συνάρτηση καταλληλότητας για επιβράβευση εκμάθησης Εξάλειψη πρόσθετης γνώσης (God’s-eye View) Εξάλειψη πρόσθετης γνώσης (God’s-eye View) Δημιουργία μοντέλου αντιπάλων Πρόβλεψη κινήσεων Δημιουργία μοντέλου αντιπάλων Πρόβλεψη κινήσεων

Συναφείς Προσπάθειες Έλεγχος Αεροπλάνου Έλεγχος Αεροπλάνου - Τεχνική behavioral cloning (Sammut et al) - Τεχνική behavioral cloning (Sammut et al) C4.5 Αλγόριθμος - Rule-based KnoMic “Knowledge Mimic” system (Lent & Laird) - Rule-based KnoMic “Knowledge Mimic” system (Lent & Laird) Τροποποιημένος Find-S αλγόριθμος Έμμεση Υιοθέτηση Συμπεριφοράς (Ng & Russell) Έμμεση Υιοθέτηση Συμπεριφοράς (Ng & Russell) - Υπολογισμός συνάρτησης ανταμοιβής ( inverse reinforcement learning ) - Υπολογισμός συνάρτησης ανταμοιβής ( inverse reinforcement learning ) - Εκπαίδευση πρακτόρων με μεθόδους reinforcement learning - Εκπαίδευση πρακτόρων με μεθόδους reinforcement learning