Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής
Εισαγωγή Το σύστημα προσομοίωσης ποδοσφαίρου αποτελεί ιδανικό περιβάλλον πολλαπλών πρακτόρων. Έχει τις εξής ιδιότητες: Είναι δυναμικό (αντίπαλη ομάδα) Είναι θορυβώδες Έχει μερικώς παρατηρίσιμες καταστάσεις Είναι πραγματικού χρόνου
Εισαγωγή Εξαιτίας της πολυπλοκότητας του περιβάλλοντος παρουσιάζει ενδιαφέρον η εφαρμογή της Μηχανικής Μάθησης στους πράκτορες για την απόκτηση ικανοτήτων.
Μηχανική Μάθηση Η έννοια της μάθησης σε ένα σύστημα: Την ικανότητα του στην απόκτηση επιπλέον γνώσης κατά την αλληλεπίδραση του με το περιβάλλον Την ικανότητα βελτίωσης της μελλοντικής συμπεριφοράς του βασισμένο σε προηγούμενη εμπειρία
Μηχανική Μάθηση Η μηχανική μάθηση είναι σημαντική γιατί: Οι εργασίες δεν ορίζονται καλά με παραδείγματα Κρυμμένες σχέσεις/ συσχετισμοί στα δεδομένα Δεν είναι γνωστά τα δεδομένα από την αρχή Πολύ μεγάλη ποσότητα γνώσης Τα περιβάλλοντα αλλάζουν στο χρόνο
Μηχανική Μάθηση Τεχνικές Μηχανικής Μάθησης: Μάθηση εννοιών Δέντρα απόφασης Τεχνητά νευρωνικά δίκτυα Μάθηση κατά Bayes Επαγωγική μάθηση Γενετικοί αλγόριθμοι Μάθηση συνόλων κανόνων Αναλυτική μάθηση Ενισχυτική μάθηση
Ενισχυτική Μάθηση Πως ένας αυτόνομος πράκτορας που έχει αισθήσεις και ενεργεί σε ένα περιβάλλον μπορεί να μάθει να επιλέγει τις βέλτιστες ενέργειες για τον στόχο του; Κάθε φορά που εκτελεί μια ενέργεια του παρέχεται μια ανταμοιβή ή μια ποινή. Στόχος είναι να μάθει από την καθυστερημένη ανταμοιβή να επιλέγει τις ενέργειες που επιφέρουν την μεγαλύτερη ανταμοιβή.
Ενισχυτική Μάθηση Διαφέρει από την μάθηση με επίβλεψη. Σε άγνωστες περιοχές πρέπει να είναι ικανός να μαθαίνει από την εμπειρία του. Πρέπει να υπάρχει εξισορρόπηση (trade-off) μεταξύ της αξιοποίησης (exploitation) της υπάρχουσας γνώσης και της εξερεύνησης (exploration) για καινούργια.
Ενισχυτική Μάθηση Χαρακτηριστικά της Ενισχυτικής Μάθησης: Η πολιτική (απεικόνιση κατάστασης-ενέργειας) Η συνάρτηση ανταμοιβής (απεικόνιση κατάστασης-ανταμοιβής) Η συνάρτηση αξίας (κατάσταση-συνολική ανταμοιβή)
Ενισχυτική Μάθηση t = 0,1,2,3, …
Ενισχυτική Μάθηση Γίνεται υπόθεση ότι ικανοποιείται η ιδιότητα Markov : Σύμφωνα με την οποία η απόκριση του περιβάλλοντος τη χρονική στιγμή t + 1 εξαρτάται μόνο από την κατάσταση και την ενέργεια που επιλέχθηκε τη χρονική στιγμή t
Ενισχυτική Μάθηση Οι συναρτήσεις αξιών καθορίζονται σε σχέση με τις πολιτικές. Όπου πολιτική π αντιστοίχιση καταστάσεων s και ενεργειών α στην πιθανότητα π(s, α). Ακολουθώντας την πολιτική π από την κατάσταση s βρίσκουμε την συνάρτηση κατάστασης-αξίας: Ομοίως βρίσκουμε και την συνάρτηση ενέργειας- αξίας:
Ενισχυτική Μάθηση Οπότε για να υπολογίσουμε την βέλτιστη πολιτική π* βρίσκουμε την βέλτιστη συνάρτηση αξίας: Και την βέλτιστη συνάρτηση ενέργειας – αξίας:
Δυναμικός Προγραμματισμός Υποθέτουμε ότι τα σύνολα καταστάσεων και ενεργειών είναι πεπερασμένα και ότι η δυναμική τους δίνεται από ένα σύνολο πιθανοτήτων μετάβασης: και αναμενόμενων άμεσων ανταμοιβών: Τότε, μπορούμε εύκολα να βρούμε τις βέλτιστες συναρτήσεις αξίας οι οποίες ικανοποιούν τις βέλτιστες εξισώσεις Bellman: ή
Μάθηση Χρονικών Διαφορών Στη μέθοδο αυτή χρησιμοποιείται μόνο η επόμενη χρονική στιγμή t+1 για την αναπροσαρμογή της V οπότε έχουμε:
Q-Μάθηση Στην μάθηση Q υπολογίζουμε την βέλτιστη πολιτική π* παίρνοντας την ενέργεια α στην κατάσταση s που μεγιστοποιεί το άθροισμα της άμεσης ανταμοιβής συν της τιμής V* της επόμενης κατάστασης. H συνάρτηση Q ορίζεται ως εξής: Οπότε μαθαίνοντας κάποιος την συνάρτηση Q μπορεί να υπολογίσει την βέλτιστη πολιτική, γνωρίζοντας μόνο την κατάσταση που βρίσκεται και τις διαθέσιμες ενέργειες.
Robocup Soccer Server Είναι ένα σύστημα εξομοίωσης ποδοσφαίρου που παρέχει ρεαλιστικό χαρακτηριστικα όπως: Αισθήσεις Θόρυβο Περιορισμένη αντίληψη Περιορισμένη αντοχή Αποτελείται από : Soccer server Soccer monitor Logplayer
Robocup Soccer Server O server παρέχει ένα εικονικό γήπεδο ποδοσφαίρου, εξομοιώνει όλες τις κινήσεις των αντικειμένων και λειτουργεί σύμφωνα με κανόνες. Ο monitor είναι ένα εργαλείο απεικόνισης για ότι συμβαίνει στον server κατά την διάρκεια του παιχνιδιού. Ο logplayer χρησιμοποιείται σαν video recorder όπου καταγράφει κάποιον αγώνα και μπορούμε να τον ξαναδούμε.
Επίλυση Προβλημάτων Εφαρμόσαμε τεχνικές μηχανικής μάθησης για την αντιμετώπιση των προβλημάτων: Δύο επιθετικοί εναντίον ενός αμυντικού Αναχαίτιση της μπάλας
Επίλυση Προβλημάτων Το ζητούμενο είναι να μάθει ο επιθετικός που έχει την μπάλα πώς να ενεργήσει, αν θα κάνει σουτ ή αν θα δώσει πάσα.
Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής και οι άλλοι δύο τυχαία μέσα στην μεγάλη περιοχή Χαρακτηριστικά: Απόσταση αμυντικού από συμπαίκτη (μέχρι 8 μέτρα) Απόσταση του επιτιθέμενου από την εστία (μέχρι 21.5 μέτρα) Βήμα διακριτοποίησης 0.2 και 0.5 αντίστοιχα 1720 καταστάσεις από 2 ενέργειες
Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο Softmax: Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 75% επιτυχία 25% αποτυχία
Επίλυση Προβλημάτων Στο δεύτερο πρόβλημα το ζητούμενο είναι να μπορέσει ο τερματοφύλακας να αναχαιτίσει την μπάλα επιλέγοντας μία από τις 6 γωνίες.
Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής. Ο τερματοφύλακας τοποθετείτε στο κέντρο του τέρματος. Χαρακτηριστικά: Κατακόρυφη απόσταση τερματοφύλακα από την μπάλα (μέχρι 5 μέτρα ) Ταχύτητα της μπάλας (μέχρι 2.7 μέτρα/sec) Βήμα διακριτοποίησης 0.4 και 0.3 αντίστοιχα 225 καταστάσεις από 6 ενέργειες
Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο e-greedy. Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 89% επιτυχία 11% αποτυχία
Επίλογος Τα αποτελέσματα που προέκυψαν και στις δύο περιπτώσεις ήταν αρκετά ικανοποιητικά. Η απόδοση της τεχνικής αυτής κατά τον έλεγχο ήταν ιδιαίτερα υψηλή. Η μηχανική μάθηση μπορεί να παρέχει βελτίωση στη συμπεριφορά των πρακτόρων σε περιβάλλοντα πραγματικού χρόνου.