Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεἌλκανδρος Λαμέρας Τροποποιήθηκε πριν 9 χρόνια
1
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής
2
Εισαγωγή Το σύστημα προσομοίωσης ποδοσφαίρου αποτελεί ιδανικό περιβάλλον πολλαπλών πρακτόρων. Έχει τις εξής ιδιότητες: Είναι δυναμικό (αντίπαλη ομάδα) Είναι θορυβώδες Έχει μερικώς παρατηρίσιμες καταστάσεις Είναι πραγματικού χρόνου
3
Εισαγωγή Εξαιτίας της πολυπλοκότητας του περιβάλλοντος παρουσιάζει ενδιαφέρον η εφαρμογή της Μηχανικής Μάθησης στους πράκτορες για την απόκτηση ικανοτήτων.
4
Μηχανική Μάθηση Η έννοια της μάθησης σε ένα σύστημα: Την ικανότητα του στην απόκτηση επιπλέον γνώσης κατά την αλληλεπίδραση του με το περιβάλλον Την ικανότητα βελτίωσης της μελλοντικής συμπεριφοράς του βασισμένο σε προηγούμενη εμπειρία
5
Μηχανική Μάθηση Η μηχανική μάθηση είναι σημαντική γιατί: Οι εργασίες δεν ορίζονται καλά με παραδείγματα Κρυμμένες σχέσεις/ συσχετισμοί στα δεδομένα Δεν είναι γνωστά τα δεδομένα από την αρχή Πολύ μεγάλη ποσότητα γνώσης Τα περιβάλλοντα αλλάζουν στο χρόνο
6
Μηχανική Μάθηση Τεχνικές Μηχανικής Μάθησης: Μάθηση εννοιών Δέντρα απόφασης Τεχνητά νευρωνικά δίκτυα Μάθηση κατά Bayes Επαγωγική μάθηση Γενετικοί αλγόριθμοι Μάθηση συνόλων κανόνων Αναλυτική μάθηση Ενισχυτική μάθηση
7
Ενισχυτική Μάθηση Πως ένας αυτόνομος πράκτορας που έχει αισθήσεις και ενεργεί σε ένα περιβάλλον μπορεί να μάθει να επιλέγει τις βέλτιστες ενέργειες για τον στόχο του; Κάθε φορά που εκτελεί μια ενέργεια του παρέχεται μια ανταμοιβή ή μια ποινή. Στόχος είναι να μάθει από την καθυστερημένη ανταμοιβή να επιλέγει τις ενέργειες που επιφέρουν την μεγαλύτερη ανταμοιβή.
8
Ενισχυτική Μάθηση Διαφέρει από την μάθηση με επίβλεψη. Σε άγνωστες περιοχές πρέπει να είναι ικανός να μαθαίνει από την εμπειρία του. Πρέπει να υπάρχει εξισορρόπηση (trade-off) μεταξύ της αξιοποίησης (exploitation) της υπάρχουσας γνώσης και της εξερεύνησης (exploration) για καινούργια.
9
Ενισχυτική Μάθηση Χαρακτηριστικά της Ενισχυτικής Μάθησης: Η πολιτική (απεικόνιση κατάστασης-ενέργειας) Η συνάρτηση ανταμοιβής (απεικόνιση κατάστασης-ανταμοιβής) Η συνάρτηση αξίας (κατάσταση-συνολική ανταμοιβή)
10
Ενισχυτική Μάθηση t = 0,1,2,3, …
11
Ενισχυτική Μάθηση Γίνεται υπόθεση ότι ικανοποιείται η ιδιότητα Markov : Σύμφωνα με την οποία η απόκριση του περιβάλλοντος τη χρονική στιγμή t + 1 εξαρτάται μόνο από την κατάσταση και την ενέργεια που επιλέχθηκε τη χρονική στιγμή t
12
Ενισχυτική Μάθηση Οι συναρτήσεις αξιών καθορίζονται σε σχέση με τις πολιτικές. Όπου πολιτική π αντιστοίχιση καταστάσεων s και ενεργειών α στην πιθανότητα π(s, α). Ακολουθώντας την πολιτική π από την κατάσταση s βρίσκουμε την συνάρτηση κατάστασης-αξίας: Ομοίως βρίσκουμε και την συνάρτηση ενέργειας- αξίας:
13
Ενισχυτική Μάθηση Οπότε για να υπολογίσουμε την βέλτιστη πολιτική π* βρίσκουμε την βέλτιστη συνάρτηση αξίας: Και την βέλτιστη συνάρτηση ενέργειας – αξίας:
14
Δυναμικός Προγραμματισμός Υποθέτουμε ότι τα σύνολα καταστάσεων και ενεργειών είναι πεπερασμένα και ότι η δυναμική τους δίνεται από ένα σύνολο πιθανοτήτων μετάβασης: και αναμενόμενων άμεσων ανταμοιβών: Τότε, μπορούμε εύκολα να βρούμε τις βέλτιστες συναρτήσεις αξίας οι οποίες ικανοποιούν τις βέλτιστες εξισώσεις Bellman: ή
15
Μάθηση Χρονικών Διαφορών Στη μέθοδο αυτή χρησιμοποιείται μόνο η επόμενη χρονική στιγμή t+1 για την αναπροσαρμογή της V οπότε έχουμε:
16
Q-Μάθηση Στην μάθηση Q υπολογίζουμε την βέλτιστη πολιτική π* παίρνοντας την ενέργεια α στην κατάσταση s που μεγιστοποιεί το άθροισμα της άμεσης ανταμοιβής συν της τιμής V* της επόμενης κατάστασης. H συνάρτηση Q ορίζεται ως εξής: Οπότε μαθαίνοντας κάποιος την συνάρτηση Q μπορεί να υπολογίσει την βέλτιστη πολιτική, γνωρίζοντας μόνο την κατάσταση που βρίσκεται και τις διαθέσιμες ενέργειες.
17
Robocup Soccer Server Είναι ένα σύστημα εξομοίωσης ποδοσφαίρου που παρέχει ρεαλιστικό χαρακτηριστικα όπως: Αισθήσεις Θόρυβο Περιορισμένη αντίληψη Περιορισμένη αντοχή Αποτελείται από : Soccer server Soccer monitor Logplayer
18
Robocup Soccer Server O server παρέχει ένα εικονικό γήπεδο ποδοσφαίρου, εξομοιώνει όλες τις κινήσεις των αντικειμένων και λειτουργεί σύμφωνα με κανόνες. Ο monitor είναι ένα εργαλείο απεικόνισης για ότι συμβαίνει στον server κατά την διάρκεια του παιχνιδιού. Ο logplayer χρησιμοποιείται σαν video recorder όπου καταγράφει κάποιον αγώνα και μπορούμε να τον ξαναδούμε.
19
Επίλυση Προβλημάτων Εφαρμόσαμε τεχνικές μηχανικής μάθησης για την αντιμετώπιση των προβλημάτων: Δύο επιθετικοί εναντίον ενός αμυντικού Αναχαίτιση της μπάλας
20
Επίλυση Προβλημάτων Το ζητούμενο είναι να μάθει ο επιθετικός που έχει την μπάλα πώς να ενεργήσει, αν θα κάνει σουτ ή αν θα δώσει πάσα.
21
Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής και οι άλλοι δύο τυχαία μέσα στην μεγάλη περιοχή Χαρακτηριστικά: Απόσταση αμυντικού από συμπαίκτη (μέχρι 8 μέτρα) Απόσταση του επιτιθέμενου από την εστία (μέχρι 21.5 μέτρα) Βήμα διακριτοποίησης 0.2 και 0.5 αντίστοιχα 1720 καταστάσεις από 2 ενέργειες
22
Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο Softmax: Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 75% επιτυχία 25% αποτυχία
23
Επίλυση Προβλημάτων Στο δεύτερο πρόβλημα το ζητούμενο είναι να μπορέσει ο τερματοφύλακας να αναχαιτίσει την μπάλα επιλέγοντας μία από τις 6 γωνίες.
24
Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής. Ο τερματοφύλακας τοποθετείτε στο κέντρο του τέρματος. Χαρακτηριστικά: Κατακόρυφη απόσταση τερματοφύλακα από την μπάλα (μέχρι 5 μέτρα ) Ταχύτητα της μπάλας (μέχρι 2.7 μέτρα/sec) Βήμα διακριτοποίησης 0.4 και 0.3 αντίστοιχα 225 καταστάσεις από 6 ενέργειες
25
Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο e-greedy. Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 89% επιτυχία 11% αποτυχία
26
Επίλογος Τα αποτελέσματα που προέκυψαν και στις δύο περιπτώσεις ήταν αρκετά ικανοποιητικά. Η απόδοση της τεχνικής αυτής κατά τον έλεγχο ήταν ιδιαίτερα υψηλή. Η μηχανική μάθηση μπορεί να παρέχει βελτίωση στη συμπεριφορά των πρακτόρων σε περιβάλλοντα πραγματικού χρόνου.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.