Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής."— Μεταγράφημα παρουσίασης:

1 Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής

2 Εισαγωγή Το σύστημα προσομοίωσης ποδοσφαίρου αποτελεί ιδανικό περιβάλλον πολλαπλών πρακτόρων. Έχει τις εξής ιδιότητες: Είναι δυναμικό (αντίπαλη ομάδα) Είναι θορυβώδες Έχει μερικώς παρατηρίσιμες καταστάσεις Είναι πραγματικού χρόνου

3 Εισαγωγή Εξαιτίας της πολυπλοκότητας του περιβάλλοντος παρουσιάζει ενδιαφέρον η εφαρμογή της Μηχανικής Μάθησης στους πράκτορες για την απόκτηση ικανοτήτων.

4 Μηχανική Μάθηση Η έννοια της μάθησης σε ένα σύστημα: Την ικανότητα του στην απόκτηση επιπλέον γνώσης κατά την αλληλεπίδραση του με το περιβάλλον Την ικανότητα βελτίωσης της μελλοντικής συμπεριφοράς του βασισμένο σε προηγούμενη εμπειρία

5 Μηχανική Μάθηση Η μηχανική μάθηση είναι σημαντική γιατί: Οι εργασίες δεν ορίζονται καλά με παραδείγματα Κρυμμένες σχέσεις/ συσχετισμοί στα δεδομένα Δεν είναι γνωστά τα δεδομένα από την αρχή Πολύ μεγάλη ποσότητα γνώσης Τα περιβάλλοντα αλλάζουν στο χρόνο

6 Μηχανική Μάθηση Τεχνικές Μηχανικής Μάθησης: Μάθηση εννοιών Δέντρα απόφασης Τεχνητά νευρωνικά δίκτυα Μάθηση κατά Bayes Επαγωγική μάθηση Γενετικοί αλγόριθμοι Μάθηση συνόλων κανόνων Αναλυτική μάθηση Ενισχυτική μάθηση

7 Ενισχυτική Μάθηση Πως ένας αυτόνομος πράκτορας που έχει αισθήσεις και ενεργεί σε ένα περιβάλλον μπορεί να μάθει να επιλέγει τις βέλτιστες ενέργειες για τον στόχο του; Κάθε φορά που εκτελεί μια ενέργεια του παρέχεται μια ανταμοιβή ή μια ποινή. Στόχος είναι να μάθει από την καθυστερημένη ανταμοιβή να επιλέγει τις ενέργειες που επιφέρουν την μεγαλύτερη ανταμοιβή.

8 Ενισχυτική Μάθηση Διαφέρει από την μάθηση με επίβλεψη. Σε άγνωστες περιοχές πρέπει να είναι ικανός να μαθαίνει από την εμπειρία του. Πρέπει να υπάρχει εξισορρόπηση (trade-off) μεταξύ της αξιοποίησης (exploitation) της υπάρχουσας γνώσης και της εξερεύνησης (exploration) για καινούργια.

9 Ενισχυτική Μάθηση Χαρακτηριστικά της Ενισχυτικής Μάθησης: Η πολιτική (απεικόνιση κατάστασης-ενέργειας) Η συνάρτηση ανταμοιβής (απεικόνιση κατάστασης-ανταμοιβής) Η συνάρτηση αξίας (κατάσταση-συνολική ανταμοιβή)

10 Ενισχυτική Μάθηση t = 0,1,2,3, …

11 Ενισχυτική Μάθηση Γίνεται υπόθεση ότι ικανοποιείται η ιδιότητα Markov : Σύμφωνα με την οποία η απόκριση του περιβάλλοντος τη χρονική στιγμή t + 1 εξαρτάται μόνο από την κατάσταση και την ενέργεια που επιλέχθηκε τη χρονική στιγμή t

12 Ενισχυτική Μάθηση Οι συναρτήσεις αξιών καθορίζονται σε σχέση με τις πολιτικές. Όπου πολιτική π αντιστοίχιση καταστάσεων s και ενεργειών α στην πιθανότητα π(s, α). Ακολουθώντας την πολιτική π από την κατάσταση s βρίσκουμε την συνάρτηση κατάστασης-αξίας: Ομοίως βρίσκουμε και την συνάρτηση ενέργειας- αξίας:

13 Ενισχυτική Μάθηση Οπότε για να υπολογίσουμε την βέλτιστη πολιτική π* βρίσκουμε την βέλτιστη συνάρτηση αξίας: Και την βέλτιστη συνάρτηση ενέργειας – αξίας:

14 Δυναμικός Προγραμματισμός Υποθέτουμε ότι τα σύνολα καταστάσεων και ενεργειών είναι πεπερασμένα και ότι η δυναμική τους δίνεται από ένα σύνολο πιθανοτήτων μετάβασης: και αναμενόμενων άμεσων ανταμοιβών: Τότε, μπορούμε εύκολα να βρούμε τις βέλτιστες συναρτήσεις αξίας οι οποίες ικανοποιούν τις βέλτιστες εξισώσεις Bellman: ή

15 Μάθηση Χρονικών Διαφορών Στη μέθοδο αυτή χρησιμοποιείται μόνο η επόμενη χρονική στιγμή t+1 για την αναπροσαρμογή της V οπότε έχουμε:

16 Q-Μάθηση Στην μάθηση Q υπολογίζουμε την βέλτιστη πολιτική π* παίρνοντας την ενέργεια α στην κατάσταση s που μεγιστοποιεί το άθροισμα της άμεσης ανταμοιβής συν της τιμής V* της επόμενης κατάστασης. H συνάρτηση Q ορίζεται ως εξής: Οπότε μαθαίνοντας κάποιος την συνάρτηση Q μπορεί να υπολογίσει την βέλτιστη πολιτική, γνωρίζοντας μόνο την κατάσταση που βρίσκεται και τις διαθέσιμες ενέργειες.

17 Robocup Soccer Server Είναι ένα σύστημα εξομοίωσης ποδοσφαίρου που παρέχει ρεαλιστικό χαρακτηριστικα όπως: Αισθήσεις Θόρυβο Περιορισμένη αντίληψη Περιορισμένη αντοχή Αποτελείται από : Soccer server Soccer monitor Logplayer

18 Robocup Soccer Server O server παρέχει ένα εικονικό γήπεδο ποδοσφαίρου, εξομοιώνει όλες τις κινήσεις των αντικειμένων και λειτουργεί σύμφωνα με κανόνες. Ο monitor είναι ένα εργαλείο απεικόνισης για ότι συμβαίνει στον server κατά την διάρκεια του παιχνιδιού. Ο logplayer χρησιμοποιείται σαν video recorder όπου καταγράφει κάποιον αγώνα και μπορούμε να τον ξαναδούμε.

19 Επίλυση Προβλημάτων Εφαρμόσαμε τεχνικές μηχανικής μάθησης για την αντιμετώπιση των προβλημάτων: Δύο επιθετικοί εναντίον ενός αμυντικού Αναχαίτιση της μπάλας

20 Επίλυση Προβλημάτων Το ζητούμενο είναι να μάθει ο επιθετικός που έχει την μπάλα πώς να ενεργήσει, αν θα κάνει σουτ ή αν θα δώσει πάσα.

21 Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής και οι άλλοι δύο τυχαία μέσα στην μεγάλη περιοχή Χαρακτηριστικά: Απόσταση αμυντικού από συμπαίκτη (μέχρι 8 μέτρα) Απόσταση του επιτιθέμενου από την εστία (μέχρι 21.5 μέτρα) Βήμα διακριτοποίησης 0.2 και 0.5 αντίστοιχα 1720 καταστάσεις από 2 ενέργειες

22 Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο Softmax: Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 75% επιτυχία 25% αποτυχία

23 Επίλυση Προβλημάτων Στο δεύτερο πρόβλημα το ζητούμενο είναι να μπορέσει ο τερματοφύλακας να αναχαιτίσει την μπάλα επιλέγοντας μία από τις 6 γωνίες.

24 Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής. Ο τερματοφύλακας τοποθετείτε στο κέντρο του τέρματος. Χαρακτηριστικά: Κατακόρυφη απόσταση τερματοφύλακα από την μπάλα (μέχρι 5 μέτρα ) Ταχύτητα της μπάλας (μέχρι 2.7 μέτρα/sec) Βήμα διακριτοποίησης 0.4 και 0.3 αντίστοιχα 225 καταστάσεις από 6 ενέργειες

25 Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο e-greedy. Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 89% επιτυχία 11% αποτυχία

26 Επίλογος Τα αποτελέσματα που προέκυψαν και στις δύο περιπτώσεις ήταν αρκετά ικανοποιητικά. Η απόδοση της τεχνικής αυτής κατά τον έλεγχο ήταν ιδιαίτερα υψηλή. Η μηχανική μάθηση μπορεί να παρέχει βελτίωση στη συμπεριφορά των πρακτόρων σε περιβάλλοντα πραγματικού χρόνου.


Κατέβασμα ppt "Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google