Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΚλεόπατρος Κορνάρος Τροποποιήθηκε πριν 8 χρόνια
1
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης
2
Δε μιλάμε για αυτό το παιχνίδι!!!
3
PONG Το pong ήταν το πρώτο δημοφιλές mainstream (sic) arcade παιχνίδι. Εξομοιώνει με ένα απλό μοντέλο, έναν αγώνα τένις. Στο pong, έχουμε δύο μπάρες που εξομοιώνουν τις ρακέτες και -με λίγη φαντασία- μία μπάλα. Σκοπός είναι να μη φύγει η μπάρα εκτός των ορίων του παραθύρου. Αν συμβεί αυτό, τότε η αντίπαλη ρακέτα κερδίζει έναν πόντο.
4
Σκοπός της εργασίας Σκοπός μας στη συγκεκριμένη υλοποίηση του παιχνιδιού είναι η δημιουργία ενός αυτόνομου πράκτορα για τον ένα από τους δύο παίκτες. Ο αυτόνομος πράκτορας θα πρέπει να είναι σε θέση να παίζει το παιχνίδι, χωρίς αρχικά να γνωρίζει τίποτα για αυτό, και μέσα από πληροφορίες που του δίνονται, να καταλάβει τι πρέπει να κάνει. Στη συνέχεια, θα πρέπει να αρχίσει να παίζει μόνος του, με σκοπό να μην αφήνει την μπάλα να πέφτει κάτω.
5
Πιθανή υλοποίηση 1 Μία πιθανή υλοποίηση του πράκτορά μας, θα ήταν ένας πράκτορας ο οποίος θα γνώριζε απόλυτα το (α)χώρο (β)χαρακτηριστικά-κινήσεις του παιχνιδιού ανά πάσα στιγμή και θα έπραττε ανάλογα. Πρόβλημα 1: Δεν εμπίπτει στα πλαίσια ενός πράκτορα που μαθαίνει κι αλληλεπιδρά κι αποφασίζει ανάλογα με το περιβάλλον του! Πρόβλημα 2: Δεν έχει πλάκα (the tron problem).
6
Πιθανή υλοποίηση 2 Εφαρμόζουμε στον πράκτορά μας τον αλγόριθμο μάθησης q-learning. Χρειαζόμαστε: - όλες τις πιθανές καταστάσεις που μπορεί να βρεθεί κάθε χρονική στιγμή οποιοδήποτε κινούμενο αντικείμενο μας ενδιαφέρει - κάθε δυνατή συσχέτιση και επιμέρους χαρακτηριστικό που μπορούμε να εξάγουμε από πιθανό συνδιασμό πρωτογενών χαρακτηριστικών. Χρησιμοποιούμε όλα αυτά τα χαρακτηριστικά και την πληροφορία στον πράκτορά μας, ο οποίος μέσω όλων αυτών, αποκτά σιγά-σιγά μια εικόνα για τον κόσμο που ανήκει και τη δράση που πρέπει να ακολουθήσει. Για να μπορεί ο πράκτορας να αντιληφθεί πότε μια ενέργειά του μας αρέσει περισσότερο ή λιγότερο, χρησιμοποιούμε τη μέθοδο της ανταμοιβής.
7
Q-Learning Συγκεκριμένα, χρησιμοποιήσαμε τον Q-learning με γραμμική αρχιτεκτονική προσέγγισης. Γραμμικός συνδιασμός συναρτήσεων βάσης Εύκολα υπολογίσιμη παράγωγος. Δημιουργήσαμε ένα διάνυσμα από τις συναρτήσεις βάσης. Εσωτερικό γινόμενο με το διάνυσμα βαρών
8
Χαρακτηριστικά Το πιο βασικό χαρακτηριστικό για την υλοποίηση του αλγορίθμου ήταν οι καλά ορισμένες συναρτήσεις βάσης. Οι συναρτήσεις βάσης περιγράφουν και ορίζουν τα χαρακτηριστικά του προβλήματος. Χρησιμοποιήσαμε 6 συναρτήσεις βάσης: Y συντεταγμένη της μπαρας Υ συντεταγμένη της μπάλας Χ συντεταγμένη της μπάλας. Επιπλέον συνδιασμός, μας έδωσε συναρτήσεις για: Την ευκλείδια απόσταση της μπάρας από την μπάλα. Τη σχετική θέση μπάλας-μπάρας Τη σχετική κατεύθυνση μπάλας μπάρας.
9
Πιθανή Υλοποίηση 2 Το προηγούμενο λύνει το πρόβλημα; ΌΧΙ Η προηγούμενη μέθοδος, απλώς υπολογίζει τα βέλτιστα βάρη με τα οποία θα πρέπει να επιφορτιστούν συγκεκριμένα χαρακτηριστικά, έτσι ώστε να μας οδηγήσουν στη σωστή απόφαση. Ωστόσο, το παιχνίδι από πλευράς του πράκτορά μας, συνεχίζει να εξελίσσεται τυχαία. Θα πρέπει επομένως να βοηθήσουμε τον πράκτορα με κάποιον τρόπο να χρησιμοποιήσει αυτά που έμαθε. Έπειτα, αν είναι δυνατό, να μη σταματήσει τη μάθησή του αλλά να συνεχίσει να μαθαίνει.
10
Ολοκλήρωση υλοποίησης Για να καταφέρουμε ταυτόχρονα να κάνουμε τον πράκτορα να μαθαίνει, αλλά στη συνέχεια να χρησιμοποιεί τη γνώση του στο παιχνίδι, ακολουθήσαμε την εξής πολιτική: Με τη βοήθεια συναρτήσεων παραγωγής τυχαίων αριθμών, ο πράκτοράς μας ξεκινά τις πρώτες του δοκιμές στο παιχνίδι επιλέγοντας τυχαίες κινήσεις. Με το πέρασμα των επαναλήψεων, γραμμικά, αρχίζει να παίζει όλο και περισσότερο χρησιμοποιώντας τη γνώση που έχει αποκτήσει. Τελικά, καταλήγει να παίζει μόνος του, με βάση τη δική του γνώση. Ωστόσο, σε ένα μικρό ποσοστό (π.χ. 1/10) παίζει και μια τυχαία παρτίδα, έτσι ώστε να βελτιώσει λίγο τις τιμές των βαρών του, αν αυτό κριθεί απαραίτητο(με μια επιπλέον τυχαία κίνηση για παράδειγμα).
11
Αποτελέσματα-Βελτιώσεις Για 10,000 δείγματα χρειάστηκαν περίπου 8 ώρες. Τα αποτελέσματα δεν ήταν τα αναμενόμενα μετά τα 10,000 δείγματα, καθώς ο πράκτοράς μας είχε μια μάλλον ”στατική” συμπεριφορά. Ωστόσο, στα 3,000 περίπου δείγματα, μέχρι τα 3,500, έκανε αρκετά ικανοποιητικά παιχνίδια. Λόγω τερματικών καταστάσεων, που είναι πάρα πολύ συχνές, υποθέτουμε ότι ο πράκτορας λόγω αυτού στο τέλος ”συγκλίνει” σε συγκεκριμένες θέσεις και δεν παίρνει υπόψιν του τα υπόλοιπα (αρκετά )δείγματα..
12
Μελλοντική Δουλειά Το ιδανικό για τον πράκτορά μας, θα ήταν να μπορεί να μάθει από τις ”στοχευμένες” κινήσεις του. Θα παίζει σύμφωνα με τη γνώση που έχει συσσωρεύσει, και θα τη βελτιώνει μέσα από παρεταίρω επαναλήψεις. Μία βελτίωση θα ήταν ο πράκτορας να μπορεί να μαθαίνει και να βελτιώνει από το ίδιο του το παιχνίδι. Με άλλα λόγια, ο πράκτορας θα μαθαίνει από τα ίδια του τα βάρη. Αυτό θα ολοκλήρωνε τη συγκεκριμένη εργασία, ωστόσο η πολυπλοκότητα είναι πολύ μεγάλη.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.