Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Καταδίωξη / Διαφυγή. Οι κανόνες • Ένας «φυγάς», ένας ή περισσότεροι «κυνηγοί» • Κινούνται πάνω σε ένα γράφημα • Στην πιο απλή περίπτωση, μία κίνηση ο.
Advertisements

Ικανότητες Επικοινωνίας
ΜΠΑΣΚΕΤ: ΕΝΑ ΠΑΙΧΝΙΔΙ ΠΟΥ ΛΑΤΡΕΥΩ
BOCCIA IN ACTION! Μια σύντομη παρουσίαση του Μπότσια, για να μάθετε πως παίζεται αυτό το υπέροχο παιχνίδι!
Η Γλώσσα Προγραμματισμού LOGO
Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire
Γιατί να μελετούμε Ιστορία;
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΠΛΗ513: ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ Othello – TD Learning Μαντάκος Γιώργος Καθηγητής: Μιχαήλ Γ. Λαγουδάκης.
ΚΡΙΤΣΙΛΙΓΚΟΣ ΚΟΚΙΟΥΣΗΣ
Εργασία στο μάθημα «Αυτόνομοι πράκτορες»
Πολυπλοκότητα Παράμετροι της αποδοτικότητας ενός αλγόριθμου:
Το εκκρεμές του Foucault
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Αυτόνομοι Πράκτορες Xειμερινό Εξάμηνο Εργασία Εξαμήνου Σκιπετάρης Δημοσθένης Αμ :
Εργαστήρι παραγωγής λεβέ!!
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 3) 1 Από κοινού κατανομή δύο ΤΜ Στην περίπτωση που υπάρχουν δύο ΤΜ ενδιαφέροντος, η συνάρτηση κατανομής.
Τυχαιοκρατικοί Αλγόριθμοι TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA Πιθανότητες και Αλγόριθμοι Ανάλυση μέσης.
Συγγραφή και παρουσίαση άρθρων Περιεχόμενο Δομή Διαδικασία Πως γίνομαι καλύτερος Μέρος Α: Περιεχόμενο + Δομή + Διαδικασία Μέρος Β: Πως γίνομαι καλύτερος.
Ανάπτυξη της γλώσσας Η ανάπτυξη της γλωσσικής ικανότητας περνάει από συγκεκριμένα στάδια απόκτησης γλωσσικών επιπέδων. Ο στόχος ενός παιδιού που μαθαίνει.
Κεφάλαιο 2 Κίνηση σε μία διάσταση
Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2013 Διδάσκων: Δημήτριος Ι. Φωτιάδης Υπολογιστική Μοντελοποίηση στη Βιοϊατρική Τεχνολογία.
3D Space Invader Πετράκης Γιάννης. Περιγραφή παιχνιδιού Αποτελείται από Ένα όχημα που βρίσκεται στο έδαφος, κινείται στις δύο διαστάσεις και πυροβολεί.
Αυτόνομοι Πράκτορες Ακολουθία κινήσεων για τον ΝΑΟ Στόχος είναι ο ΝΑΟ να ρίχνει την μπάλα σε ένα καλάθι του basket και να βάζει «καλαθιά»
ΚΑΘΗΜΕΡΙΝΕΣ ΙΣΤΟΡΙΕΣ ΣΧΟΛΙΚΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ
Grid World με αντίπαλο - κυνηγό ΠΛΗ513 ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΜΑΪΝΑΣ ΝΙΚΟΣ
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 4) 1 Από κοινού κατανομή πολλών ΤΜ Ορίζεται ως από κοινού συνάρτηση κατανομής F(x 1, …, x n ) n τυχαίων.
Ελεύθερη πτώση ΓεωργίαΕιρήνη Δημοτικό Σχολείο Αγίου Αντωνίου.
 Προσαρμόζοντας τις προσδοκίες Οι γονείς πρέπει να καταλάβουν ότι το δυσλεκτικό παιδί τους χρειάζεται να προσπαθήσει περισσότερο και με διαφορετικό τρόπο.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
ΕΙΔΙΚΗ ΘΕΩΡΙΑ ΤΗΣ ΣΧΕΤΙΚΟΤΗΤΑΣ
Διδασκαλια και Μαθηση με Χρηση ΤΠΕ
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΠΟΙΟΤΗΤΑΣ. ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ Ο προγραμματισμός είναι η πρώτη λειτουργία του μάνατζμεντ. Έχει μελλοντοστρεφή χαρακτήρα, προσφέρει κατεύθυνση.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Παρεμβολή συνάρτησης μιας μεταβλητής με την βοήθεια νευρωνικών δικτύων
Το δικαιωμα ςτο παιχνιδι
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Ελευθερία στα σχολεία Οδηγός εγκατάστασης Ubuntu Ltsp + Εκπαιδευτικό υλικό.
Η Άννα είναι ένα κοριτσάκι 5 ετών όπου μία επέμβαση στον υποθάλαμο του εγκεφάλου σε ηλικία 4 ετών περιόρισε σημαντικά τον κινητό έλεγχο των άνω και κάτω.
Εργασία στο μάθημα : Η Λογοτεχνία στο Νηπιαγωγείο Καραμπότη Μαίρη.
Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.
ΘΕΜΑ Άρθρο 5/ ο Διαιτητής Καθήκοντα και αρμοδιότητες ΤΟ ΠΛΕΟΝΕΚΤΗΜΑ.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Εκπαιδευτικές τεχνικές Π.Απόστολος. Προσχολική ηλικία Της Εύας της αρέσουν οι δραστηριότητες του νηπιαγωγείου αλλά καμιά φορά κολλάει στην αγαπημένη της.
Labyrinth Project : AIBO and Labyrinth. Βασική Ιδέα Απόδραση του ΑΙΒΟ από λαβύρινθο Χρηση αλγορίθμου Left Wall Following Καταγραφή των κελιών που πέρασε.
Συνέντευξη με νήπια.
Ανάπτυξη της γλώσσας Η ανάπτυξη της γλωσσικής ικανότητας περνάει από συγκεκριμένα στάδια απόκτησης γλωσσικών επιπέδων. Ο στόχος ενός παιδιού που μαθαίνει.
ΧΡΟΝΟΙ-ΧΡΟΝΙΚΕΣ ΒΑΘΜΙΔΕΣ- ΠΟΙΟΝ ΕΝΕΡΓΕΙΑΣ
Χειρισμός Χρόνου και Μεθοδολογίες Προσομοίωσης
Πολυκριτήριος Γραμμικός Προγραμματισμός
Ασκήσεις WEKA Νευρωνικά δίκτυα.
Βελτιστοποίηση σε τρίλιζα Καταδίωξη/διαφυγή
Παραδείγματα εκπαιδευτικών ερευνών δράσης
Διάλεξη 15: O αλγόριθμος SIMPLE
Εισαγωγή στο Γραμμικό Προγραμματισμό
Νοήμονες Πράκτορες.
Ψηφιακός Έλεγχος διάλεξη Παρατηρητές Ψηφιακός Έλεγχος.
ΕΝΟΤΗΤΑ Δ΄: επίλυση προβλημάτων
Ξέρουμε από τα προηγούμενα:
ΦΑΣΗ φ ΤΗΣ ΑΠΛΗΣ ΑΡΜΟΝΙΚΗΣ ΤΑΛΑΝΤΩΣΗΣ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Φοιτητής: Γκούλης Ευάγγελος ΑΕΜ: 3342
Μη Γραμμικός Προγραμματισμός
ΚΑΘΗΜΕΡΙΝΕΣ ΙΣΤΟΡΙΕΣ ΣΧΟΛΙΚΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ
Εργασία στην Αναπτυξιακή Ψυχολογία
1/θ Νηπιαγωγείο Ριόλου
Μεταγράφημα παρουσίασης:

Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης

Δε μιλάμε για αυτό το παιχνίδι!!!

PONG Το pong ήταν το πρώτο δημοφιλές mainstream (sic) arcade παιχνίδι. Εξομοιώνει με ένα απλό μοντέλο, έναν αγώνα τένις. Στο pong, έχουμε δύο μπάρες που εξομοιώνουν τις ρακέτες και -με λίγη φαντασία- μία μπάλα. Σκοπός είναι να μη φύγει η μπάρα εκτός των ορίων του παραθύρου. Αν συμβεί αυτό, τότε η αντίπαλη ρακέτα κερδίζει έναν πόντο.

Σκοπός της εργασίας Σκοπός μας στη συγκεκριμένη υλοποίηση του παιχνιδιού είναι η δημιουργία ενός αυτόνομου πράκτορα για τον ένα από τους δύο παίκτες. Ο αυτόνομος πράκτορας θα πρέπει να είναι σε θέση να παίζει το παιχνίδι, χωρίς αρχικά να γνωρίζει τίποτα για αυτό, και μέσα από πληροφορίες που του δίνονται, να καταλάβει τι πρέπει να κάνει. Στη συνέχεια, θα πρέπει να αρχίσει να παίζει μόνος του, με σκοπό να μην αφήνει την μπάλα να πέφτει κάτω.

Πιθανή υλοποίηση 1 Μία πιθανή υλοποίηση του πράκτορά μας, θα ήταν ένας πράκτορας ο οποίος θα γνώριζε απόλυτα το (α)χώρο (β)χαρακτηριστικά-κινήσεις του παιχνιδιού ανά πάσα στιγμή και θα έπραττε ανάλογα. Πρόβλημα 1: Δεν εμπίπτει στα πλαίσια ενός πράκτορα που μαθαίνει κι αλληλεπιδρά κι αποφασίζει ανάλογα με το περιβάλλον του! Πρόβλημα 2: Δεν έχει πλάκα (the tron problem).

Πιθανή υλοποίηση 2 Εφαρμόζουμε στον πράκτορά μας τον αλγόριθμο μάθησης q-learning. Χρειαζόμαστε: - όλες τις πιθανές καταστάσεις που μπορεί να βρεθεί κάθε χρονική στιγμή οποιοδήποτε κινούμενο αντικείμενο μας ενδιαφέρει - κάθε δυνατή συσχέτιση και επιμέρους χαρακτηριστικό που μπορούμε να εξάγουμε από πιθανό συνδιασμό πρωτογενών χαρακτηριστικών. Χρησιμοποιούμε όλα αυτά τα χαρακτηριστικά και την πληροφορία στον πράκτορά μας, ο οποίος μέσω όλων αυτών, αποκτά σιγά-σιγά μια εικόνα για τον κόσμο που ανήκει και τη δράση που πρέπει να ακολουθήσει. Για να μπορεί ο πράκτορας να αντιληφθεί πότε μια ενέργειά του μας αρέσει περισσότερο ή λιγότερο, χρησιμοποιούμε τη μέθοδο της ανταμοιβής.

Q-Learning Συγκεκριμένα, χρησιμοποιήσαμε τον Q-learning με γραμμική αρχιτεκτονική προσέγγισης. Γραμμικός συνδιασμός συναρτήσεων βάσης Εύκολα υπολογίσιμη παράγωγος. Δημιουργήσαμε ένα διάνυσμα από τις συναρτήσεις βάσης. Εσωτερικό γινόμενο με το διάνυσμα βαρών

Χαρακτηριστικά Το πιο βασικό χαρακτηριστικό για την υλοποίηση του αλγορίθμου ήταν οι καλά ορισμένες συναρτήσεις βάσης. Οι συναρτήσεις βάσης περιγράφουν και ορίζουν τα χαρακτηριστικά του προβλήματος. Χρησιμοποιήσαμε 6 συναρτήσεις βάσης: Y συντεταγμένη της μπαρας Υ συντεταγμένη της μπάλας Χ συντεταγμένη της μπάλας. Επιπλέον συνδιασμός, μας έδωσε συναρτήσεις για: Την ευκλείδια απόσταση της μπάρας από την μπάλα. Τη σχετική θέση μπάλας-μπάρας Τη σχετική κατεύθυνση μπάλας μπάρας.

Πιθανή Υλοποίηση 2 Το προηγούμενο λύνει το πρόβλημα; ΌΧΙ Η προηγούμενη μέθοδος, απλώς υπολογίζει τα βέλτιστα βάρη με τα οποία θα πρέπει να επιφορτιστούν συγκεκριμένα χαρακτηριστικά, έτσι ώστε να μας οδηγήσουν στη σωστή απόφαση. Ωστόσο, το παιχνίδι από πλευράς του πράκτορά μας, συνεχίζει να εξελίσσεται τυχαία. Θα πρέπει επομένως να βοηθήσουμε τον πράκτορα με κάποιον τρόπο να χρησιμοποιήσει αυτά που έμαθε. Έπειτα, αν είναι δυνατό, να μη σταματήσει τη μάθησή του αλλά να συνεχίσει να μαθαίνει.

Ολοκλήρωση υλοποίησης Για να καταφέρουμε ταυτόχρονα να κάνουμε τον πράκτορα να μαθαίνει, αλλά στη συνέχεια να χρησιμοποιεί τη γνώση του στο παιχνίδι, ακολουθήσαμε την εξής πολιτική: Με τη βοήθεια συναρτήσεων παραγωγής τυχαίων αριθμών, ο πράκτοράς μας ξεκινά τις πρώτες του δοκιμές στο παιχνίδι επιλέγοντας τυχαίες κινήσεις. Με το πέρασμα των επαναλήψεων, γραμμικά, αρχίζει να παίζει όλο και περισσότερο χρησιμοποιώντας τη γνώση που έχει αποκτήσει. Τελικά, καταλήγει να παίζει μόνος του, με βάση τη δική του γνώση. Ωστόσο, σε ένα μικρό ποσοστό (π.χ. 1/10) παίζει και μια τυχαία παρτίδα, έτσι ώστε να βελτιώσει λίγο τις τιμές των βαρών του, αν αυτό κριθεί απαραίτητο(με μια επιπλέον τυχαία κίνηση για παράδειγμα).

Αποτελέσματα-Βελτιώσεις Για 10,000 δείγματα χρειάστηκαν περίπου 8 ώρες. Τα αποτελέσματα δεν ήταν τα αναμενόμενα μετά τα 10,000 δείγματα, καθώς ο πράκτοράς μας είχε μια μάλλον ”στατική” συμπεριφορά. Ωστόσο, στα 3,000 περίπου δείγματα, μέχρι τα 3,500, έκανε αρκετά ικανοποιητικά παιχνίδια. Λόγω τερματικών καταστάσεων, που είναι πάρα πολύ συχνές, υποθέτουμε ότι ο πράκτορας λόγω αυτού στο τέλος ”συγκλίνει” σε συγκεκριμένες θέσεις και δεν παίρνει υπόψιν του τα υπόλοιπα (αρκετά )δείγματα..

Μελλοντική Δουλειά Το ιδανικό για τον πράκτορά μας, θα ήταν να μπορεί να μάθει από τις ”στοχευμένες” κινήσεις του. Θα παίζει σύμφωνα με τη γνώση που έχει συσσωρεύσει, και θα τη βελτιώνει μέσα από παρεταίρω επαναλήψεις. Μία βελτίωση θα ήταν ο πράκτορας να μπορεί να μαθαίνει και να βελτιώνει από το ίδιο του το παιχνίδι. Με άλλα λόγια, ο πράκτορας θα μαθαίνει από τα ίδια του τα βάρη. Αυτό θα ολοκλήρωνε τη συγκεκριμένη εργασία, ωστόσο η πολυπλοκότητα είναι πολύ μεγάλη.