Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:2002030120.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire
Advertisements

ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΠΛΗ513: ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ Othello – TD Learning Μαντάκος Γιώργος Καθηγητής: Μιχαήλ Γ. Λαγουδάκης.
1. Να γραφτεί αλγόριθμος ο οποίος θα ορίζει ένα μονοδιάστατο πίνακα Α 10 θέσεων. Ακολούθως θα διαβάζει από το πληκτρολόγιο τιμές τις οποίες θα τοποθετεί.
Acquiring Visibly Intelligent Behavior with Example-Guided Neuroevolution Paper: Bobby D.Bryant and Risto Miikkulainen Παρουσίαση: Δήμα Μαρία Δεκέμβριος.
The influence of Emotion Expression on Perceptions of Trustworthiness in Negotiation (2011) Antos et al. Παρουσίαση: Μαρία Νικήτα Προηγμένη Τεχνητή Νοημοσύνη.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
Κοινωνίες και συνεργασία
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Ιωάννης Γ. Κοντοχριστόπουλος Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Επιβλέπων: Επ. Καθηγητής Κ. Σγάρμπας Τετάρτη 10 Οκτωβρίου 2012.
Μέση τιμή από Νίκος Ψαρουδάκης Πρότυπο Πειραματικό Γυμνάσιο Ηρακλείου.
Γραμμικοί και μη Γραμμικοί Έρωτες
Τζόγος Περιεχόμενα: Γενικά Είδη τυχερών παιχνιδιών
Επιθεωρήσεις ΔΚΕΕ ( )  Επιθεωρήσεις : 25  Έκλεισαν Ικανοποιητικά 6 (24%) και Μη Ικανοποιητικά 19 (76%)  Μη Συμμορφώσεις : 257  Διορθωτικές.
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
ΦΥΣΙΚΟ ΚΑΙ ΚΟΙΝΩΝΙΚΟ ΠΕΡΙΒΑΛΛΟΝ
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
Αναστοπούλου Μαριάννα Καθηγήτρια Μουσικής και Σχολικού Επαγγελματικού Προσανατολισμού.
ΕΞΩΤΕΡΙΚΗ ΜΕΤΑΝΑΣΤΕΥΣΗ ΤΩΝ ΕΛΛΗΝΩΝ ΕΠΙΜΕΛΕΙΑ: Α 1 PROJECT.
Τι πρέπει να ξέρεις για το Γενικό Λύκειο. Όσα ακολουθούν παρακάτω προκύπτουν από την επεξεργασία του νόμου 4186/ΦΕΚ 193/ και τη συνέντευξη που.
Η νέα δομή του Γενικού Λυκείου  Ωρολόγια π ρογράμματα ανά τάξη  Τρό π ος π ροαγωγής και α π όλυσης  Παρουσιάζονται κατά σειρά :  Α ’ Λυκείου  Β ’
Σχολικό έτος B’ Λυκείου  Μαθήματα  Ομάδες προσανατολισμού Γ’ Λυκείου  Ομάδες προσανατολισμού  Επιστημονικά Πεδία
Αντιρατσιστική Εκ π αίδευση Βασικές αρχές ΣΧΟΛΕΙΟ ΧΩΡΙΣ ΡΑΤΣΙΣΜΟ ΣΧΟΛΕΙΟ ΜΕ ΑΝΕΚΤΙΚΟΤΗΤΑ.
Project Α’ Τετραμήνου Β’ Λυκέιου. Εισαγωγή  Μανιτάρι ονομάζεται κοινώς το ορατό μέρος πολυκύτταρων μυκήτων με τη χαρακτηριστική, συνήθως ομβρελοειδή.
Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.
ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΛΟΥΤΡΩΝ ΑΙΔΗΨΟΥ Ερευνητική Εργασία (Project) Ομάδα 1 Αναστασιάδη Ανδριανή Στεργίου Μαρία - Ιωάννα Χασάϊ Φιορίντα Χουλιαράκη Αλεξάνδρα Ομάδα.
1 Ο ΕΠΑΛ ΣΤΑΥΡΟΥΠΟΛΗΣ ΣΧΟΛ. ΕΤΟΣ Α΄ΤΕΤΡΑΜΗΝΟ ΜΑΘΗΜΑ ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ ( PROJECT) ΥΠΕΥΘΥΝΕΣ ΚΑΘΗΓΗΤΡΙΕΣ : ΠΑΛΑΙΟΛΟΓΟΥ ΒΙΚΤΩΡΙΑ ΑΜΠΕΡΙΑΔΟΥ ΔΕΣΠΟΙΝΑ.
AΘΛΗΤΙΣΜΟΣ 1.Ο αθλητισμός στην Αρχαία Ελλάδα Οι ρίζες του ελληνικού αθλητισμού μπορούν να αναζητηθούν στην Εποχή του Χαλκού. Στους ιστορικούς χρόνους οι.
Όνομα εκπαιδευτικών που συμμετέχουν :, Καλλιόπη Κάμπουρα. Γεωργία Κάσπαρη, Ανδριάνα Μπακόλα. Σχολική Μονάδα : 2 ο και 6 ο Νηπιαγωγείο Χίου. Σχολική τάξη.
Θέμα Εργασίας : ΙΡΙΔΙΣΜΟΣ Project : 5 Μανιφάβα Αλεξάνδρα.
ΖΑΧΑΡΙΑΣ ΠΑΠΑΝΤΩΝΙΟΥ ΤΑ ΨΗΛΑ ΒΟΥΝΑ PROJECT Α’ ΛΥΚΕΙΟΥ.
ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires Αλέξης Γελαστόπουλος, Βάσω.
Χρήση της χαρτογράφησης εννοιών για την μείωση των λαθών στο μάθημα της Τεχνολογίας ΠΑΝΕΛΛΗΝΙΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΣΥΝΕΔΡΙΟ «ΤΑ ΛΑΘΗ ΤΩΝ ΜΑΘΗΤΩΝ» ΑΘΗΝΑ, 1-2 ΝΟΕΜΒΡΙΟΥ,
ΑΡΙΣΤΟΤEΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΚΑΛΩΝ ΤΕΧΝΩΝ
ΝΕΟ ΓΕΝΙΚΟ ΛΥΚΕΙΟ ………. Ν. 4186/2013 (ΦΕΚ 193)
ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΜΑΘΗΣΙΑΚΗ ΔΙΑΔΙΚΑΣΙΑ
Ερευνητική εργασία της Α΄ τάξης του ΓΕΛ Λουτρών Αιδηψού
2η ΔΙΑΛΕΞΗ ΕΡΓΟ.
Η ΕΙΡΗΝΗ ΣΤΟΝ ΚΟΣΜΟ ΠΡΟΤΥΠΟ ΠΕΙΡΑΜΑΤΙΚΟ ΓΥΜΝΑΣΙΟ ΕΥΑΓΓΕΛΙΚΗΣ ΣΧΟΛΗΣ ΣΜΥΡΝΗΣ ΤΑΞΗ-ΤΜΗΜΑ: Α’2 ΣΧΟΛΙΚΟ ΕΤΟΣ: ΜΑΘΗΜΑ: ΘΡΗΣΚΕΥΤΙΚΑ ΥΠΕΥΘΥΝΟΣ ΚΑΘΗΓΗΤΗΣ:
Project: ΟΙ ΜΙΚΡΟΕΛΕΓΚΤΕΣ στη ζωΗ μαΣ
ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΠΡΟΤΖΕΚΤ (PROJECT)
Άννα Κυπαρισσού,Γιουτζίν Κασεμάι.
67ο Δημοτικό Σχολείο Πατρών
Ενημέρωση για το Σεπτέμβριος, 2017 Κων/νος Παραστατίδης
Εργασία Β’ Λυκείου Μάθημα: Project
ΞΕΝΑΓΟΙ Η ομάδα μας αποτελείται από άτομα τα οποία συνεργάστηκαν και ολοκλήρωσαν την εργασία της ξενάγησης.
ΜΕΛΕΤΗ ΤΟΥ ΧΑΡΤΗ ΑΝΑΤΟΛΗΣ ΙΩΑΝΝΙΝΩΝ ΚΑΙ ΟΝΟΜΑΣΙΕΣ ΟΔΩΝ
…την Ερευνητική Εργασία (project) με θέμα την κοινωνική διάσταση του ελληνικού κινηματογράφου (Οικογένεια, θέση γυναίκας, σχέση δύο φύλων).
Ερευνητική Εργασία project Σχεδιασμός Έρευνας
Το νερό στην λογοτεχνία
…PROJECT… ΑΝΔΕΙΣ ΚΑΖΑΝΤΖΑΚΗ ΕΛΕΝΑ ΔΑΣΚΑΛΑΚΗ ΧΡΥΣΑ ΓΥΜΝΑΣΙΟ ΑΡΧΑΝΩΝ
Οδηγίες Α’ Λυκείου.
1 ο ΕΠΑ.Λ ΝΕΑΣ ΦΙΛΑΔΕΛΦΕΙΑΣ Project A1
Οι οδοί και η ιστορία τους
Γενικό λύκειο Νιγρίτας
Project Κοκκινοπηλός Πένυ Εξαρχου Γ2.
Μαθηση για ολα τα παιδια
«Τα παιχνίδια των παππούδων και των γονέων μας πριν την επέλαση των ηλεκτρονικών» Project 2015.
ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ Οργάνωση- Προγραμματισμός
ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΤΟΥ PROJECT
67ο Δημοτικό Σχολείο Πατρών
19η Περιφέρεια Προσχολικής Αγωγής
Νηπιαγωγείο Περιθωρείου 2007
Εσθονία Project
Μουσειοπαιδαγωγικές δραστηριότητες
ΔΙΔΑΚΤΙΚΟ ΣΕΝΑΡΙΟ Β΄ ΓΥΜΝΑΣΙΟΥ
Αρχές Διοίκησης έργων βασικοί στόχοι κάθε έργου:
Project 2013 Γ΄ Ομάδα: Η πειθώ στον επιστημονικό λόγο
ΚΑΣΤΡΑ ΚΑΙ ΚΑΣΤΡΟΠΟΛΙΤΕΙΕΣ
Μεταγράφημα παρουσίασης:

Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:

Εικονικό περιβάλλον προσομοίωσης ενός παίκτη που παίζει poker. (Reinforcement Learning) Έχουμε μια τράπουλα με 32 φύλλα, ο παίκτης παίρνει 5 φύλλα και μπορεί να αλλάξει από 0 μέχρι και 3 φύλλα. Μετά την αλλαγή ανάλογα με τον συνδυασμό που έχει σχηματίσει επιβραβεύεται με το κατάλληλο reward. Ο θόρυβος προέρχεται από το γεγονός ότι ανακατεύουμε την τράπουλα με τυχαίο τρόπο.

Οι καταστάσεις που έχουμε είναι =201,376 και υπάρχουν 26 τρόποι να αλλάξουμε από 0-3 φύλλα. Αυτά μας κάνουν 5,235,775. Για τον λόγο αυτό χρησιμοποιούμε συνάρτηση προσέγγισης. Η συνάρτηση προσέγγισης ορίστηκε με βάση την συμπεριφορά που επιδεικνύουν τα 5 φύλλα στο χέρι. Με αυτόν τον τρόπο έχουμε δραματική μείωση των καταστάσεων που απαιτούνται.

Αποτέλεσμα της χρήσης συνάρτησης προσέγγισης είναι να μπορούμε με μόλις 600 training loops να εκπαιδεύσουμε τον πράκτορα μας. Τα στοιχεία που αποθηκεύονται από τον αλγόριθμο είναι το reward που κέρδισε με βάση την συνάρτηση προσέγγισης και τον αριθμό φύλλων που άλλαξε. Ακολουθεί η γραφική παράσταση που δείχνει για όλα τα training loops το reward που κέρδισαν. (Ομαδοποιημένα κατά 50 για 35 επαναλήψεις.)

Από την αξιολόγηση της γραφικής παράστασης έχουμε τα ακόλουθα συμπεράσματα: Οι γύροι εκπαίδευσης που απαιτούνται είναι σχετικά λίγοι περίπου 600 για να φτάσει σε ένα αποδεκτό επίπεδο. Μετά από αυτόν τον αριθμό η απόδοση του παραμένει σταθερή. Ο πράκτορας μετά την εκπαίδευση του σχηματίζει κατά μέσο όρο συνδυασμό αξίας δύο ζευγαριών που θεωρώ ότι είναι ένα ικανοποιητικό επίπεδο επιδόσεων.