Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Καταδίωξη / Διαφυγή. Οι κανόνες • Ένας «φυγάς», ένας ή περισσότεροι «κυνηγοί» • Κινούνται πάνω σε ένα γράφημα • Στην πιο απλή περίπτωση, μία κίνηση ο.
Advertisements

Διανομή έκτασης με ευθεία διερχόμενη από σταθερό σημείο
Η Γλώσσα Προγραμματισμού LOGO
Project in XSB Prolog Επεξεργασία και Αναπαράσταση Γνώσης Άνοιξη 2008 Τμήμα Επιστήμης Υπολογιστών Πανεπιστημίου Κρήτης.
Πιθανοκρατικοί Αλγόριθμοι
Μαθηματικοί Υπολογισμοί Χειμερινό Εξάμηνο η Διάλεξη Επίλυση Εξισώσεων Νοέμβρη 2002.
Acquiring Visibly Intelligent Behavior with Example-Guided Neuroevolution Paper: Bobby D.Bryant and Risto Miikkulainen Παρουσίαση: Δήμα Μαρία Δεκέμβριος.
Αναδρομη και static Γραψετε την συναρτηση sequence_size που διαβαζει μια απροσδιοριστου μεγεθους σειρας και υπολογιζει και τυπωνει το μεγεθος της. int.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
ΠΕΡΙΒΑΛΛΟΝΤΙΚΟΣ ΘΟΡΥΒΟΣ
Αλγόριθμοι και Πολυπλοκότητα
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
1 Αλγόριθμοι Παρακολούθησης Ακτίνας (Ray tracing) Τα μοντέλα τοπικού φωτισμού (π.χ. Phong) δεν ασχολούνται με τον έμμεσο φωτισμό των αντικειμένων. Τα μοντέλα.
Παραγωγή τυχαίων γεωμετρικών δομών Παναγιώτης Τίγκας Ενδιάμεση εξέταση πτυχιακής εργασίας.
Ανάλυση – Προσομοίωση Ουρών Markov
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 18/04/13 Συστήματα Αναμονής: M/M/1/K, M/M/m (Erlang-C), M/M/N/K, M/M/m/m (Erlang-B)
Γραφήματα & Επίπεδα Γραφήματα
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Τι θα κάνουμε Στο υπάρχον σενάριο θα προστεθούν 3 λειτουργίες : Όταν το αυτοκίνητο βρίσκεται εκτός πίστας η μέγιστη δυνατή μονάδα μετατόπισής του θα μειώνεται.
Το Μ/Μ/1 Σύστημα Ουράς Μ (η διαδικασία αφίξεων είναι Poisson) /
Ιωάννης Γ. Κοντοχριστόπουλος Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Επιβλέπων: Επ. Καθηγητής Κ. Σγάρμπας Τετάρτη 10 Οκτωβρίου 2012.
1 Ολυμπιάδα Πληροφορικής Μάθημα 3. 2 Στόχοι μαθήματος Δομή Επανάληψης Εντολή while Εντολή for.
Παράδειγμα 1:Υπολογισμός αθροίσματος αριθμών με επαναληπτική εντολή : για...από...μέχρι(for ..to) Να βρεθεί και να εκτυπωθεί το άθροισμα των 100 ακεραίων.
Κεφάλαιο 2 Κίνηση σε μία διάσταση
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 16/05/13 Δίκτυα Ουρών. ΔΙΚΤΥΟ ΔΥΟ ΕΚΘΕΤΙΚΩΝ ΟΥΡΩΝ ΕΝ ΣΕΙΡΑ Θεώρημα Burke: Η έξοδος πελατών από ουρά Μ/Μ/1 ακολουθεί κατανομή Poisson.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
2.2 Η ΕΝΝΟΙΑ ΤΗΣ ΤΑΧΥΤΗΤΑΣ.
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
Probabilistically Checkable Proofs Theorem (PCP THEOREM) Ομιλητής Ασημακόπουλος (Ευ)Άγγελος.
Grid World με αντίπαλο - κυνηγό ΠΛΗ513 ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΜΑΪΝΑΣ ΝΙΚΟΣ
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Επικοινωνία Ανθρώπου Μηχανής HTML CGI JAVASCRIPT Κουμπούλης Χρήστος Α.Μ. 921 Χαλαβαζής Βασίλης Α.Μ. 988.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Προσομοιώσεις Συστημάτων Αναμονής Markov (M/M/…)
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 25/06/08 Ασκήσεις Επανάληψης.
Ασκήσεις - Παραδείγματα
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Επανάληψη.
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
Quicksort Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο.
ΗΥ150 – ΠρογραμματισμόςΚώστας Παναγιωτάκης ΗΥ-150 Προγραμματισμός Αναδρομή (1/2)
Φυσική Στοιχειωδών Σωματιδίων ΙΙ (8ου εξαμήνου) Μάθημα 5α: Επανάληψη - Xρυσός κανόνας του Fermi, χώρος των φάσεων, υπολογισμοί, I σοσπίν Λέκτορας Κώστας.
Αλγόριθμοι και Συστήματα για 3-Δ Γραφικά Random Terrain Generation Γεωργία Καστίδου.
Project in XSB Prolog Επεξεργασία και Αναπαράσταση Γνώσης Άνοιξη 2009 Τμήμα Επιστήμης Υπολογιστών Πανεπιστημίου Κρήτης.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
ΗΥ150 – ΠρογραμματισμόςΞενοφών Ζαμπούλης ΗΥ-150 Προγραμματισμός Αναδρομή (1/2)
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Κλάσεις και Αντικείμενα.
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Διαχρονική Αξία του χρήματος Προτιμάτε ένα ευρώ σήμερα ή ένα ευρώ μετά από ένα έτος; (υποθέτουμε ότι δεν υπάρχει πληθωρισμός...) Έννοια του τόκου (κόστος.
Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.
Για μτ από ατ μέχρι ττ [με_βήμα β] εντολές Τέλος_επανάληψης : περιοχή εντολών μτ : η μεταβλητή της οποίας η τιμή θα περάσει από την αρχική.
ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires Αλέξης Γελαστόπουλος, Βάσω.
Μερκ. Παναγιωτόπουλος-Φυσικός 1 Η έννοια της ταχύτητας.
Η πλατφόρμα Βασίλης Γαργανουράκης Υπεύθυνος 2ου ΕΚΦΕ Ηρακλείου
Βελτιστοποίηση σε τρίλιζα Καταδίωξη/διαφυγή
Διάλεξη 15: O αλγόριθμος SIMPLE
Μορφές κατανομών Αθανάσιος Βέρδης.
Ισοδυναμία ΜΠΑ με ΠΑ Για κάθε ΜΠΑ Μ υπάρχει αλγόριθμος ο οποίος κατασκευάζει ΠΑ Μ’ αιτιοκρατικό ώστε να αναγνωρίζουν την ίδια ακριβώς γλώσσα. Καθώς το.
Η ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ ΠΙΘΑΝΟΤΗΤΑΣ.
ΣΩΜΑΤΑ ΣΕ ΕΠΑΦΗ Όταν δύο σώματα που βρίσκονται σε επαφή κάνουν κοινή Α.Α.Τ. τότε έχουν την ίδια κυκλική συχνότητα ω1=ω2=ω. Κάθε σώμα έχει τη δική του σταθερά.
Δυναμικός Προγραμματισμός
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Φοιτητής: Γκούλης Ευάγγελος ΑΕΜ: 3342
Στοιχεία θεωρίας σφαλμάτων
Στοιχεία θεωρίας σφαλμάτων
Μεταγράφημα παρουσίασης:

Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire Εργασία Εξαμήνου Μαρίνα Μαυρίκου 2007030102

Το παιχνιδι Peg Solitaire Γενικά: Παιχνίδι 1 ατόμου Κίνηση μέσω πουλιών Ξεκινάει από την ίδια αρχική κατάσταση Το μεσαίο πούλι φεύγει Σκοπός: Να αδειάσει το ταμπλό και να μείνει με ένα μόνο πούλι.

Το παιχνιδι Peg Solitaire Υποθέσεις για την εργασία: Πιθανότητα το μεσαίο πούλι να μη φύγει (~0.1) Ο πράκτορας επιλέγει πιο συχνά να κάνει κινήσεις προς τα πάνω (p=0.3) και λιγότερες προς τα κάτω ή οριζόντια (p=0.1).

Σκοποσ του Project Σκοπός της εργασίας: Εύρεση βέλτιστης πολιτικής, για να φτάσουμε στη σωστή τελική κατάσταση. Οι καταστάσεις που δεν καταλήγουμε με ένα μόνο πούλι είναι λανθασμένες τελικές καταστάσεις Μέσω του Value Iteration βρίσκω τις βέλτιστες ενέργειες, που έχει να κάνει ο πράκτορας, για να φτάσει στην σωστή τελική κατάσταση με τη μέγιστη χρησιμότητα. Μέσω του Q – learning, ο πράκτορας μαθαίνει τι ενέργειες πρέπει να κάνει ανάλογα σε ποια κατάσταση βρίσκεται.

Value Iteration Υπολογισμός βέλτιστης πολιτικής Υπολογισμός χρησιμοτήτων κάθε κατάστασης Επιλογή μέγιστων χρησιμοτήτων Τύπος υπολογισμού χρησιμοτήτων κάθε κατάστασης:

Value Iteration To Value Iteration για το Peg Solitaire: Εύρεση και αποθήκευση, μέσω των δυνατών ενεργειών, όλων των καταστάσεων του παιχνιδιού, αναδρομικά. Σε κάθε κατάσταση: Βρίσκω τα παιδιά της Υπολογίζω τη χρησιμότητα όλων των παιδιών με βάση τον τύπο Επιλέγω την ενέργεια με τη μέγιστη χρησιμότητα. Χρησιμοποιώ γ=1 και R=0.04. Για κάθε σωστή τελική κατάσταση, η χρησιμότητα ορίζεται με 2 Για κάθε λάθος τελική κατάσταση, η χρησιμότητα ορίζεται με -1. Για οποιαδήποτε άλλη κατάσταση ,ορίζεται με 0. Aριθμός Επαναλήψεων=100

Αποτελεσματα του Value Iteration Για 100 επαναλήψεις Με το πέρας των επαναλήψεων οι τιμές τους παραμένουν σταθερές

Αποτελεσματα του Value Iteration Kάθε φορά καταλήγει στη σωστή τελική κατάσταση Ο πράκτορας στην πρώτη επανάληψη: Ο πράκτορας στην 100στή επανάληψη:

Q- Learning Mάθηση μίας αναπαράστασης αξίας ενεργειών αντί για χρησιμότητες. Δε χρειάζεται μοντέλο για τη μάθηση και την επιλογή ενέργειας Υπολογισμός των τιμών Q: όπου Q(s,a)=τιμή Q κάθε κατάστασης α=ρυθμός μάθησης γ=discount factor Q(s’,a’)=η τιμή Q της κατάστασης s’ αν κάνω την ενέργεια a’.

Q- Learning Σχετικά με το παιχνίδι: Αρχικά ο πράκτορας επιλέγει τυχαία ενέργειες δοκιμάζοντας πολύ λίγο να παίξει με τις δικές του γνώσεις. Υπολογίζει την τιμή Q. Kαταλήγει σε τελικές καταστάσεις. Μετά από 100 επαναλήψεις: Τα τυχαία παιχνίδια γίνονται λιγότερα και ο πράκτορας επιλέγει καταστάσεις με βάση τη γνώση. Βασίζεται στις τιμές των Q που έχει υπολογίσει κατά την εξερεύνηση

Q- Learning Ψευδοκώδικας που υλοποιεί το πώς ο πράκτορας σταματά να επιλέγει τυχαίες κινήσεις: Choose_Play: randomOrknowledge=0; Random r=new Random(); iterations=1000; counter=0; while(counter!=iterations){ if (randomOrknowledge> r.random(100);){ Choose by knowledge } else{ Choose Randomly randomOrknowledge++; Αφού το 100 είναι ένας σχετικά μεγάλος αριθμός , αρχικα διασφαλίζουμε ότι ο πράκτορας θα παίζει τυχαία. Η μεταβλητή randomOrknowledge αυξάνεται κάθε φορά που κάνουμε μια τυχαία επιλογή. Δηλαδή προστίθεται λίγη γνώση.

Αποτελεσματα Q-Learning 8 στα 10 παιχνίδια ο πράκτορας νικάει Mετά από μία επανάληψη: Μετά από 1000 επαναλήψεις:

Προβληματα-Μελλοντικη Δουλεια Όσο αυξάνουμε την πιθανότητα να μη φεύγει ένα πούλι, οι καταστάσεις αυξάνονται εκθετικά: Έλλειψη μεγέθους μνήμης Σύνδεση με το γραφικό περιβάλλον, έτσι ώστε να βλέπουμε και οπτικά τα αποτελέσματα Για το Q-learning: Ο πράκτορας να υπολογίζει πιο σωστά την τιμή Q ώστε μετά από επαναλήψεις να επιλέγει πάντα τη σωστή τελική κατάσταση.

Σας ευχαριστώ! Απορίες??  Σας ευχαριστώ! Απορίες?? 