Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Πιθανότητες & Τυχαία Σήματα
Advertisements

Τι είναι ο προγραμματισμός
Ανταλλαγή Μηνυμάτων και Προσδιορισμός Ρόλων μέσω Στρατηγικών
Τακτικές εφαρμογές στις αναπτυξιακές ηλικίες 14 – 18 ετών
Πιθανοκρατικοί Αλγόριθμοι
ΔΥΝΑΜΗ ΕΙΣΗΓΗΤΗΣ: ΚΑΡΑΒΕΛΗΣ ΓΡΗΓΟΡΗΣ.
Θεωρητική Παρουσίαση Μαθήματος Γυμνασίου
Μαθηματικοί Υπολογισμοί Χειμερινό Εξάμηνο η Διάλεξη Επίλυση Εξισώσεων Νοέμβρη 2002.
The influence of Emotion Expression on Perceptions of Trustworthiness in Negotiation (2011) Antos et al. Παρουσίαση: Μαρία Νικήτα Προηγμένη Τεχνητή Νοημοσύνη.
ΕΠΙΜΕΛΕΙΑ ΕΡΓΑΣΙΑΣ: ΔΗΜΗΤΡΙΟΣ ΜΑΪΟΓΛΟΥ YOU ARE NOW ENTERING TO THE WORLD OF AGENT BASED MODELS.
Εικονική πραγματικότητα ένας τρισδιάστατος κόσμος!!!
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
Μερικά ακόμη παραδείγματα
Αυτόνομοι Πράκτορες Xειμερινό Εξάμηνο Εργασία Εξαμήνου Σκιπετάρης Δημοσθένης Αμ :
Προσεγγιστικοί Αλγόριθμοι
Δυναμική Διατήρηση Γραμμικής Διάταξης Διατηρεί μια γραμμική διάταξη δυναμικά μεταβαλλόμενης συλλογής στοιχείων. Υποστηρίζει τις λειτουργίες: Έλεγχος της.
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
Εργαστήριο Δασικής Διαχειριστικής & Τηλεπισκόπησης ΠΑΡΟΥΣΙΑΣΗ ΔΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Διδάσκων Δημήτριος Καραμανώλης, Επίκουρος Καθηγητής ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ.
Τυχαιοκρατικοί Αλγόριθμοι TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA Πιθανότητες και Αλγόριθμοι Ανάλυση μέσης.
1 Χαρακτηριστικά ενός Μ/Μ/1 συστήματος : Αφίξεις κατανεμημένες κατά Poisson Εκθετικά κατανεμημένοι χρόνοι εξυπηρέτησης Οι χρόνοι εξυπηρέτησης είναι αμοιβαία.
Ανάπτυξη και Λειτουργία
ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΠΛΗ 513 Δημιουργία ομάδας Nao για το Robotstadium Αντίληψη & Δράση Γεωργάκης Γεώργιος 1.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
«Πλακόστρωση» Μαρίνα Πάλλα.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Αυτόνομοι Πράκτορες Εργασία Εξαμήνου Αναγνώριση αντικειμένων για το πρωτάθλημα τετραπόδων του RoboCup.
Olympia Nikou1 Τίτλος Παρουσίασης: Προσεγγιστικός Υπολογισμός των λύσεων ενός προβλήματος με: Δειγματοληψία στον χώρο αναζήτησης των λύσεων.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Συγκεντρωθείτε, Ρεε!!! Πέρκος, Ι., Στέφανος, PhD.
Α. Χατζηπαντελή MSc. PhD. Νοερή απεικόνιση τρόπος αντιµετώπισης προβληµάτων, ή γεγονότων µε τη σκέψη προτού αντιμετωπισθεί στην πραγµατικότητα.
Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
ΚΙΝΗΜΑΤΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ ΕΙΣΑΓΩΓΗ Σκοπός της κινηματικής είναι η περιγραφή της κίνησης του ρευστού Τα αίτια που δημιούργησαν την κίνηση και η αναζήτηση των.
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
1 Διαχείριση Έργων Πληροφορικής Διάλεξη 7 η Διαχείριση Πόρων.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Σήματα και Συστήματα ΙΙ Διάλεξη: Εβδομάδα Καθηγητής Πέτρος Γρουμπός Επιμέλεια παρουσίασης: Βασιλική Μπουγά 1.
Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.
ΕΥΑΓΓΕΛΟΣ ΜΠΕΜΠΕΤΣΟΣ Ph.D.. ΟΡΙΣΜΟΣ ΠΡΟΣΟΧΗΣ Προσοχή είναι η διαδικασία που κατευθύνει την πρόσληψη πληροφοριών καθώς αυτές φτάνουν στις αισθήσεις μας.
ΘΕΜΑ Άρθρο 5/ ο Διαιτητής Καθήκοντα και αρμοδιότητες ΤΟ ΠΛΕΟΝΕΚΤΗΜΑ.
Αρχές επαγωγικής στατιστικής Τμήμα :Νοσηλευτικής Πατρών Διδάσκουσα: Παναγιώταρου Αλίκη Διάλεξη 9.
Ανοιχτές δεξιότητες Δεξιότητες που πραγματοποιούνται σε ένα μεταβαλλόμενο και απρόβλεπτο περιβάλλον και απαιτεί από τους εκτελεστές να προσαρμόσουν τις.
Εισαγωγή στη Νοσηλευτική Επιστήμη Ενότητα 4: Στρες και Στρατηγικές Αντιμετώπισης – Νοσηλευτική Φροντίδα. Κοτρώτσιου Ευαγγελία, Καθηγητής, Τμήμα Νοσηλευτικής,
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
ΕΥΑΓΓΕΛΟΣ ΜΠΕΜΠΕΤΣΟΣ Ph.D.. ΟΡΙΣΜΟΣ ΠΡΟΣΟΧΗΣ Προσοχή είναι η διαδικασία που κατευθύνει την πρόσληψη πληροφοριών καθώς αυτές φτάνουν στις αισθήσεις μας.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Ηλεκτρική Οικονομία Σταμάτης Νικολόπουλος ΑΜ: 868 ΑΣΠΑΙΤΕ, 2015.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
Επίλυση Προβλημάτων με Αναζήτηση
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Προσομοίωση και Μοντέλα Συστημάτων (Μέρος B)
ΧΡΟΝΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΩΝ
9o ΑΝΟΙΚΤΟ ΕΠΙΣΤΗΜΟΝΙΚΟ ΣΕΜΙΝΑΡΙΟ ΠΟΔΟΣΦΑΙΡΟΥ
ΧΡΟΝΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΩΝ
Διάλεξη 2: Περιγραφή αριθμητικών μεθόδων
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Νοήμονες Πράκτορες.
ΙΔΙΟΤΗΤΕΣ ΤΟΥ ΕΔΑΦΟΥΣ Το αντικείμενο της εδαφομηχανικής είναι η μελέτη των εδαφών, με στόχο την κατανόηση και πρόβλεψη της συμπεριφοράς του εδάφους για.
ΜΗΧΑΝΙΚΗ ΣΤΕΡΕΟΥ ΣΩΜΑΤΟΣ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Μη Γραμμικός Προγραμματισμός
ΠΛΗΡΟΦΟΡΙΚΗ Γ΄ Γυμνασίου Α΄ Τρίμηνο
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
ΜΝΗΜΗ: ΣΥΓΚΡΑΤΗΣΗ ΚΑΙ ΑΝΑΚΛΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ
Μεταγράφημα παρουσίασης:

Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής

Εισαγωγή Το σύστημα προσομοίωσης ποδοσφαίρου αποτελεί ιδανικό περιβάλλον πολλαπλών πρακτόρων. Έχει τις εξής ιδιότητες: Είναι δυναμικό (αντίπαλη ομάδα) Είναι θορυβώδες Έχει μερικώς παρατηρίσιμες καταστάσεις Είναι πραγματικού χρόνου

Εισαγωγή Εξαιτίας της πολυπλοκότητας του περιβάλλοντος παρουσιάζει ενδιαφέρον η εφαρμογή της Μηχανικής Μάθησης στους πράκτορες για την απόκτηση ικανοτήτων.

Μηχανική Μάθηση Η έννοια της μάθησης σε ένα σύστημα: Την ικανότητα του στην απόκτηση επιπλέον γνώσης κατά την αλληλεπίδραση του με το περιβάλλον Την ικανότητα βελτίωσης της μελλοντικής συμπεριφοράς του βασισμένο σε προηγούμενη εμπειρία

Μηχανική Μάθηση Η μηχανική μάθηση είναι σημαντική γιατί: Οι εργασίες δεν ορίζονται καλά με παραδείγματα Κρυμμένες σχέσεις/ συσχετισμοί στα δεδομένα Δεν είναι γνωστά τα δεδομένα από την αρχή Πολύ μεγάλη ποσότητα γνώσης Τα περιβάλλοντα αλλάζουν στο χρόνο

Μηχανική Μάθηση Τεχνικές Μηχανικής Μάθησης: Μάθηση εννοιών Δέντρα απόφασης Τεχνητά νευρωνικά δίκτυα Μάθηση κατά Bayes Επαγωγική μάθηση Γενετικοί αλγόριθμοι Μάθηση συνόλων κανόνων Αναλυτική μάθηση Ενισχυτική μάθηση

Ενισχυτική Μάθηση Πως ένας αυτόνομος πράκτορας που έχει αισθήσεις και ενεργεί σε ένα περιβάλλον μπορεί να μάθει να επιλέγει τις βέλτιστες ενέργειες για τον στόχο του; Κάθε φορά που εκτελεί μια ενέργεια του παρέχεται μια ανταμοιβή ή μια ποινή. Στόχος είναι να μάθει από την καθυστερημένη ανταμοιβή να επιλέγει τις ενέργειες που επιφέρουν την μεγαλύτερη ανταμοιβή.

Ενισχυτική Μάθηση Διαφέρει από την μάθηση με επίβλεψη. Σε άγνωστες περιοχές πρέπει να είναι ικανός να μαθαίνει από την εμπειρία του. Πρέπει να υπάρχει εξισορρόπηση (trade-off) μεταξύ της αξιοποίησης (exploitation) της υπάρχουσας γνώσης και της εξερεύνησης (exploration) για καινούργια.

Ενισχυτική Μάθηση Χαρακτηριστικά της Ενισχυτικής Μάθησης: Η πολιτική (απεικόνιση κατάστασης-ενέργειας) Η συνάρτηση ανταμοιβής (απεικόνιση κατάστασης-ανταμοιβής) Η συνάρτηση αξίας (κατάσταση-συνολική ανταμοιβή)

Ενισχυτική Μάθηση t = 0,1,2,3, …

Ενισχυτική Μάθηση Γίνεται υπόθεση ότι ικανοποιείται η ιδιότητα Markov : Σύμφωνα με την οποία η απόκριση του περιβάλλοντος τη χρονική στιγμή t + 1 εξαρτάται μόνο από την κατάσταση και την ενέργεια που επιλέχθηκε τη χρονική στιγμή t

Ενισχυτική Μάθηση Οι συναρτήσεις αξιών καθορίζονται σε σχέση με τις πολιτικές. Όπου πολιτική π αντιστοίχιση καταστάσεων s και ενεργειών α στην πιθανότητα π(s, α). Ακολουθώντας την πολιτική π από την κατάσταση s βρίσκουμε την συνάρτηση κατάστασης-αξίας: Ομοίως βρίσκουμε και την συνάρτηση ενέργειας- αξίας:

Ενισχυτική Μάθηση Οπότε για να υπολογίσουμε την βέλτιστη πολιτική π* βρίσκουμε την βέλτιστη συνάρτηση αξίας: Και την βέλτιστη συνάρτηση ενέργειας – αξίας:

Δυναμικός Προγραμματισμός Υποθέτουμε ότι τα σύνολα καταστάσεων και ενεργειών είναι πεπερασμένα και ότι η δυναμική τους δίνεται από ένα σύνολο πιθανοτήτων μετάβασης: και αναμενόμενων άμεσων ανταμοιβών: Τότε, μπορούμε εύκολα να βρούμε τις βέλτιστες συναρτήσεις αξίας οι οποίες ικανοποιούν τις βέλτιστες εξισώσεις Bellman: ή

Μάθηση Χρονικών Διαφορών Στη μέθοδο αυτή χρησιμοποιείται μόνο η επόμενη χρονική στιγμή t+1 για την αναπροσαρμογή της V οπότε έχουμε:

Q-Μάθηση Στην μάθηση Q υπολογίζουμε την βέλτιστη πολιτική π* παίρνοντας την ενέργεια α στην κατάσταση s που μεγιστοποιεί το άθροισμα της άμεσης ανταμοιβής συν της τιμής V* της επόμενης κατάστασης. H συνάρτηση Q ορίζεται ως εξής: Οπότε μαθαίνοντας κάποιος την συνάρτηση Q μπορεί να υπολογίσει την βέλτιστη πολιτική, γνωρίζοντας μόνο την κατάσταση που βρίσκεται και τις διαθέσιμες ενέργειες.

Robocup Soccer Server Είναι ένα σύστημα εξομοίωσης ποδοσφαίρου που παρέχει ρεαλιστικό χαρακτηριστικα όπως: Αισθήσεις Θόρυβο Περιορισμένη αντίληψη Περιορισμένη αντοχή Αποτελείται από : Soccer server Soccer monitor Logplayer

Robocup Soccer Server O server παρέχει ένα εικονικό γήπεδο ποδοσφαίρου, εξομοιώνει όλες τις κινήσεις των αντικειμένων και λειτουργεί σύμφωνα με κανόνες. Ο monitor είναι ένα εργαλείο απεικόνισης για ότι συμβαίνει στον server κατά την διάρκεια του παιχνιδιού. Ο logplayer χρησιμοποιείται σαν video recorder όπου καταγράφει κάποιον αγώνα και μπορούμε να τον ξαναδούμε.

Επίλυση Προβλημάτων Εφαρμόσαμε τεχνικές μηχανικής μάθησης για την αντιμετώπιση των προβλημάτων: Δύο επιθετικοί εναντίον ενός αμυντικού Αναχαίτιση της μπάλας

Επίλυση Προβλημάτων Το ζητούμενο είναι να μάθει ο επιθετικός που έχει την μπάλα πώς να ενεργήσει, αν θα κάνει σουτ ή αν θα δώσει πάσα.

Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής και οι άλλοι δύο τυχαία μέσα στην μεγάλη περιοχή Χαρακτηριστικά: Απόσταση αμυντικού από συμπαίκτη (μέχρι 8 μέτρα) Απόσταση του επιτιθέμενου από την εστία (μέχρι 21.5 μέτρα) Βήμα διακριτοποίησης 0.2 και 0.5 αντίστοιχα 1720 καταστάσεις από 2 ενέργειες

Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο Softmax: Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 75% επιτυχία 25% αποτυχία

Επίλυση Προβλημάτων Στο δεύτερο πρόβλημα το ζητούμενο είναι να μπορέσει ο τερματοφύλακας να αναχαιτίσει την μπάλα επιλέγοντας μία από τις 6 γωνίες.

Επίλυση Προβλημάτων Εκπαίδευση σε επεισόδια Ο επιθετικός με την μπάλα τοποθετείται τυχαία εκτός μεγάλης περιοχής. Ο τερματοφύλακας τοποθετείτε στο κέντρο του τέρματος. Χαρακτηριστικά: Κατακόρυφη απόσταση τερματοφύλακα από την μπάλα (μέχρι 5 μέτρα ) Ταχύτητα της μπάλας (μέχρι 2.7 μέτρα/sec) Βήμα διακριτοποίησης 0.4 και 0.3 αντίστοιχα 225 καταστάσεις από 6 ενέργειες

Επίλυση Προβλημάτων Η επιλογή της ενέργειας έγινε με τον αλγόριθμο e-greedy. Η εκπαίδευση έγινε για 20,000 επαναλήψεις και δοκιμάστηκε για 1,000 επεισόδια. Τα αποτελέσματα είναι: 89% επιτυχία 11% αποτυχία

Επίλογος Τα αποτελέσματα που προέκυψαν και στις δύο περιπτώσεις ήταν αρκετά ικανοποιητικά. Η απόδοση της τεχνικής αυτής κατά τον έλεγχο ήταν ιδιαίτερα υψηλή. Η μηχανική μάθηση μπορεί να παρέχει βελτίωση στη συμπεριφορά των πρακτόρων σε περιβάλλοντα πραγματικού χρόνου.