Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος
Πρόβλημα: Ο πράκτορας πρέπει να αποφασίζει κάθε στιγμή ποιά κατεύθυνση θα ακολουθήσει μέσα στο λαβύρινθο. Πρόβλημα ακολουθιακής λήψης αποφάσεων. Κάθε ακολουθία αποφάσεων έχει και μια διαφορετική συνολική χρησιμότητα για τον πράκτορα. Ο πράκτορας γνωρίζει κάθε στιγμή την κατάσταση του λαβύρινθου στον οποίο κινείται. Ο πράκτορας έχει ως απώτερο σκοπό να καταναλώσει όλα τα χάπια που υπάρχουν στο λαβύρινθο.
Πρόβλημα: Ποιά ακολουθία αποφάσεων θα μας δώσει το μέγιστο κέρδος? Ο πράκτορας δεν μπορεί να προβλέψει τις κινήσεις των φαντασμάτων. Ο πράκτορας δεν μπορεί να «αργήσει» για να πάρει μια απόφαση.(Χρονικό όριο)
Μοντελοποίηση προβλήματος Για την μοντελοποίηση του προβλήματος και την εξαγωγή των δεδομένων απο το παιχνίδι χρησιμοποιήθηκε η τεχνική screen capture. Φωτογραφίζουμε την κατάσταση του κόσμου κάθε 5ms. Αναλύουμε τα pixels της εικόνας και δημιουργούμε έναν δισδιάστατο πίνακα που αναπαριστά τον λαβύρινθο του πράκτορα.
Μοντελοποίηση προβλήματος Πρόσεγγίζουμε το κάθε στιγμιότυπο του πρόβληματος σαν MDP (Markov Decision Process). Κάθε νέα κατάσταση του κόσμου είναι ένα ανεξάρτητο (απο το ιστόρικό καταστάσεων ) γεγονός. Κάθε νέα κατάσταση του κόσμου προκύπτει με πιθανότητα 1. Σε κάθε κατάσταση του κόσμου αντιστοιχίζεται μια τιμή κέρδους για τον πράκτορα.
Επίλυση προβλήματος: Εξισώσεις Bellman και Value Iteration Για την επίλυση του προβλήματος χρησιμοποιήθηκε ο αλγόριθμος επανάληψης αξιών (Εξισώσεις βελτιστότητας Βellman). Ο πράκτορας μπορεί να πάρει 4 αποφάσεις ( Πάνω,Κάτω,Δεξιά,Αριστερά). Προκύπτουν 4 εξισώσεις για κάθε κατάσταση του κόσμου.
Προβλήματα Μεγάλη εισαγωγή θορύβου. Πολύ δύσκολη εύρεση μίας ικανοποιητικής συνάρτησης αξιολόγησης του GameState. Έλλειψη πληροφορίας κατά την διάρκεια της διαδρομής στο tunnel. Πλήρης αλλαγή του χώρου καταστάσεων μετά το Power Pill. Συνεχής χώρος καταστάσεων.
Eυχαριστώ!!!