Grid World με αντίπαλο - κυνηγό ΠΛΗ513 ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΜΑΪΝΑΣ ΝΙΚΟΣ
ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Μοντελοποίηση προβλημάτων με κινούμενο αντίπαλο. Ένταξή τους σε μαθηματικά πλαίσια (MDP) που καθιστά δυνατή τη μελέτη τους. Εύρεση βέλτιστης πολιτικής Εύρεση καλύτερης ενέργειας για κάθε κατάσταση του κόσμου (???) Υπολογισμός από πράκτορα για μετάβαση στο κελί – στόχο
ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ Περιγραφή ως Μαρκωβιανή Διεργασία Απόφασης Χώρος καταστάσεων Συνδυασμός όλων των δυνατών θέσεων στο κόσμο. Κατάσταση → (, ) όπου, θέση πράκτορα, θέση αντιπάλου Τελικές καταστάσεις Ταύτιση Θέσεων πράκτορα αντιπάλου = κελί στόχος
ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ… Χώρος ενεργειών FORWARD, BACK, LEFT, RIGHT Μοντέλο μετάβασης Σύνθετο λόγω κίνησης του αντιπάλου. Κίνηση σε 2 φάσεις Πρώτα μελέτη κίνησης πράκτορα. Έπειτα μελέτη κίνησης αντιπάλου για τις μη-τελικές μεταβάσεις του πράκτορα. Ζύγισμα κάθε μετάβασης με βάση το μοντέλο κίνησης
ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ… Μοντέλο Κίνησης (default) North0.8 South0.0 East0.1 West0.1
ΕΥΡΕΣΗ ΒΕΛΤΙΣΤΗΣ ΠΟΛΙΤΙΚΗΣ Εφαρμογή αλγορίθμου Value Iteration Εξαγωγή βέλτιστης πολιτικής με άπληστη βελτίωση Χρήση της παρακάτω παραλλαγής
ΥΛΟΠΟΙΗΣΗ Καθορισμός μέσω γραφικού περιβάλλοντος Κόσμος Παράμετροι Από αλγόριθμο Αρχικά καθορισμός χώρου καταστάσεων Εύρεση βέλτιστης πολιτικής
ΑΠΟΤΕΛΕΣΜΑΤΑ Αδυναμία οπτικοποίησης αποτελέσματος Παραγωγή αρχείου με την πολιτική Για κάθε κατάσταση (, ) αναφορά βέλτιστης ενέργειας πράκτορα. Αλλά…
ΑΠΟΤΕΛΕΣΜΑΤΑ… Οπτικά για δεδομένη θέση αντιπάλου εμφάνιση στο γραφικό περιβάλλον η συγκεκριμένη πολιτική
ΣΥΜΠΕΡΑΣΜΑΤΑ Χώρος καταστάσεων εξαρτάται από το μέγεθος κόσμου. Για κόσμο n x m Χώρος καταστάσεων (n x m) 2 Εκθετική αύξηση Αύξηση πολυπλοκότητας για υπολογισμό πολιτικής Εισαγωγή επιπλέον πρακτόρων αυξάνει το χώρο καταστάσεων Η εργασία αναφέρεται για 2 πράκτορες.