Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεἈρτεμίσιος Μακρή Τροποποιήθηκε πριν 8 χρόνια
1
Λήψη σύνθετων αποφάσεων
2
Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή ο πράκτορας, εξαρτάται από μια ακολουθία αποφάσεων. Μοντέλο στοχαστικής ενέργειας (στο παράδειγμα, κίνησης): η κίνηση προς μια επιδιωκόμενη κατεύθυνση επιτυγχάνεται με κάποια πιθανότητα. Πιθανότητα επίτευξης του στόχου (+1) από την ακολουθία [U, U, R, R, R] 0.8 5 +0.1 4 x 0.8=0.32776
3
Διαδικασία απόφασης Markov (MDP)
4
Πολιτική
5
Παράδειγμα Βέλτιστων Πολιτικών R(s)=-0.04 για μη τερματικές καταστάσεις στην εικόνα αριστερά. Παρατηρήστε ότι η βέλτιστη πολιτική είναι συντηρητική για την κατάσταση (3,1).
6
Βέλτιστη Συμπεριφορά
7
Λήψη απόφασης με άπειρο ορίζοντα: στάσιμες προτιμήσεις
8
Λήψη απόφασης με άπειρο ορίζοντα: ειδικές περιπτώσεις
9
Επιλογή πολιτικής με βάση την αξία της
10
Εύρεση βέλτιστης πολιτικής με επανάληψη αξιών
11
Παράδειγμα
12
Ο αλγόριθμος επανάληψης αξιών (Value-iteration algorithm) function Value-Iteration (mdp, ε) returns μια συνάρτηση χρησιμότητας –inputs: mdp, MDP με καταστάσεις S, μοντέλο μετάβασης Τ, συνάρτηση ανταμοιβής R, προεξόφληση γ –ε, το μέγιστο σφάλμα που επιτρέπεται στη χρησιμότητα κάθε κατάστασης –local variables: U, U΄, διανύσματα χρησιμοτήτων για καταστάσεις στο S, αρχικά μηδενικά –δ, η μέγιστη μεταβολή στη χρησιμότητα οποιασδήποτε κατάστασης σε μια επανάληψη –repeat U ← U΄: δ← 0 for each κατάσταση s in S do –if |U΄[s] – U[s]| > δ then δ ←|U΄[s] – U[s]| –until δ < ε(1 – γ) / γ –return U
13
Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (1)
14
Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (2)
15
Εύρεση βέλτιστης πολιτικής με επανάληψη πολιτικών
16
Ο αλγόριθμος επανάληψης πολιτικών function Policy-Iteration(mdp) returns μια πολιτική –inputs: mdp, μια MDP με καταστάσεις S, και μοντέλο μετάβασης T –local variables: U, U΄, διανύσματα χρησιμότητας για καταστάσεις στo S, αρχικά μηδέν –π, ένα διάνυσμα πολιτικής που δεικτοδοτείται από τις καταστάσεις, αρχικά τυχαίο –repeat –U ← Policy-Evaluation(π, U, mdp) αμετάβλητο? ← αληθές for each κατάσταση s in S do –if max a Σ s' T(s, α, s') U[s'] > Σ s' T(s, π[s], s') U[s'] then »π[s] ← argmax α Σ s' T(s, α, s') U[s'] »αμετάβλητο? ← ψευδές –until αμετάβλητο? –return π
17
Αξιολόγηση πολιτικών
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.