Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή."— Μεταγράφημα παρουσίασης:

1 Λήψη σύνθετων αποφάσεων

2 Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή ο πράκτορας, εξαρτάται από μια ακολουθία αποφάσεων. Μοντέλο στοχαστικής ενέργειας (στο παράδειγμα, κίνησης): η κίνηση προς μια επιδιωκόμενη κατεύθυνση επιτυγχάνεται με κάποια πιθανότητα. Πιθανότητα επίτευξης του στόχου (+1) από την ακολουθία [U, U, R, R, R] 0.8 5 +0.1 4 x 0.8=0.32776

3 Διαδικασία απόφασης Markov (MDP)

4 Πολιτική

5 Παράδειγμα Βέλτιστων Πολιτικών R(s)=-0.04 για μη τερματικές καταστάσεις στην εικόνα αριστερά. Παρατηρήστε ότι η βέλτιστη πολιτική είναι συντηρητική για την κατάσταση (3,1).

6 Βέλτιστη Συμπεριφορά

7 Λήψη απόφασης με άπειρο ορίζοντα: στάσιμες προτιμήσεις

8 Λήψη απόφασης με άπειρο ορίζοντα: ειδικές περιπτώσεις

9 Επιλογή πολιτικής με βάση την αξία της

10 Εύρεση βέλτιστης πολιτικής με επανάληψη αξιών

11 Παράδειγμα

12 Ο αλγόριθμος επανάληψης αξιών (Value-iteration algorithm) function Value-Iteration (mdp, ε) returns μια συνάρτηση χρησιμότητας –inputs: mdp, MDP με καταστάσεις S, μοντέλο μετάβασης Τ, συνάρτηση ανταμοιβής R, προεξόφληση γ –ε, το μέγιστο σφάλμα που επιτρέπεται στη χρησιμότητα κάθε κατάστασης –local variables: U, U΄, διανύσματα χρησιμοτήτων για καταστάσεις στο S, αρχικά μηδενικά –δ, η μέγιστη μεταβολή στη χρησιμότητα οποιασδήποτε κατάστασης σε μια επανάληψη –repeat U ← U΄: δ← 0 for each κατάσταση s in S do –if |U΄[s] – U[s]| > δ then δ ←|U΄[s] – U[s]| –until δ < ε(1 – γ) / γ –return U

13 Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (1)

14 Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (2)

15 Εύρεση βέλτιστης πολιτικής με επανάληψη πολιτικών

16 Ο αλγόριθμος επανάληψης πολιτικών function Policy-Iteration(mdp) returns μια πολιτική –inputs: mdp, μια MDP με καταστάσεις S, και μοντέλο μετάβασης T –local variables: U, U΄, διανύσματα χρησιμότητας για καταστάσεις στo S, αρχικά μηδέν –π, ένα διάνυσμα πολιτικής που δεικτοδοτείται από τις καταστάσεις, αρχικά τυχαίο –repeat –U ← Policy-Evaluation(π, U, mdp) αμετάβλητο? ← αληθές for each κατάσταση s in S do –if max a Σ s' T(s, α, s') U[s'] > Σ s' T(s, π[s], s') U[s'] then »π[s] ← argmax α Σ s' T(s, α, s') U[s'] »αμετάβλητο? ← ψευδές –until αμετάβλητο? –return π

17 Αξιολόγηση πολιτικών


Κατέβασμα ppt "Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google