Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.

Λήψη σύνθετων αποφάσεων

Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή ο πράκτορας, εξαρτάται από μια ακολουθία αποφάσεων. Μοντέλο στοχαστικής ενέργειας (στο παράδειγμα, κίνησης): η κίνηση προς μια επιδιωκόμενη κατεύθυνση επιτυγχάνεται με κάποια πιθανότητα. Πιθανότητα επίτευξης του στόχου (+1) από την ακολουθία [U, U, R, R, R] 0.8 5 +0.1 4 x 0.8=0.32776

Διαδικασία απόφασης Markov (MDP)

Πολιτική

Παράδειγμα Βέλτιστων Πολιτικών R(s)=-0.04 για μη τερματικές καταστάσεις στην εικόνα αριστερά. Παρατηρήστε ότι η βέλτιστη πολιτική είναι συντηρητική για την κατάσταση (3,1).

Βέλτιστη Συμπεριφορά

Λήψη απόφασης με άπειρο ορίζοντα: στάσιμες προτιμήσεις

Λήψη απόφασης με άπειρο ορίζοντα: ειδικές περιπτώσεις

Επιλογή πολιτικής με βάση την αξία της

Εύρεση βέλτιστης πολιτικής με επανάληψη αξιών

Παράδειγμα

Ο αλγόριθμος επανάληψης αξιών (Value-iteration algorithm) function Value-Iteration (mdp, ε) returns μια συνάρτηση χρησιμότητας –inputs: mdp, MDP με καταστάσεις S, μοντέλο μετάβασης Τ, συνάρτηση ανταμοιβής R, προεξόφληση γ –ε, το μέγιστο σφάλμα που επιτρέπεται στη χρησιμότητα κάθε κατάστασης –local variables: U, U΄, διανύσματα χρησιμοτήτων για καταστάσεις στο S, αρχικά μηδενικά –δ, η μέγιστη μεταβολή στη χρησιμότητα οποιασδήποτε κατάστασης σε μια επανάληψη –repeat U ← U΄: δ← 0 for each κατάσταση s in S do –if |U΄[s] – U[s]| > δ then δ ←|U΄[s] – U[s]| –until δ < ε(1 – γ) / γ –return U

Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (1)

Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (2)

Εύρεση βέλτιστης πολιτικής με επανάληψη πολιτικών

Ο αλγόριθμος επανάληψης πολιτικών function Policy-Iteration(mdp) returns μια πολιτική –inputs: mdp, μια MDP με καταστάσεις S, και μοντέλο μετάβασης T –local variables: U, U΄, διανύσματα χρησιμότητας για καταστάσεις στo S, αρχικά μηδέν –π, ένα διάνυσμα πολιτικής που δεικτοδοτείται από τις καταστάσεις, αρχικά τυχαίο –repeat –U ← Policy-Evaluation(π, U, mdp) αμετάβλητο? ← αληθές for each κατάσταση s in S do –if max a Σ s' T(s, α, s') U[s'] > Σ s' T(s, π[s], s') U[s'] then »π[s] ← argmax α Σ s' T(s, α, s') U[s'] »αμετάβλητο? ← ψευδές –until αμετάβλητο? –return π

Αξιολόγηση πολιτικών

Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια