Λήψη σύνθετων αποφάσεων. Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Αναδρομικοί Αλγόριθμοι
Advertisements

Πιθανότητες & Τυχαία Σήματα
Aυτόνομοι Πράκτορεσ Ενισχυτική μαθηση σto Peg Solitaire
Προγραμματισμός Ι Προτάσεις ελέγχου ροής Ο πιο συνηθισμένος τρόπος εκτέλεσης είναι ο ακολουθιακός: δύο ή περισσότερες προτάσεις βρίσκονται διατεταγμένες.
Αλγόριθμοι Αναζήτησης
Διαδικασίες Markov, Εκθετική Κατανομή, Κατανομή Poisson
Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές
Μαθηματικοί Υπολογισμοί Χειμερινό Εξάμηνο η Διάλεξη Επίλυση Εξισώσεων Νοέμβρη 2002.
ΠΛΗ513 – ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΕΡΓΑΣΙΑ ΕΞΑΜΗΝΟΥ 2012 Ακασιάδης Χαρίλαος.
Διάλεξη 16: Πρόβλημα Συμφωνίας ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι.
Αλγόριθμοι Ταξινόμησης
1 Τμήμα Ψηφιακών Συστημάτων – Πανεπιστήμιο Πειραιώς Αναζήτηση (Search)
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος α
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος δ
Γενική μορφή προγράμματος Pascal
Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Παράδειγμα 1: Εκτύπωση διαδοχικών αριθμών(χρήση επαναληπτικής εντολής Επανέλαβε...μέχρις_ότου (repeat…until) Να γραφεί αλγόριθμος που να εμφανίζει τους.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Διαδικασίες Γεννήσεων-Θανάτων (Birth-Death), Εξισώσεις Ισορροπίας, Συστήματα Αναμονής Μ/Μ/1 Β. Μάγκλαρης
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Διαδικασίες Γεννήσεων – Θανάτων (Birth-Death Processes)
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αλγόριθμος.
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Θεωρία Στοχαστικών Σημάτων: Στοχαστικές διεργασίες, Περιγραφή εργοδικών.
ΤΑΛΑΝΤΩΣΕΙΣ 1. Μεγέθη που χαρακτηρίζουν μια ταλάντωση
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 11/04/13 Διαδικασίες Γεννήσεων-Θανάτων (Birth- Death), Εξισώσεις Ισορροπίας, Συστήματα Αναμονής Μ/Μ/1.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
Αποκοπή και Απόκρυψη. Το οπτικό μας πεδίο είναι περιορισμένο ενώ παράλληλα υπάρχει παρεμπόδιση μεταξύ αντικειμένων  βλέπουμε ένα πολύ μικρό κομμάτι των.
Γιάννης Σταματίου Αναδρομή και αναδρομικές σχέσεις
Φυσική κατεύθυνσης Γ’ Λυκείου Επιμέλεια –παρουσίαση χ. τζόκας
Στοιχεία από τα Διανύσματα
Grid World με αντίπαλο - κυνηγό ΠΛΗ513 ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ ΜΑΪΝΑΣ ΝΙΚΟΣ
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
Διαφάνειες παρουσίασης Πίνακες (συνέχεια) Αριθμητικοί υπολογισμοί Αναδρομή.
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΤΟ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΗΣ ΓΛΩΣΣΑΣ PASCAL ΠΑΡΟΥΣΙΑΣΗ ΠΑΡΑΔΕΙΓΜΑΤΟΣ: ΕΚΤΕΛΕΣΗ ΠΡΟΓΡΑΜΜΑΤΟΣ ΜΕ ΤΙΣ ΤΡΕΙΣ ΕΠΑΝΑΛΗΠΤΙΚΕΣ.
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ Διδάσκοντες:Στάθης Ζάχος Νίκος Παπασπύρου
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - 4ο εξάμηνο1 Ανάλυση Αλγορίθμων b Θέματα: Ορθότητα Χρονική αποδοτικότητα Χωρική αποδοτικότητα Βελτιστότητα b Προσεγγίσεις:
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αλγόριθμος.
Θεωρία Υπολογισμού Χρονική Πολυπλοκότητα και Μοντέλα.
ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ ΤΗΣ ΚΙΝΗΣΗΣ ΚΑΤ’ ΟΙΚΟΝ ΕΡΓΑΣΙΑ. Σταθερή μηδενική ταχύτητα Περιγραφή της κίνησης: Το σώμα είναι ακίνητο, μπορεί να έχει οποιαδήποτε θέση.
1 ΤΜΗΜΑ ΜΠΕΣ Αλγόριθμοι Αναζήτησης Εργασία 1 Τυφλή Αναζήτηση.
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ Διδάσκοντες:Στάθης Ζάχος Νίκος Παπασπύρου
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διδάσκοντες:Στάθης Ζάχος Νίκος Παπασπύρου
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ Διδάσκοντες:Στάθης Ζάχος Νίκος Παπασπύρου
1 ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Προσομοιώσεις Συστημάτων Αναμονής Markov (M/M/…) Β. Μάγκλαρης Β. Μάγκλαρης Σ. Παπαβασιλείου.
ΠΡΟΣΟΜΟΙΩΣΗ ΣΥΣΤΗΜΑΤΟΣ MARKOV ΓΙΑ ΠΡΟΩΘΗΣΗ ΚΙΝΗΣΗΣ STREAMING (VIDEO) Άσκηση Προσομοίωσης 28/5/2012.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 07/05/09 Εκθετική Κατανομή, Διαδικασίες Birth-Death.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Επανάληψη (1): Παράμετροι αξιολόγησης συστημάτων αναμονής –Μέσος ρυθμός απωλειών λ – γ.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 20/06/07 Ανάλυση Ουρών Markov.
ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ Διδάσκοντες:Γιάννης Μαΐστρος Στάθης Ζάχος Νίκος Παπασπύρου
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ 23/04/12 Διάγραμμα Μετάβασης Καταστάσεων, Εξισώσεις Ισορροπίας, Συστήματα Αναμονής Μ/Μ/1.
ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εργοδικές Πιθανότητες, Ισορροπία Μεταβάσεων - Ουρές Μ/Μ/1 Β. Μάγκλαρης Β. Μάγκλαρης Σ. Παπαβασιλείου Σ. Παπαβασιλείου.
1 ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Κατανομή Poisson, Διαδικασίες Γεννήσεων- Θανάτων (Birth-Death Processes) Β. Μάγκλαρης Β. Μάγκλαρης Σ. Παπαβασιλείου.
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
1 ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Διαδικασίες Γεννήσεων - Θανάτων Εξισώσεις Ισορροπίας - Ουρές Μ/Μ/1, M/M/1/N Προσομοίωση Ουράς Μ/Μ/1/Ν Βασίλης Μάγκλαρης.
Παρουσίαση πτυχιακής εργασίας Σαλιάρη Αικατερίνη Επιβλέπων καθηγητής: Αθανάσιος Νικολαΐδης.
ΣΤΡΑΤΗΓΙΚΗ ΑΝΑΠΤΥΞΗΣ ΤΗΣ ΕΥΦΥΟΥΣ ΠΟΛΗΣ
Επίλυση Προβλημάτων με Αναζήτηση
Ψηφιακές Επικοινωνίες ΙΙ
Λήψη Απλών Αποφάσεων 16/12/2017 Λήψη Απλών Αποφάσεων.
ΜΗΧΑΝΙΚΑ ΚΥΜΑΤΑ ΣΤΑΣΙΜΑ ΚΥΜΑΤΑ.
Η ΕΝΝΟΙΑ ΤΗΣ ΤΥΧΑΙΑΣ ΜΕΤΑΒΛΗΤΗΣ - ΠΙΘΑΝΟΤΗΤΑΣ
Νοήμονες Πράκτορες.
Ψηφιακός Έλεγχος διάλεξη Παρατηρητές Ψηφιακός Έλεγχος.
Ο ΔΙΑΛΟΓΟΣ ΤΟΥ ΙΗΣΟΥ ΜΕ ΤΗ ΣΑΜΑΡΕΙΤΙΣΣΑ
ΦΑΣΗ φ ΤΗΣ ΑΠΛΗΣ ΑΡΜΟΝΙΚΗΣ ΤΑΛΑΝΤΩΣΗΣ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
Λήψη Αποφάσεων και Συναρτήσεις Ελέγχου
Μεταγράφημα παρουσίασης:

Λήψη σύνθετων αποφάσεων

Ακολουθιακά προβλήματα αποφάσεων Η χρησιμότητα του αποτελέσματος κάθε ενέργειας, που μπορεί να επιλέξει σε μια χρονική στιγμή ο πράκτορας, εξαρτάται από μια ακολουθία αποφάσεων. Μοντέλο στοχαστικής ενέργειας (στο παράδειγμα, κίνησης): η κίνηση προς μια επιδιωκόμενη κατεύθυνση επιτυγχάνεται με κάποια πιθανότητα. Πιθανότητα επίτευξης του στόχου (+1) από την ακολουθία [U, U, R, R, R] x 0.8=

Διαδικασία απόφασης Markov (MDP)

Πολιτική

Παράδειγμα Βέλτιστων Πολιτικών R(s)=-0.04 για μη τερματικές καταστάσεις στην εικόνα αριστερά. Παρατηρήστε ότι η βέλτιστη πολιτική είναι συντηρητική για την κατάσταση (3,1).

Βέλτιστη Συμπεριφορά

Λήψη απόφασης με άπειρο ορίζοντα: στάσιμες προτιμήσεις

Λήψη απόφασης με άπειρο ορίζοντα: ειδικές περιπτώσεις

Επιλογή πολιτικής με βάση την αξία της

Εύρεση βέλτιστης πολιτικής με επανάληψη αξιών

Παράδειγμα

Ο αλγόριθμος επανάληψης αξιών (Value-iteration algorithm) function Value-Iteration (mdp, ε) returns μια συνάρτηση χρησιμότητας –inputs: mdp, MDP με καταστάσεις S, μοντέλο μετάβασης Τ, συνάρτηση ανταμοιβής R, προεξόφληση γ –ε, το μέγιστο σφάλμα που επιτρέπεται στη χρησιμότητα κάθε κατάστασης –local variables: U, U΄, διανύσματα χρησιμοτήτων για καταστάσεις στο S, αρχικά μηδενικά –δ, η μέγιστη μεταβολή στη χρησιμότητα οποιασδήποτε κατάστασης σε μια επανάληψη –repeat U ← U΄: δ← 0 for each κατάσταση s in S do –if |U΄[s] – U[s]| > δ then δ ←|U΄[s] – U[s]| –until δ < ε(1 – γ) / γ –return U

Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (1)

Παρατηρήσεις για τον αλγόριθμο επανάληψης αξιών (2)

Εύρεση βέλτιστης πολιτικής με επανάληψη πολιτικών

Ο αλγόριθμος επανάληψης πολιτικών function Policy-Iteration(mdp) returns μια πολιτική –inputs: mdp, μια MDP με καταστάσεις S, και μοντέλο μετάβασης T –local variables: U, U΄, διανύσματα χρησιμότητας για καταστάσεις στo S, αρχικά μηδέν –π, ένα διάνυσμα πολιτικής που δεικτοδοτείται από τις καταστάσεις, αρχικά τυχαίο –repeat –U ← Policy-Evaluation(π, U, mdp) αμετάβλητο? ← αληθές for each κατάσταση s in S do –if max a Σ s' T(s, α, s') U[s'] > Σ s' T(s, π[s], s') U[s'] then »π[s] ← argmax α Σ s' T(s, α, s') U[s'] »αμετάβλητο? ← ψευδές –until αμετάβλητο? –return π

Αξιολόγηση πολιτικών