Νοήμονες Πράκτορες.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τι είναι ο προγραμματισμός
Advertisements

Δομές Δεδομένων και Αλγόριθμοι
ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΕΡΓΑΣΙΩΝ
ΛΗΨΗ ΑΠΟΦΑΣΗΣ Ο σύγχρονος άνθρωπος πρέπει συνεχώς να αποφασίζει και να ελίσσεται σε διαρκώς μεταβαλ .κόσμο.Έχει μεγαλύτερο εύρος επιλογών.
Παρουσίαση λειτουργίας εφαρμογής extra Διαχείριση Ταμείου
Slide 1 Δίκτυα Τηλεπικοινωνιών ENOTHTA 7 η ΔΙΑΚΙΝΗΣΗ ΤΗΛΕΦΩΝΙΚΩΝ ΚΛΗΣΕΩΝ (ΜΕΡΟΣ Α’) 1. ΘΕΩΡΙΑ ΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΗΣ ΚΙΝΗΣΗΣ  Εκτός από τις τερματικές.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
Διαδικασία ανάπτυξης Προσδιορισμός απαιτήσεων Αρχιτεκτονικός Σχεδιασμός Λεπτομερής Σχεδιασμός Κωδικοποίηση Έλεγχος Παράδοση Συστήματος Λειτουργία - Συντήρηση.
Τεχνητή Νοημοσύνη Κώστας Στεργίου Επίκουρος Καθηγητής
Ευφυείς πράκτορες.
Εικονική πραγματικότητα ένας τρισδιάστατος κόσμος!!!
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Νοήμονες Πράκτορες.
Ενότητα Η Δομή Επανάληψης
Διαδικασία ανάπτυξης Προσδιορισμός απαιτήσεων
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
Αλγόριθμοι 2.1.1,
Αυτόνομοι Πράκτορες 2010 Project: Ms Pac-man Παπαδημητρίου Γεώργιος.
Κεφάλαιο 10 – Υποπρογράμματα
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
Διδασκαλια και Μαθηση με Χρηση ΤΠΕ
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
ΛΗΨΗ ΑΠΟΦΑΣΗΣ Ο σύγχρονος άνθρωπος πρέπει συνεχώς να αποφασίζει και να ελίσσεται σε διαρκώς μεταβαλ .κόσμο.Έχει μεγαλύτερο εύρος επιλογών.
Αρχές επαγωγικής στατιστικής
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
1 Διαχείριση Έργων Πληροφορικής Διάλεξη 7 η Διαχείριση Πόρων.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σήματα και Συστήματα ΙΙ Διάλεξη: Εβδομάδα Καθηγητής Πέτρος Γρουμπός Επιμέλεια παρουσίασης: Βασιλική Μπουγά 1.
1 Κ ΕΦΑΛΑΙΟ 14 ο: Θεωρία παιγνίων Παρακίνηση: Honda και Toyota 2. Ισορροπία κατά Nash 3. Το δίλημμα του φυλακισμένου 4. Ισορροπία με κυρίαρχη στρατηγική.
Ανοιχτές δεξιότητες Δεξιότητες που πραγματοποιούνται σε ένα μεταβαλλόμενο και απρόβλεπτο περιβάλλον και απαιτεί από τους εκτελεστές να προσαρμόσουν τις.
Για μτ από ατ μέχρι ττ [με_βήμα β] εντολές Τέλος_επανάληψης : περιοχή εντολών μτ : η μεταβλητή της οποίας η τιμή θα περάσει από την αρχική.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 3η Μετασχηματισμός Fourier.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 4η Δειγματοληψία.
Συμπληρωματική Πυκνότητα Ελαστικής Ενέργειας Συμπληρωματικό Εξωτερικό Έργο W: Κανονικό έργο Τελικές δυνάμεις Ρ, τελικές ροπές Μ, ολικές μετατοπίσεις δ.
ΚΙΝΗΤΙΚΗ ΜΑΘΗΣΗ ΜΑΘΗΜΑ 5: Κινητικός έλεγχος –Αισθητηριακές πληροφορίες
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον
Μικροοικονομία Διάλεξη 2.
ΘΕΩΡΙΕΣ ΛΗΨΗΣ ΑΠΟΦΑΣΗΣ
Χειρισμός Χρόνου και Μεθοδολογίες Προσομοίωσης
Επίλυση Προβλημάτων με Αναζήτηση
Ανάλυση κρίσιμου συμβάντος
Προβλήματα Ικανοποίησης Περιορισμών
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Προσομοίωση και Μοντέλα Συστημάτων (Μέρος B)
Δρ. Α. Ραφαηλίδης Τμ. Διοίκησης Επιχειρήσεων (Πάτρα) ΤΕΙ Δυτ. Ελλάδας
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Εισαγωγή στην Τεχνητή Νοημοσύνη
Ανάπτυξη Μοντέλων Διακριτών Συστημάτων Μέρος Β
Μοντελοποίηση Διακριτών Συστημάτων
ΔΟΜΗ ΕΠΑΝΑΛΗΨΗΣ «ΓΙΑ» Για μτ από ατ μέχρι ττ [με_βήμα β] εντολές Τέλος_επανάληψης : περιοχή εντολών μτ : η μεταβλητή της.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Νοήμονες Πράκτορες.
Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Ονοματεπώνυμο Σπουδάστριας: Ευαγγελία Δάπκα
Κανονικοπηση(normalization)
ΑΛΓΟΡΙΘΜΟΣ.
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
οι 3 Δομές Επανάληψης ή αλλιώς οι τρεις σωματοφύλακες…
ΠΛΗΡΟΦΟΡΙΚΗ Γ΄ Γυμνασίου Α΄ Τρίμηνο
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
Από τη Δομή Ακολουθίας στις Δομές Επανάληψης
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
Μεταγράφημα παρουσίασης:

Νοήμονες Πράκτορες

Τι είναι ευφυής πράκτορας; Οποιαδήποτε οντότητα λειτουργεί μέσα σε ένα περιβάλλον, το αντιλαμβάνεται μέσω αισθητήρων και επιδρά πάνω του μέσω μηχανισμών δράσης. Άνθρωπος Ρομπότ Πράκτορας λογισμικού ...αλλά και μη ευφυή πράγματα όπως....οι θερμοστάτες!

Ένας ορισμός εργασίας Ένας ορισμός εργασίας (Wooldridge & Jennings 1995) Πράκτορας είναι ένα ΥΣ που βρίσκεται μέσα σε κάποιο περιβάλλον και είναι ικανό για αυτόνομη δράση μέσα σε αυτό το περιβάλλον ώστε να εκπληρώσει τους στόχους για τους οποίους σχεδιάστηκε. Ανάλογα με τον τομέα εφαρμογής διαφορετικά χαρακτηριστικά θεωρούνται σημαντικά για να χαρακτηρίζεται ένα πρόγραμμα λογισμικού πράκτορας. Αντιδραστικότητα (ορθολογισμός): οι νοήμονες πράκτορες μπορούν να αντιλαμβάνονται το περιβάλλον τους και να απαντούν με τον καλύτερο δυνατό τρόπο, εντός λογικού χρόνου σε αλλαγές που συμβαίνουν σε αυτό, με σκοπό να εκπληρώσουν τους στόχους τους. Ενεργητικότητα (αυτονομία): οι νοήμονες πράκτορες μπορούν να πάρουν πρωτοβουλίες και να ενεργήσουν προς την εκπλήρωση των στόχων τους. Κοινωνικότητα: οι νοήμονες πράκτορες μπορούν να αλληλεπιδρούν με άλλους πράκτορες (και ανθρώπους) για να εκπληρώσουν τους στόχους τους. Αυτή η αλληλεπίδραση δεν περιορίζεται μόνο στην ανταλλαγή δεδομένων αλλά έχει χαρακτηριστικά που την κάνουν να μοιάζει με ανθρώπινη αλληλεπίδραση π.χ. για την σύναψη συμφωνιών, τη δημιουργία συνεργασιών, το συντονισμό ενεργειών με άλλους πράκτορες.

Αφηρημένη άποψη πράκτορα/περιβάλλοντος Συνήθως το περιβάλλον θεωρείται μη-ντετερμινιστικό: η εκτέλεση μιας ενέργειας από τον πράκτορα δεν έχει πάντα το ίδιο αποτέλεσμα. η εκτέλεση μιας ενέργειας από τον πράκτορα δεν είναι πάντα επιτυχής. Ο πράκτορας έχει ένα ρεπερτόριο ενεργειών που μπορεί να εκτελέσει. Δεν εκτελούναι όλες οι ενέργειες όλες τις φορές, συνήθως κάθε μιά απαιτεί συγκεκριμένες προϋποθέσεις. Το βασικό πρόβλημα για έναν πράκτορα είναι να αποφασίζει ποιά ενέργεια να εκτελέσει όταν περισσότερες από μια είναι πιθανές, έτσι ώστε να ικανοποιήσει τους στόχους για τους οποίους έχει σχεδιαστεί. Αυτή η επιλογή μπορεί να εξαρτάται μόνο από την τρέχουσα αντίληψη του πράκτορα για το περιβάλλον του ή από ολόκληρο το ιστορικό των αντιλήψεων του πράκτορα για το περιβάλλον του. Υπάρχουν αρχιτεκτονικές πρακτόρων, δηλαδή αρχιτεκτονικές λογισμικού για συστήματα λήψης αποφάσεων.

Πράκτορας και περιβάλλον (1) Είσοδος αισθητήρων = αντιλήψεις (percepts). Ακολουθία αντιλήψεων = πλήρες ιστορικό όλων όσων έχει αντιληφθεί ο πράκτορας. Έξοδος δράσης = ενέργειες που εκτελεί ο πράκτορας στο περιβάλλον. Ρεπερτόριο ενεργειών = το σύνολο όλων των ενεργειών που μπορεί να εκτελέσει ο πράκτορας. Συνάρτηση πράκτορα = αντιστοιχία ακολουθιών αντιλήψεων σε ενέργειες Η επιλογή μιας ενέργειας μια χρονική στιγμή εξαρτάται από την τρέχουσα αντίληψη του πράκτορα ή και από ολόκληρη την ακολουθία αντιλήψεών του.

Πράκτορας και περιβάλλον (2) Στη γενική περίπτωση το περιβάλλον ενός πράκτορα θεωρείται μη-ντετερμινιστικό: Η εκτέλεση μιας ενέργειας από τον πράκτορα δεν έχει πάντα το ίδιο αποτέλεσμα. Η εκτέλεση μιας ενέργειας από τον πράκτορα δεν είναι πάντα επιτυχής. Ο πράκτορας έχει ένα ρεπερτόριο ενεργειών που μπορεί να εκτελέσει. Δεν εκτελούναι όλες οι ενέργειες όλες τις φορές, συνήθως κάθε μιά απαιτεί συγκεκριμένες προϋποθέσεις. Το βασικό πρόβλημα για έναν πράκτορα είναι να αποφασίζει ποιά ενέργεια να εκτελέσει όταν περισσότερες από μια είναι πιθανές, έτσι ώστε να ικανοποιήσει τους στόχους για τους οποίους έχει σχεδιαστεί. Μαθηματικά, ένας πράκτορας είναι μια συνάρτηση που αντιστοιχίζει ενέργειες σε ιστορίες αντιλήψεων: f : P*  A Το βασικό πρόβλημα για μας είναι να βρούμε ποιός είναι ο σωστός τρόπος να ορίσουμε (προγραμματίσουμε) τη συνάρτηση του πράκτορα έτσι ώστε αυτός να μπορεί να αποφασίζει ποιά ενέργεια να εκτελέσει...

Παράδειγμα: πράκτορας-καθαριστής Ο κόσμος αποτελείται μόνο από τους χώρους Α και Β. Ο πράκτορας μπορεί (να δέχεται την ακόλουθη είσοδο) Να αντιλαμβάνεται σε ποιό χώρο είναι. Να αντιλαμβάνεται αν υπάρχει σκόνη στο χώρο όπου βρίσκεται. (να παράγει την ακόλουθη έξοδο) Να μετακινείται αριστερά. Να μετακινείται δεξιά. Να αναρροφήσει τη σκόνη.

Συνάρτηση πράκτορα-καθαριστή

Ορθολογικός πράκτορας Ορθολογικός πράκτορας = ο πράκτορας που κάνει το σωστό. Σωστό = η συνάρτηση του πράκτορα είναι σωστά ορισμένη, δηλαδή για κάθε ακολουθία αντιλήψεων αντιστοιχεί η ορθή/καλύτερη ενέργεια. Ορθή/καλύτερη ενέργεια = εκείνη που κάνει τον πράκτορα πιο επιτυχημένο. Επιτυχημένος πράκτορας = ?

Μέτρα απόδοσης για πράκτορες Μέτρο απόδοσης = ένα κριτήριο για την επιτυχημένη (ή όχι) συμπεριφορά του πράκτορα. Ο πράκτορας αντιλαμβάνεται το περιβάλλον. Με βάση τις αντιλήψεις του επιλέγει μια ενέργεια. Μόλις εκτελεστεί η ενέργειά του το περιβάλλον περνά σε νέα κατάσταση. Αν η νέα κατάσταση του περιβάλλοντος είναι επιθυμητή τότε ο πράκτορας ήταν αποδοτικός/επιτυχημένος. Ποιός θα αποφασίσει ποιές καταστάσεις περιβάλλοντος είναι επιθυμητές; Ο ίδιος ο πράκτορας (αλλά τότε είναι υποκειμενικό το κριτήριο) Ο σχεδιαστής του πράκτορα

Μέτρο απόδοσης για πράκτορα-καθαριστή Πόση σκόνη καθαρίζεται μέσα σε συγκεκριμένο χρονικό διάστημα; Ένας ορθολογικός πράκτορας θα μπορούσε να επιλέξει ...? Πόσο κατάφερε να διατηρήσει το χώρο καθαρό μέσα σε συγκεκριμένο χρονικό διάστημα; “καθαρός χώρος” = ? (μέση καθαρότητα?) Δύο διαφορετικοί πράκτορες μπορεί να επιτύχουν την ίδια απόδοση: Ένας που δουλεύει μέτρια όλη την ώρα Ένας που δουλεύει εντατικά κάποια διαστήματα αλλά κάνει μεγάλα διαλείμματα

Επιλογή κατάλληλου μέτρου απόδοσης Δύσκολη! Προτιμότερο να επιλέγουμε μέτρα απόδοσης σύμφωνα με το τί θέλουμε να συμβεί στο περιβάλλον παρά σύμφωνα με το πώς νομίζουμε ότι πρέπει να συμπεριφερθεί ο πράκτορας. Εξάλλου, δεν είναι πάντα σίγουρο ότι ένας πράκτορας θα συμπεριφερθεί με συγκεκριμένο τρόπο! Αυτονομία...

Ορθολογικός πράκτορας (ξανά...) Η “σωστή” ενέργεια σε μια χρονική στιγμή εξαρτάται Από το μέτρο απόδοσης που χρησιμοποιείται για να ορίσει την επιτυχία Από την προηγούμενη γνώση του πράκτορα για το περιβάλλον Από τις ενέργειες που μπορεί να πραγματοποιεί ο πράκτορας (ποιών οι προϋποθέσεις εκπληρώνονται;) Από την ακολουθία αντιλήψεων του πράκτορα μέχρι στιγμής Για κάθε δυνατή ακολουθία αντιλήψεων, ένας ορθολογικός πράκτορας θα πρέπει να επιλέγει μια ενέργεια που αναμένεται να μεγιστοποιήσει το μέτρο της απόδοσής του, με δεδομένα τα τεκμήρια που παρέχονται από την ακολουθία αντιλήψεων και την ενσωματωμένη γνώση που έχει ο πράκτορας.

Αυτονομία πράκτορα Ορθολογικότητα  παντογνωσία Ο πράκτορας παντογνώστης γνωρίζει το πραγματικό (όχι απλά το αναμενόμενο) αποτέλεσμα των ενεργειών του και πράττει ανάλογα. Η ορθολογική επιλογή εξαρτάται από τις μέχρι στιγμής αντιλήψεις. Ορθολογικότητα  συλλογή πληροφοριών και εξερεύνηση Ο ορθολογικός πράκτορας θα πρέπει να κάνει και ενέργειες που βοηθούν να μεγιστοποιηθεί η αναμενόμενη απόδοσή του (π.χ. Ο πράκτορας-καθαριστής να διατρέξει το χώρο για να εντοπίσει πού βρίσκεται σκόνη, ή που οριοθετείται ο χώρος) Ορθολογικότητα  μάθηση και αξιοποίηση εμπειρίας Συλλογή πληροφοριών + μάθηση + τροποποίση συμπεριφοράς = αυτονομία.

Περιβάλλοντα εργασιών Κάθε πράκτορας προορίζεται για να επιλύσει κάποιο πρόβλημα. Για να κατασκευάσουμε ορθολογικό πράκτορα πρέπει κατ’αρχήν να γνωρίζουμε το πρόβλημα, δηλαδή το περιβάλλον εργασίας του. Για να περιγράψουμε περιβάλλοντα εργασίας πρέπει να ορίσουμε Το μέτρο απόδοσης που θα χρησιμοποιηθεί (Performance) Τα περιεχόμενα του περιβάλλοντος (Environment) Τους μηχανισμούς δράσης που θα έχει ο πράκτορας (Actuators) Τους μηχανισμούς αντίληψης που θα έχει ο πράκτορας (Sensors)

PEAS παράδειγμα: αυτόματος οδηγός ταξί Τύπος πράκτορα Μέτρο απόδοσης Περιβάλλον Μηχανισμοί δράσης Αντιλήψεις Οδηγός ταξί Ασφαλές, άνετο, γρήγορο, νόμιμο δρομολόγιο, μέγιστα κέρδη Δρόμοι, άλλα οχήματα, πεζοί, πελάτες, ισχύων ΚΟΚ, καιρικές συνθήκες Τιμόνι, γκάζι, φρένο, σήμα, κόρνα, οθόνη Κάμερες, σόναρ, ταχύμετρο, GPS, οδόμετρο, επιταχυνσιόμετρο, αισθητήρες κινητήρα, πληκτρολόγιο

Κατηγορίες περιβαλλόντων για πράκτορες Οι Russel & Norvig (1995) τα κατηγοριοποιούν ανάλογα με τις ιδιότητές τους: Προσιτά/ μη-προσιτά: ένα περιβάλλον είναι προσιτό όταν ο πράκτορας μπορεί να λάβει πλήρη, ακριβή και ενημερωμένη πληροφορία για την κατάστασή του. Τα περισσότερα πραγματικά περιβάλλοντα είναι μη-προσιτά. Ντετερμινιστικά/μη-ντετερμινιστικά: ένα περιβάλλον είναι ντετερμινιστικό όταν κάθε ενέργεια που εκτελείται μέσα σε αυτό έχει ένα μοναδικό και εγγυημένο αποτέλεσμα (και οδηγεί σε μια μοναδική νέα κατάσταση του περιβάλλοντος). Στατικά/δυναμικά: ένα περιβάλλον θεωρείται στατικό όταν αλλάζει μόνο εξαιτίας της ενέργειας κάποιου πράκτορα. Ένα δυναμικό περιβάλλον περιέχει κι άλλες διεργασίες που το αλλάζουν και οι οποίες βρίσκονται εκτός του ελέγχου του πράκτορα. Διακριτά/συνεχή: ένα περιβάλλον είναι διακριτό όταν περιέχει σταθερό, πεπερασμένο αριθμό ενεργειών και μεταβλητών.

Μη-προσιτά περιβάλλοντα και σχεδίαση πρακτόρων Όσο πιο προσιτό είναι ένα περιβάλλον τόσο πιο εύκολο είναι να κατασκευάσουμε πράκτορα που να λειτουργεί αποτελεσματικά σε αυτό. Γιατι.... Καλός πράκτορας = πράκτορας που παίρνει καλές αποφάσεις Καλές αποφάσεις = αποφάσεις βασισμένες σε καλή πληροφορία Καλή πληροφορία = πλήρης, ενημερωμένη, ακριβής πληροφορία

Μη-ντετερμινιστικά περιβάλλοντα και σχεδίαση πρακτόρων Όσο πιο ντετερμινιστικό είναι ένα περιβάλλον τόσο πιο εύκολο είναι να κατασκευάσουμε πράκτορα που να λειτουργεί αποτελεσματικά σε αυτό. Μη-ντετερμινισμός σημαίνει περιορισμένη επιρροή του πράκτορα στο περιβάλλον του. οι ενέργειες του πράκτορα με συγκεκριμένο στόχο μπορεί να αποτύχουν.

Δυναμικά περιβάλλοντα και σχεδίαση πρακτόρων Όσο πιο στατικό είναι ένα περιβάλλον τόσο πιο εύκολο είναι να κατασκευάσουμε πράκτορα που να λειτουργεί αποτελεσματικά σε αυτό. Σε ένα στατικό περιβάλλον ο πράκτορας θα μπορούσε να λειτουργεί με απλούστερους αλγόριθμους κατάστρωσης σχεδίου δράσης (planning). Δυναμικό περιβάλλον για ένα πράκτορα σημαίνει ότι Ακόμα κι αν ο πράκτορας δεν εκτελέσει καμιά ενέργεια μεταξύ των χρονικών στιγμών t0 και t1, δεν μπορεί να υποθέσει ότι το περιβάλλον έμεινε το ίδιο από την t0 ως την t1. Άρα πριν εκτελέσει κάποια ενέργεια ο πράκτορας πρέπει πάντα να κάνει άλλες ενέργειες συλλογής πληροφορίας από το περιβάλλον. Άλλες διεργασίες μέσα στο περιβάλλον μπορεί να παρεμβληθούν στις ενέργειες που προσπαθεί να κάνει ο πράκτορας. Αν ο πράκτορας δει ότι το περιβάλλον έχει μια ιδιότητα x και αποφασίσει να εκτελέσει την ενέργεια a στη βάση αυτής της πληροφορίας, δεν υπάρχει εγγύηση ότι το περιβάλλον θα εξακολουθήσει να έχει την ιδιότητα x κατά τη διάρκεια της εκτέλεσης της ενέργειας a.

Διακριτά περιβάλλοντα και σχεδίαση πρακτόρων Ένα διακριτό περιβάλλον θα βρίσκεται πάντα σε μια από (πιθανά πολύ μεγάλο αλλά) πεπερασμένο πλήθος καταστάσεων. Είναι ευκολότερη η σχεδίαση πράκτορα για διακριτά περιβάλλοντα γιατί Οι ΗΥ είναι συστήματα διακριτών καταστάσεων. Μπορούν να προσομοιώσουν συνεχή συστήματα αλλά κάποια πληροφορία χάνεται κατά την αντιστοίχιση από συνεχές σε διακριτό. Όταν το πλήθος των καταστάσεων του συστήματος είναι πεπερασμένο μπορούμε να απαριθμίσουμε όλες τις δυνατές ενέργειες και την καλύτερη σε κάθε κατάσταση.

Ανοιχτά περιβάλλοντα (Hewitt 1986) Τα πιο πολύπλοκα περιβάλλοντα είναι Μη-προσιτά και Μη-ντετερμινιστικά και Δυναμικά και Συνεχή

Κατηγορίες προγραμμάτων πρακτόρων Απλοί αντανακλαστικοί πράκτορες Αντανακλαστικοί πράκτορες βασισμένοι σε μοντέλο Πράκτορες βασισμένοι στο στόχο Πράκτορες βασισμένοι στη χρησιμότητα

Απλοί αντανακλαστικοί πράκτορες (1) Επιλέγουν ποιά ενέργεια να εκτελέσουν σε μια δεδομένη χρονική στιγμή με βάση την τρέχουσα αντίληψή τους για το περιβάλλον. πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Κανόνες συνθήκης-ενέργειας

Απλοί αντανακλαστικοί πράκτορες (2) Παράδειγμα: θερμοστάτης Περιορισμένη ευφυία Επαρκούν σε περιβάλλοντα πλήρως παρατηρήσιμα. Σε μερικώς παρατηρήσιμα περιβάλλοντα μπορεί να εκτελούν ατέρμονες βρόχους Αν ο πράκτορας-καθαριστής δεν έχει τον αισθητήρα θέσης, έχει μόνο τον αισθητήρα σκόνης, τότε Ποιές αντιλήψεις είναι δυνατές; Ποιά ενέργεια πρέπει να κάνει στην αντίληψη [Καθαρό];

Αντανακλαστικοί πράκτορες με μοντέλο (1) Επιλέγουν ποιά ενέργεια να εκτελέσουν σε μια δεδομένη χρονική στιγμή με βάση το ιστορικό των αντιλήψεών του. Το ιστορικό των αντιλήψεών του χρησιμοποιείται για να κατασκευάσει ο πράκτορας ένα μοντέλο για το πώς λειτουργεί ο κόσμος. Πώς εξελίσσεται ο κόσμος ανεξάρτητα από αυτόν (νόμοι του περιβάλλοντος). Πώς αλλάζει ο κόσμος εξαιτίας των ενεργειών του.

Αντανακλαστικοί πράκτορες με μοντέλο (2) πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Κανόνες συνθήκης-ενέργειας κατάσταση Πώς εξελίσσεται ο κόσμος; Τί κάνουν οι ενέργειές μου;

Πράκτορες βασισμένοι σε στόχους (1) Η τρέχουσα αντίληψη (ή και το ιστορικό) δεν επαρκούν σε μερικές περιπτώσεις για να ληφθεί απόφαση για το ποιά ενέργεια πρέπει να εκτελεστεί. Π.χ. Σε ένα σταυροδρόμι ένα αυτοκίνητο μπορεί να στρίψει αριστερά, δεξία ή να πάει ευθεία. Η επιλογή εξαρτάται από το πού θέλει να πάει. Ο πράκτορας χρειάζεται κάποια πληροφορία για το ποιός είναι ο στόχος του (ποιά είναι η επιθυμητή κατάσταση περιβάλλοντος που πρέπει να πετύχει). Ο πράκτορας πρέπει να έχει ικανότητες αναζήτησης και σχεδιασμού για να μπορεί να βρεί ποιά ακολουθία ενεργειών πετυχαίνει το στόχο του.

Πράκτορες βασισμένοι σε στόχους (2) πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Στόχοι κατάσταση Πώς εξελίσσεται ο κόσμος; Τί κάνουν οι ενέργειές μου; Πώς θα είναι ο κόσμος αν κάνω την ενέργεια Α;

Πράκτορες βασισμένοι στη χρησιμότητα (1) Ένας στόχος (π.χ για τον πράκτορα-καθαριστή, να διατηρήσει τους δύο χώρους καθαρούς) ίσως επιτυγχάνεται με περισσότερους από έναν τρόπους. Πώς επιλέγει ένας πράκτορας ποιά ενέργεια να εκτελέσει όταν έχει επιλογή από ένα πλήθος εναλλακτικών που πετυχαίνουν το ίδιο αποτέλεσμα; Συνάρτηση χρησιμότητας: κάθε κατάσταση του περιβάλλοντος (ή κάθε ακολουθία καταστάσεων περιβάλλοντος) “βαθμολογείται” με πραγματικό αριθμό. Η συνάρτηση χρησιμότητας είναι χρήσιμη και όταν πρέπει ένας πράκτορας να αποφασίσει ποιόν από πολλούς εναλλακτικούς στόχους θα πρέπει να επιδιώξει (προτεραιότητες) ή ποιόν από συγκρουόμενους στόχους θα πρέπει να επιδιώξει.

Πράκτορες βασισμένοι στη χρησιμότητα (1) πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Στόχοι κατάσταση Πώς εξελίσσεται ο κόσμος; Τί κάνουν οι ενέργειές μου; Πώς θα είναι ο κόσμος αν κάνω την ενέργεια Α; Πόσο καλό θα ήταν αυτό; χρησιμότητα

Αφηρημένες αρχιτεκτονικές για νοήμονες πράκτορες Το περιβάλλον Ε μπορεί να είναι σε μια από ένα πεπερασμένο πλήθος διακριτών, στιγμιαίων καταστάσεων Ε={e0, e1, e2, …} Κάθε πράκτορας έχει ένα ρεπερτόριο ενεργειών που, αν τις πραγματοποιήσει, μετατρέπουν την κατάσταση του περιβάλλοντος. Ac={a0, a1, a2, …} Βασικό μοντέλο αλληλεπίδρασης: Το περιβάλλον αρχικά βρίσκεται σε μια κατάσταση και ο πράκτορας επιλέγει μια ενέργεια. Μετά την εκτέλεση της ενέργειας του πράκτορα το περιβάλλον μεταβαίνει σε μια (απο ένα σύνολο πιθανών) νεα κατάσταση η οποία δεν είναι εκ των προτέρων γνωστή στον πράκτορα. Ο πράκτορας επιλέγει νέα ενέργεια κλπ. Μια εκτέλεση r, ενός πράκτορα σε ένα περιβάλλον είναι μια ακολουθία καταστάσεων του περιβάλλοντος εναλλασσόμενων με ενέργειες του πράκτορα:

Απλοί αντανακλαστικοί πράκτορες (1) Επιλέγουν ποιά ενέργεια να εκτελέσουν σε μια δεδομένη χρονική στιγμή με βάση την τρέχουσα αντίληψή τους για το περιβάλλον. πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Κανόνες συνθήκης-ενέργειας

Αμιγώς αντιδραστικοί πράκτορες (απλοί αντανακλαστικοί)

Υποσυστήματα αντίληψης και δράσης Το υποσύστημα αντίληψης μπορεί να υλοποιηθεί με υλικό (με αισθητήρες, κάμερα, infrared) για πράκτορα που λειτουργεί στο φυσικό περιβάλλον. Για πράκτορα λογισμικού, η αντίληψη υλοποιείται με εντολές που επιστρέφουν πληροφορία για το περιβάλλον λογισμικού (ls, finger κλπ). Η see είναι συνάρτηση που αντιστοιχίζει καταστάσεις του περιβάλλοντος σε αντιλήψεις (εισόδους των αισθητήρων) δηλαδή see:E  Per. H action είναι συνάρτηση που αντιστοιχίζει σειρά αντιλήψεων σε ενέργειες, δηλαδή action: Per*  Ac. Ένας πράκτορας ορίζεται σαν το ζεύγος συναρτήσεων Ag=<see, action>.

Ιδιότητες των υποσυστημάτων αντίληψης/δράσης

Αντανακλαστικοί πράκτορες με μοντέλο (2) πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Κανόνες συνθήκης-ενέργειας κατάσταση Πώς εξελίσσεται ο κόσμος; Τί κάνουν οι ενέργειές μου;

Πράκτορες με κατάσταση Έχουμε αναπαραστήσει τη λειτουργία λήψης απόφασης ενός πράκτορα σαν συνάρτηση που αντιστοιχίζει ακολουθίες καταστάσεων περιβάλλοντος σε ενέργειες. Έτσι μπορούμε να μιλάμε για πράκτορες που αποφασίζουν λαμβάνοντας υπόψη την ιστορία τους. Τώρα θα αντικαταστήσουμε αυτό τον ορισμό με έναν ισοδύναμο αλλά πιο φυσικό, που μας επιτρέπει να μιλάμε για πράκτορες που διατηρούν μια κατάσταση, δηλαδή έχουν μνήμη. Οι πράκτορες με κατάσταση έχουν μια εσωτερική δομή δεδομένων που χρησιμοποιείται για να καταγράφεται πληροφορία για την κατάσταση του περιβάλλοντος και την ιστορία.

Ορισμός πράκτορα με κατάσταση Το σύνολο όλων των εσωτερικών καταστάσεων του πράκτορα είναι Ι. Η συνάρτηση αντίληψης παραμένει αμετάβλητη, δηλαδή αντιστοιχίζει καταστάσεις περιβάλλοντος σε αντιλήψεις: see: E Per Η συνάρτηση δράσης αντιστοιχίζει εσωτερικές καταστάσεις του πράκτορα σε ενέργειες: action: I Ac Η συνάρτηση next αντιστοιχίζει μια εσωτερική κατάσταση του πράκτορα και μια αντίληψη σε μια νέα εσωτερική κατάσταση του πράκτορα: next: I x Per I Ο πράκτορας ξεκινά σε μια αρχική εσωτερική κατάσταση i0. Παρατηρεί την κατάσταση του περιβάλλοντός του e και δημιουργεί μια αντίληψη see(e). Ενημερώνεται η εσωτερική του κατάσταση και γίνεται next(i0, see(e)). Επιλέγεται ενέργεια action(next(i0, see(e))). Εκτελείται η ενέργεια και ο πράκτορας ξεκινά καινούργιο κύκλο. Οι πράκτορες με κατάσταση είναι ισοδύναμης συμπεριφοράς με τους πράκτορες όπως τους αναπαραστήσαμε προηγουμένως, απλά αυτό το μοντέλο είναι περισσότερο διαισθητικά κατανοητό.

Πώς θέτουμε στόχους σε έναν πράκτορα; Κατασκευάζουμε πράκτορες για να εκτελούν για λογαριασμό μας κάποιες συγκεκριμένες εργασίες. Πρέπει λοιπόν να ορίσουμε στους πράκτορές μας τι να κάνουν, να τους θέσουμε στόχους. Ένας τρόπος για να γίνει αυτό είναι να γράψουμε ένα πρόγραμμα για να το εκτελεί ο πράκτορας. Έτσι δεν υπάρχει αβεβαιότητα για τη συμπεριφορά του πράκτορά μας, θα εκτελεί πάντα αυτό που τον προγραμματίσαμε να εκτελεί. Όμως τότε θα πρέπει να σκεφτούμε ακριβώς πώς θα εκτελείται η εργασία και να γράψουμε το πρόγραμμα με συγκεκριμένο αλγόριθμο. Αν προκύψουν απρόβλεπτες συνθήκες, ο πράκτοράς μας δεν θα μπορεί να αντιδράσει ανάλογα. Ένας πιο χρήσιμος τρόπος είναι να ορίσουμε στον πράκτορά μας τι θέλουμε να κάνει χωρίς να του πούμε πώς να το κάνει. Μπορούμε να ορίσουμε εργασίες έμμεσα μέσω κάποιου μέτρου απόδοσης: συσχετίζουμε καταστάσεις του περιβάλλοντος με χρησιμότητες.

Πράκτορες βασισμένοι στη χρησιμότητα (1) πράκτορας περιβάλλον Ποιά ενέργεια πρέπει να κάνω τώρα; Πώς είναι ο κόσμος τώρα; αισθητήρες μηχανισμοί δράσης Στόχοι κατάσταση Πώς εξελίσσεται ο κόσμος; Τί κάνουν οι ενέργειές μου; Πώς θα είναι ο κόσμος αν κάνω την ενέργεια Α; Πόσο καλό θα ήταν αυτό; χρησιμότητα

Συναρτήσεις χρησιμότητας σε καταστάσεις περιβάλλοντος

Συναρτήσεις χρησιμότητας σε σειρές του πράκτορα

Tileworld: περιγραφή

Tileworld: λειτουργία

Tileworld: ικανότητες πρακτόρων

Μειονεκτήματα των συναρτήσεων χρησιμότητας Είναι συχνά δύσκολο να ορίσουμε την κατάλληλη συνάρτηση χρησιμότητας. Συνήθως είναι πιο φυσικό να ορίζουμε τις εργασίες που θέλουμε να επιτελέσει ο πράκτορας μέσω στόχων που θα επιτευχθούν παρά μέσω της χρησιμότητας της κατάστασης περιβάλλοντος στην οποία ισχύουν αυτοί οι στόχοι. Έτσι προτιμούμε να ορίζουμε τις εργασίες πρακτόρων με κατηγορήματα.

Ορισμός εργασιών με κατηγορήματα

Περιβάλλοντα εργασίας

Είδη εργασίας

Εργασίες εκπλήρωσης

Εργασίες συντήρησης

Σύνθεση πρακτόρων