Αλληλεπιδράσεις πρακτόρων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εκμάθηση διεπαφής MS Kodu. Δημιουργώ τον Κόσμο Το πρώτο πράγμα που θα φτιάξουμε είναι ο κόσμος. Λογικό, αφού χωρίς κόσμο, πού θα τοποθετούσαμε μετά τα.
Advertisements

Κεφάλαιο 13 Μεγιστοποίηση κέρδους και προσφορά
Ο ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΤΩΝ ΤΙΜΩΝ
Το Μπριτζ είναι ένα παιχνίδι στατιστικής και η τεχνική της εμπάς ταιριάζει πολύ Οι πρωταθλητές προσπαθούν να ακολουθούν κάθε φορά το πλάνο με τις.
FM Group FM 4 SUCCESS ΚαλΩς Hρθατε στην.
Τα όρια στη συμπεριφορά των παιδιών
Project Β’ Τετραμήνου Ομάδας Αθλητισμού και Εφήβων
ΠΑΙΧΝΙΔΙ ΚΑΙ ΕΦΗΒΟΙ.
ΚΑΝΩ ΠΛΑΝΟ ΣΤΑ ΧΑ ΜΑΘΗΜΑ 6 Ο Α Γ Ο Ρ Α N Δ Β Α 1ΧΑ Π ♠ A42 ♥ K53  K92 ♣ 9765 ♠ KQ3 ♥ AQ7  A75 ♣ 8432 Β Δ Α Ν Α Γ Ο Ρ Α N Δ Β Α 1ΧΑ Π 3ΧΑ Π Π Π ♠J Ο.
The influence of Emotion Expression on Perceptions of Trustworthiness in Negotiation (2011) Antos et al. Παρουσίαση: Μαρία Νικήτα Προηγμένη Τεχνητή Νοημοσύνη.
Κοινωνίες και συνεργασία
Αποτελέσματα Axelrod Η στρατηγική Tit-for-Tat επικράτησε μετά από πολλές γενιές Όταν όλοι παίζουν Tit-for-Tat έχουμε σημείο ισορροπίας Φαινόταν ότι το.
Αλληλεπιδράσεις πρακτόρων Πώς σχεδιάζουμε κοινωνίες πρακτόρων;
4. Απόψεις και κίνητρα των μαθητών στο μάθημα των Μαθηματικών.
Εργαστήρι παραγωγής λεβέ!!
Μοντελοποίηση Έργα Μαθήματα Αξιολόγηση Αναστοχασμός Αναστοχασμός.
Quatuor Squilla Θέμα: "Πώς επηρέασε η χρήση της κινητής τηλεφωνίας τις διαπροσωπικές σχέσεις και ποια νέα ήθη και γλώσσα εισήγαγε στη σύγχρονη καθημερινότητα;"
Ιωάννης Γ. Κοντοχριστόπουλος Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Επιβλέπων: Επ. Καθηγητής Κ. Σγάρμπας Τετάρτη 10 Οκτωβρίου 2012.

Διαχείριση της σχολικής τάξης
ΚΟΙΤΑΖΩ ΜΕΣΑ ΜΟΥ ΚΟΙΤΑΖΩ ΓΥΡΩ ΜΟΥ. Η Διαδικασία της λήψης απόφασης στην επιλογή σπουδών και επαγγελμάτων ΓΡΑΣΕΠ Γ/σιο Ερασμίου Ξάνθης.
Το δίλημμα του φυλακισμένου – Πειραματική προσέγγιση.
Δύσκολες Συμπεριφορές στο Σχολείο.
ΨΗΦΙΑΚΑ ΕΚΠΑΙΔΕΥΤΙΚΑ ΠΑΙΧΝΙΔΙΑ
Education and Culture Name Education and Culture Χαρακτηριστικά μιας καλής Πρότασης Ρούλα Κυρίλλου-Ιωαννίδου ΙΔΕΠ Διά Βίου Μάθησης.
Impasse Finesse Sorpasso Snit Εμπάς Κατάλαβα ξέρεις ξένες γλώσσες! Να παίζεις όμως bridge μπορείς; Η εμπάς (η αλλιώς τυλιχτή) είναι κόλπο του εκτελεστή!
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Κατακερματισμός – Hashing (1 ο Μέρος)
Ασκήσεις - Εφαρμογές Διάλεξη 5 η Οικονομική Αξιολόγηση Έργων και Πολιτικών.
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Α. Χατζηπαντελή MSc. PhD. Νοερή απεικόνιση τρόπος αντιµετώπισης προβληµάτων, ή γεγονότων µε τη σκέψη προτού αντιμετωπισθεί στην πραγµατικότητα.
Οι μαθητές της Ε’ δημοτικού εργάστηκαν ….. για το καλό του πλανήτη μας! Ο πλανήτης κινδυνεύει… πρέπει να δράσουμε!!!
Επηρεάζοντας έμμεσα το πρόβλημα
Βιωματικές δράσεις Α΄ τάξη Σχ. Έτος: Γ΄ Τρίμηνο
Αυτόνομοι Πράκτορες Ενισχυτική Μάθηση (Q-learning algorithm) in PONG Χανιά, 4/3/2011 Μπαμπαλής Μπάμπης.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΕΝΟΤΗΤΑ 8η ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ - ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ - ΣΑΒΒΑΣ ΚΑΤΕΡΕΛΟΣ.
1 Κ ΕΦΑΛΑΙΟ 14 ο: Θεωρία παιγνίων Παρακίνηση: Honda και Toyota 2. Ισορροπία κατά Nash 3. Το δίλημμα του φυλακισμένου 4. Ισορροπία με κυρίαρχη στρατηγική.
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Γιώργος Κοντέος Εισαγωγή στα Οικονομικά.
ΘΕΜΑ Άρθρο 5/ ο Διαιτητής Καθήκοντα και αρμοδιότητες ΤΟ ΠΛΕΟΝΕΚΤΗΜΑ.
«Σχολική Αυλή – Διάλειμμα» 20 Μαΐου Είμαστε οι μαθητές και οι μαθήτριες της Δ2 τάξης του 4 ου Δημοτικού Σχολείου Πτολεμαΐδας. Ήρθαμε εδώ για να.
Ομαδική εργασία Ελένη Μπαμπίλα Σχολική Σύμβουλος.
Κεφάλαιο 5 Συμπεριφορά των ΣΑΕ Πλεονεκτήματα της διαδικασίας σχεδίασης ΣΑΕ κλειστού βρόχου Συμπεριφορά των ΣΑΕ στο πεδίο του χρόνου Απόκριση ΣΑΕ σε διάφορα.
«DIFRIENDS» Κατερίνα Μαρία-Αγγελική Βασιλική Ανδριάνα Σενάριο για το μάθημα της Γλώσσας Υπεύθυνη Καθηγήτρια: Κ. Κατερίνα Νικολοπούλου.
Αφήγηση Παράδειγμα ανάλυσης. Παράγοντες επιλογής Ένα βασικός παράγοντας, για να επιλέξω να γίνω εκπαιδευτικός ήταν ότι και οι δύο μεγαλύτερες αδελφές.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΘΕΩΡΙΑΣ ΠΑΙΓΝΙΩΝ Τρίλιζα, Pacman, Age of Empires Αλέξης Γελαστόπουλος, Βάσω.
Η αξία θέσης των ψηφίων στους φυσικούς αριθμούς. πόσες καρτέλες σαν αυτή;
ΜΑΘΗΜΑ 11: ΑΜΟΙΒΕΣ, ΠΟΙΝΕΣ ΚΑΙ ΕΣΩΤΕΡΙΚΑ ΚΙΝΗΤΡΑ ΣΤΗ ΦΥΣΙΚΗ ΑΓΩΓΗ ΙΕΚ ΑΙΓΕΑΣ ΠΡΟΠΟΝΗΤΗΣ ΑΘΛΗΜΑΤΩΝ Μουστάκα Φρίντα Καθηγήτρια Φυσικής Αγωγής, MSc, Med,
Συμπληρωματική Πυκνότητα Ελαστικής Ενέργειας Συμπληρωματικό Εξωτερικό Έργο W: Κανονικό έργο Τελικές δυνάμεις Ρ, τελικές ροπές Μ, ολικές μετατοπίσεις δ.
Συνέντευξη με νήπια.
Μικροοικονομία Διάλεξη 2.
ΘΕΩΡΙΕΣ ΛΗΨΗΣ ΑΠΟΦΑΣΗΣ
Επίλυση Προβλημάτων με Αναζήτηση
Επίτευξη συμφωνιών μεταξύ πρακτόρων σε MAS
Αρχές Οργάνωσης και διοίκησης επιχειρήσεων , 1ο εξάμηνο
Νοήμονες Πράκτορες.
Σύμπαν Από τι αποτελείται; Υπάρχουν κι άλλα;…
Κεφάλαιο 7: Διαδικτύωση-Internet Μάθημα 7.9: Δρομολόγηση
Αναζητώντας το καλό κλίμα στο σχολείο
Στρατηγικές πληροφορημένης αναζήτησης
Λίγα λόγια για σένα. Αυτό το προγραμματάκι έγινε για να σε
Αφήγηση Παράδειγμα ανάλυσης.
Κρίσιμο Συμβάν Διδασκαλίας 1
Πώς να κάνουμε σωστές επιλογές, σύμφωνα με τη χριστιανική πίστη
Δένδρα αποφάσεων (Decision trees)
ΚΑΘΗΜΕΡΙΝΕΣ ΙΣΤΟΡΙΕΣ ΣΧΟΛΙΚΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ
Οι απόψεις των μαθητών του σχολείου μας για τα βιντεοπαιχνίδια
Παίγνια με Πλήρη Πληροφόρηση
Δένδρα αποφάσεων (Decision trees)
Μεταγράφημα παρουσίασης:

Αλληλεπιδράσεις πρακτόρων Πώς σχεδιάζουμε κοινωνίες πρακτόρων;

Δεν υπάρχει σύστημα ενός πράκτορα!

Δεν υπάρχει σύστημα ενός πράκτορα! Κάθε σύστημα περιέχει ένα πλήθος πρακτόρων που αλληλεπιδρούν είτε άμεσα επικοινωνώντας, είτε έμμεσα με τις ενέργειές τους στο περιβάλλον. Κάθε πράκτορας αλληλεπιδρά με το περιβάλλον, δηλαδή μπορεί με τις ενέργειές του να το αλλάζει. Άρα κάθε πράκτορας έχει μια σφαίρα επιρροής στο περιβάλλον, δηλαδή το τμήμα εκείνο του περιβάλλοντος το οποίο μπορεί να αλλάζει. Όπου δύο ή περισσότεροι πράκτορες έχουν κοινή σφαίρα επιρροής, τότε έχουν και κάποια σχέση αλληλοεξάρτησης (π.χ. Δύο πράκτορες ελέγχουν αν μια πόρτα είναι κλειστή/ανοιχτή, αλλά επειδή η πόρτα μπορεί να είναι μόνο σε μια κατάσταση κάθε φορά, πρέπει να ρυθμιστεί η συμπεριφορά τους έτσι ώστε να μην έρχονται σε σύγκρουση, ή όποτε έρχονται σε σύγκρουση αυτή να επιλύεται με κάποιο τρόπο). Οι πράκτορες μπορεί να είναι οργανωμένοι με διάφορους τρόπους οπότε υπάρχουν μεταξύ τους διάφορες οργανωσιακές σχέσεις, π.χ. Ανήκουν στην ίδια ομάδα, κάποιος είναι αρχηγός ομάδας κλπ.

Το ζητούμενο σε MAS Αυτό που μας ενδιαφέρει να χαρακτηρίσουμε, όταν έχουμε συστήματα πολλών πρακτόρων, είναι η συμπεριφορά κάθε πράκτορα λαμβάνοντας υπόψη την συνύπαρξή του με άλλους, δηλαδή... Όταν ένας πράκτορας πρέπει να επιλέξει τι ενέργεια να εκτελέσει στο περιβάλλον του έτσι ώστε να πετύχει το στόχο του, και όταν οι στόχοι των άλλων πρακτόρων που συνυπάρχουν είναι διαφορετικοί (και πολύ πιθανό αντικρουόμενοι), πώς επιλέγει τελικά ο πράκτορας τι να κάνει; Μια απάντηση είναι μέσω συναρτήσεων χρησιμότητας. Αλλά επειδή το περιβάλλον είναι ανοιχτό, η χρησιμότητα κάθε κατάστασης μπορεί να μην είναι εκ των προτέρων γνωστή. Πρέπει λοιπόν ο πράκτορας να υπολογίζει δυναμικά τι «συμφέρει» να κάνει σε κάθε χρονική στιγμή που καλείται να αποφασίσει ποιά ενέργεια να εκτελέσει.

Οι προτιμήσεις ενός πράκτορα

Προτιμήσεις και χρησιμότητα Υπάρχει μια τάση να αντιλαμβανόμαστε τη χρησιμότητα με οικονομικούς όρους, δηλαδή όσο περισσότερα «χρήματα» αξίζει μια κατάσταση τόσο πιο χρήσιμη είναι. Αλλά δεν είναι πάντα χρήσιμη αυτή η μεταφορά. Παράδειγμα: ο πράκτορας Α έχει $500 εκατομμύρια και ο πράκτορας Β δεν έχει τίποτα. Ένας γενναιόδωρος πράκτορας Γ έχει $1 εκατομμύριο να δωρίσει. Αν το δωρίσει στον Α θα προκύψει μια κατάσταση στην οποία ο Α έχει $501 εκατομμύρια και ο Β τίποτα. Υπάρχει μια μικρή αύξηση στη χρησιμότητα για τον Α (αλλά είναι μικρή γιατί ό,τι μπορείς να κάνεις με $501 εκατομμύρια μπορείς να το κάνεις λίγο-πολύ και με $500 εκατομμύρια). Αν το δωρίσει στον Β θα προκύψει μια κατάσταση στην οποία ο Α έχει $500 εκατομμύρια και ο Β $1 εκατομμύριο. Αυτή η κατάσταση παρουσιάζει πολύ μεγάλη αύξηση της χρησιμότητας από τη σκοπιά του Β. Οι συναρτήσεις χρησιμότητας είναι απλά ένας τρόπος για να αναπαρίστανται οι προτιμήσεις ενός πράκτορα. Δεν μεταφράζονται κατ’ανάγκη σε οικονομικούς όρους.

Πολυπρακτορικές συναναστροφές (1)

Πολυπρακτορικές συναναστροφές (2)

Πολυπρακτορικές συναναστροφές (3)

Κυριαρχία

Ισορροπίες Νash

Ανταγωνιστικές και μηδενικού αθροίσματος αλληλεπιδράσεις

Το δίλημμα του φυλακισμένου (1) (Prisoner’s Dilemma)

Το δίλημμα του φυλακισμένου (2)

Δεν είμαστε όλοι Machiavelli Μια προσπάθεια απάντησης στο δίλημμα του φυλακισμένου. Δεν είμαστε όλοι εγωιστές, δεν μας ενδιαφέρει μόνο η μεγιστοποίηση του κέρδους μας, υπάρχουν παραδείγματα πραγματικής αλτρουιστικής συμπεριφοράς στον κόσμο και παραδείγματα αυθόρμητης συνεργασίας. Αλλά... Πολλές φορές στα πραγματικά παραδείγματα υπάρχει μηχανισμός που καθιστά προτιμότερο να συνεργαστούμε παρά όχι (π.χ. Άμεση ή έμμεση τιμωρία αν δεν συνεργαστώ). Πραγματικά παραδείγματα συνεργατικής συμπεριφοράς είναι ευάλωττα σε καταχρήσεις από εκείνους που επιλέγουν D και μεγιστοποιούν το κέρδος τους. Π.χ. Ένα σύστημα μαζικής μεταφοράς στο οποίο καθένας πληρώνει αυθόρμητα το κόμιστρο που πρέπει.

Ό άλλος φυλακισμένος είναι ο δίδυμος αδελφός μου Μια ακόμα προσπάθεια απάντησης στο δίλημμα του φυλακισμένου. Οι δύο φυλακισμένοι θα σκεφτούν με τον ίδιο τρόπο και έτσι και οι δύο θα καταλήξουν στο συμπέρασμα ότι η συνεργασία συμφέρει. Αλλά... Τότε δεν έχω το σενάριο του διλήμματος του φυλακισμένου, δεν έχω δύο παίκτες με διαφορετικά συμφέροντα.

Οι άνθρωποι δεν συμπεριφέρονται λογικά Οι άνθρωποι επιλέγουμε συνεργατική συμπεριφορά όταν δεν πειράζει πολύ το κόστος, π.χ. Το να πληρώνουμε το εισιτήριο του λεωφορείου έντιμα, ακόμα κι αν άλλοι καταχρώνται το σύστημα. Αλλά τότε παραδεχόμαστε ότι επιλέγουμε ορθολογικά όταν το κόστος είναι υψηλό.

Η απειλή του μέλλοντος Τι θα άλλαζε στο αποτέλεσμα του διλήμματος του φυλακισμένου αν παιζόταν το παιχνίδι όχι μια φορά, αλλά επαναληπτικά για έναν αριθμό γύρων; Και κάθε πράκτορας μπορεί να δεί τι έκανε ο άλλος στον προηγούμενο γύρο; Τι είναι ορθολογιστικό να πράξει κάθε πράκτορας υπό αυτές τις συνθήκες; Αν γνωρίζει ένας πράκτορας ότι θα «ξανασυναντήσει» τον αντίπαλο πράκτορα στο μέλλον, τότε το κίνητρό του να κάνει D μειώνεται γιατί Αν κάνει D στον τρέχοντα γύρο, τότε ο αντίπαλος θα τον τιμωρήσει στον επόμενο γύρο κάνοντας D κι αυτός. Αν κάνει C στον τρέχοντα γύρο, κι ο αντίπαλος δεν ανταποκριθεί το ίδιο, τότε στον επόμενο γύρο θα τιμωρήσει τον αντίπαλο (και θα ανακάμψει την όποια απώλεια κέρδους του τρέχοντος γύρου). Υπό αυτές τις συνθήκες, δηλαδή με την υπόθεση ότι η αλληλεπίδραση των πρακτόρων έχει διάρκεια στο χρόνο, η συνεργασία (να κάνει κανείς C) είναι πλέον προτιμότερη (ορθολογική) επιλογή.

...αλλά υπάρχει ένα «αλλά»... Έστω ότι οι πράκτορες συμφώνησαν να παίξουν το επαναληπτικό δίλημμα του φυλακισμένου για έναν προκαθορισμένο πεπερασμένο αριθμό γύρων, π.χ. 100. Πρέπει καθένας να αποφασίσει από την αρχή τι στρατηγική θα ακολουθήσει. Στον τελευταίο γύρο (τον 100ό) και οι δύο γνωρίζουν ότι δεν θα αλληλεπιδράσουν ξανά στο μέλλον. Με άλλα λόγια, ο τελευταίος γύρος είναι σαν να παίζουν οι πράκτορες μια φορά μόνο το δίλημμα του φυλακισμένου (όπου είδαμε νωρίτερα ότι η ορθολογική επιλογή είναι D). Έτσι στον 100ό γύρο και οι δύο πράκτορες (ορθολογικά) θα κάνουν D. Οπότε ο πραγματικός τελικός γύρος του επαναληπτικού παιχνιδιού είναι ο 99ός. Με την ίδια λογική, κι αυτός μπορεί να θεωρηθεί σαν μοναδικός γύρος κλπ. Επαγωγικά συμπεραίνουμε ότι η επαναληπτική εκδοχή του παιχνιδιού, όταν ο αριθμός των γύρων είναι προκαθορισμένος και γνωστός στους δύο πράκτορες, οδηγεί σε κυρίαρχη στρατηγική D, όπως και στην εκδοχή του ενός γύρου. Συμπέρασμα: απαιτείται άπειρος αριθμός γύρων...Στην πράξη χρησιμοποιούμε πεπερασμένο, αλλά πολύ μεγάλο αριθμό γύρων . Ακόμα κι αν ένας συνεργάσιμος πράκτορας (που κάνει C) υποφέρει παίζοντας με έναν μη συνεργαζόμενο αντίπαλο, συνολικά θα κερδίσει αν έχει τη δυνατότητα να αλληλεπιδράσει με άλλους συνεργάσιμους πράκτορες: Η εκδοχή του διλήμματος του φυλακισμένου σε τουρνουά (Axelrod).

Το τουρνουά του Axelrod Κάθε πρόγραμμα γνώριζε την προηγούμενη επιλογή (C ή D) του αντιπάλου του και αποφάσιζε τι να κάνει βασισμένο σε αυτή την πληροφορία. Κάθε πρόγραμμα έπαιζε ενάντια σε κάθε άλλο για 5 παιχνίδια, με 200 γύρους το κάθε ένα. Νικητής ήταν το πρόγραμμα που κέρδιζε στο σύνολο των παιχνιδιών με όλα τα άλλα προγράμματα. Κάθε πρόγραμμα είχε τη δική του στρατηγική.

Παραδείγματα στρατηγικής στο τουρνουά του Axelrod ALL-D: η στρατηγική του «γερακιού», πάντα κάνε D ό,τι κι αν κάνει ο αντίπαλος (αυτή είναι η ορθολογική επιλογή στο επαναληπτικό παιχνίδι με σταθερό, προκαθορισμένο αριθμό γύρων). RANDOM: αγνόησε ό,τι κι αν έκανε ο αντίπαλος στον προηγούμενο γύρο, επέλεξε C ή D τυχαία, με ίση πιθανότητα. TIT-for-TAT: στον πρώτο γύρο κάνε C. Στον γύρο t > 1 κάνε ό,τι έκανε ο αντίπαλος στο γύρο t-1. (αυτή ήταν και η απλούστερη απαιτώντας 5 γραμμές FORTRAN). TESTER: στον πρώτο γύρο δοκίμασε τον αντίπαλο κάνοντας D. Αν ο αντίπαλος σε τιμωρήσει κάνοντας επίσης D, συνέχισε παίζοντας τη στρατηγική TIT-for-TAT. Αν ο αντίπαλος δεν σε τιμωρήσει, τότε να παίζεις C για δύο γύρους και μετά D, επαναληπτικά. JOSS: όπως η TESTER, αυτή η στρατηγική είναι σχεδιασμένη για να εκμεταλλεύεται ασθενείς αντιπάλους. Ουσιαστικά είναι ίδια με την TIT-for-TAT, αλλά 10% του χρόνου αντί να κάνει C, κάνει D. Ποιά στρατηγική πιστεύετε ότι απέδωσε καλύτερα; Ποιά θα επιλέγατε, με βάση όσα γνωρίζετε μέχρι τώρα από τη θεωρία παιγνίων;

Αποτελέσματα του τουρνουά του Axelrod Ο νικητής ήταν ο πράκτορας που έπαιζε τη στρατηγική TIT-for-TAT. Αλλά προσοχή πώς ερμηνεύουμε το αποτέλεσμα! Η TIT-for-TAT κέρδισε γιατί λάβαμε υπόψη όλες τις άλλες στρατηγικές που συμμετείχαν. Αν η TIT-for-TAT παιζόταν εναντίον μόνο της ALL-D, τότε θα κέρδιζε η ALL-D. Η TIT-for-TAT κέρδισε γιατί είχε την ευκαιρία να παίξει εναντίον αντιπάλων που είχαν επίσης την τάση να συνεργαστούν. Γι’αυτό και το συμπέρασμα ότι η συνεργασία είναι καλή στρατηγική για έναν πράκτορα όταν συνυπάρχει με άλλους που κι εκείνοι έχουν την τάση να συνεργαστούν. Προσπαθώντας να εξηγήσει τους λόγους της επιτυχίας της TIT-for-TAT ο Axelrod κατέληξε σε τέσσερις κανόνες για επιτυχία στο επαναληπτικό δίλημμα του φυλακισμένου.

Οι κανόνες του Axelrod για το επαναληπτικό παιχνίδι Μη ζηλεύεις: δεν είναι απαραίτητο να «νικήσεις» τον αντίπαλο για να επιτύχεις. Μην είσαι ο πρώτος που δεν συνεργάζεται: στον πρώτο γύρο ξεκίνα με συνεργασία. Όση χρησιμότητα κι αν χάσεις στιγμιαία από αυτή την επιλογή, θα την ανακτήσεις σε επόμενους γύρους μέσω της συνεργασίας με άλλες καλές (=συνεργάσιμες) στρατηγικές. Να ανταποδίδεις τη συνεργασία και τη μη-συνεργασία: η TIT-for-TAT αντιπροσωπεύει καλή ισορροπία μεταξύ ανταμοιβής και τιμωρίας. Ακόμα κι αν οι πράκτορες ξεκινήσουν άσχημα υπάρχει περιθώριο να εδραιωθεί συνεργασία μεταξύ τους. Μην είσαι εξυπνάκιας: η TIT-for-TAT ήταν η απλούστερη στρατηγική από όλες όσες υποβλήθηκαν, μερικές από τις οποίες έκαναν χρήση προηγμένων τεχνικών για να αποφασίσουν τι να κάνουν. Οι τελευταίες είτε προσπαθούσαν να φτιάξουν μοντέλο της συμπεριφοράς του αντιπάλου αγνοώντας ότι κι εκείνος το ίδιο κάνει, είτε ήταν τόσο πολύπλοκες, που στον αντίπαλο εμφανίζονταν ως RANDOM.

Άλλες συμμετρικές 2x2 αλληλεπιδράσεις

The stag hunt Ένα ακόμα παράδειγμα κοινωνικού διλήμματος. Προέκυψε από τον Rousseau (1775 Discourse on Inequality). Η σύγχρονη εκδοχή του οφείλεται στον Poundstone (1992): Εσύ κι ένας φίλος σου αποφασίζετε ότι θα ήταν καλό αστείο να εμφανιζόσασταν την τελευταία μέρα της σχολικής χρονιάς με ένα γελοίο κούρεμα. Οι συμμαθητές σας σας προτρέπουν και τελικά ορκίζεστε ότι θα κάνετε το γελοίο κούρεμα. Μια νύχτα αναποφασιστικότητας ακολουθεί. Καθώς σκέφτεσαι τις αντιδράσεις των γονιών και των δασκάλων σου αρχίζεις να αναρωτιέσαι αν ο φίλος σου πραγματικά θα τηρήσει τη συμφωνία. Φυσικά και θέλεις να πετύχει η συμφωνία σας: το καλύτερο αποτέλεσμα θα ήταν και οι δύο να κάνετε το γελοίο κούρεμα. Αλλά...θα ήταν απαίσια να εμφανιστείς μόνο εσύ με το γελοίο κούρεμα, αυτό θα ήταν ό,τι χειρότερο. Τώρα, δεν θα σε πείραζε να φέρεις το φίλο σου σε δύσκολη θέση. Αν εσύ δεν έκανες το κούρεμα, αλλά ο φίλος σου το έκανε, τότε αυτός θα φαινόταν πραγματικά γελοίος και αυτό θα ήταν σχεδόν τόσο καλό όσο αν κάνατε και οι δύο το γελοίο κούρεμα.

Πίνακας κέρδους για το stag hunt

The game of chicken

Πίνακας κέρδους για το game of chicken