Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Παίγνια με Πλήρη Πληροφόρηση

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Παίγνια με Πλήρη Πληροφόρηση"— Μεταγράφημα παρουσίασης:

1 Παίγνια με Πλήρη Πληροφόρηση
Ιωάννα Καντζάβελου

2 Περίγραμμα Παίγνια Στρατηγικής (Strategic Games)
Παράδειγμα: Το δίλημμα του φυλακισμένου (The Prisoner’s Dilemma) Παράδειγμα: Bach ή Stravinsky? (BoS) Παράδειγμα: Ταίριασμα νομίσματος (Matching Pennies) Παράδειγμα: Stag Hunt Ισορροπία Nash (Nash Equilibrium - NE) Παραδείγματα Ισορροπίας Nash

3 Παίγνια Στρατηγικής (Strategic Games)

4 Παίγνια Στρατηγικής Ένα παίγνιο στρατηγικής (strategic game) είναι ένα μοντέλο των αλληλεπιδράσεων αυτών που παίρνουν αποφάσεις. Τους αποκαλούμε παίκτες (players) αναγνωρίζοντας την αλληλεπίδρασή τους. Το μοντέλο συλλαμβάνει την αλληλεπίδραση μεταξύ των παικτών, επιτρέποντας σε κάθε παίκτη όχι μόνο να επηρεαστεί από την ενέργεια του αλλά και από τις ενέργειες των άλλων. Κάθε παίκτης έχει προτιμήσεις (preferences) για το προφίλ των ενεργειών, δηλαδή, για τη λίστα με όλων των παικτών τις ενέργειες.

5 Τι είναι ένα παίγνιο στρατηγικής;
Ένα παίγνιο στρατηγικής (strategic game) αποτελείται από : ένα σύνολο παικτών για κάθε παίκτη, από ένα σύνολο ενεργειών για κάθε παίκτη, από προτιμήσεις πάνω στο σύνολο των προφίλ των ενεργειών.

6 Εφαρμογές Πάρα πολλές καταστάσεις μπορούν να μοντελοποιηθούν με ένα παίγνιο στρατηγικής, όπως Οι παίκτες να είναι επιχειρήσεις, οι ενέργειες να είναι τιμές, και οι προτιμήσεις να αντανακλούν τα κέρδη των επιχειρήσεων, ή οι παίκτες να είναι υποψήφιοι για πολιτικό γραφείο, οι ενέργειες δαπάνες εκστρατείας, και οι προτιμήσεις να αντανακλούν τις πιθανότητες των υποψηφίων να κερδίσουν, ή οι παίκτες μπορεί να είναι ζώα που μάχονται για μια λεία, οι ενέργειες χρόνοι παραχώρησης, και οι προτιμήσεις αντανακλούν το αν ένα ζώο νικά ή χάνει.

7 Προτιμήσεις (1/2) Συχνά είναι βολικό να καθορίζονται οι προτιμήσεις μέσα από συναρτήσεις απόδοσης (payoff functions) που τις αναπαριστούν. Παράδειγμα: Θεωρείστε ότι ένας παίκτης προτιμά το προφίλ ενεργειών a από το προφίλ b και προτιμά το b από το c. Είναι c ≺ b ≺ a, οπότε μπορούμε να προσδιορίσουμε τις προτιμήσεις (ποσοτικοποιήσουμε, αριθμοποιήσουμε) εκχωρώντας τις αποδόσεις (payoffs) 3 στο a, 2 στο b, και 1 στο c.

8 Προτιμήσεις (2/2) Οι προσδιορισμοί αυτοί είναι εξίσου καλοί.
Δηλαδή, ο τελευταίος δεν υπονοεί ότι η προτίμηση του παίκτη μεταξύ a και b είναι ισχυρότερη από αυτή μεταξύ b και c. Σημασία έχει ότι ένα παίγνιο στρατηγικής με προτιμήσεις σε αριθμούς καθορίζεται από τις προτιμήσεις των παικτών του και όχι από τις αποδόσεις που αναπαριστούν αυτές τις προτιμήσεις.

9 Χρόνος; (1/2) Ο χρόνος απουσιάζει.
Η ιδέα είναι ότι κάθε παίκτης επιλέγει την ενέργειά του μία για πάντα, και οι παίκτες επιλέγουν τις ενέργειές τους “ταυτόχρονα” με την έννοια ότι κανένας παίκτης δεν είναι ενημερωμένος όταν επιλέγει την ενέργειά του, για την ενέργεια που έχει επιλεγεί από οποιονδήποτε άλλον παίκτη. Γι’αυτό μερικές φορές αναφερόμαστε στα παίγνια στρατηγικής ως “παίγνια ταυτόχρονης κίνησης”. Παρόλαυτά, μία ενέργεια μπορεί να εμπλέκει δραστηριότητες που επεκτείνονται μέσα στο χρόνο, και μπορεί να λαμβάνει υπόψη έναν απεριόριστο αριθμό απρόβλεπτων καταστάσεων.

10 Χρόνος; (2/2) Παράδειγμα:
Μία ενέργεια μπορεί να ορίσει το εξής “Αν η μετοχή της εταιρείας Χ πέσει κάτω από το όριο των 10 ευρώ, αγόρασε 100 μερίδια, διαφορετικά μην αγοράσεις καμία μετοχή”. Γι’αυτό μερικές φορές οι ενέργειες λέγονται στρατηγικές. Ωστόσω, το γεγονός ότι ο χρόνος απουσιάζει από το μοντέλο σημαίνει ότι όταν αναλύουμε μία κατάσταση ως παίγνιο στρατηγικής, εφαρμόζουμε αφαίρεση από τις επιπλοκές που μπορεί να προκύψουν αν ένας παίκτης επιτρέπεται να αλλάξει το πλάνο του ενώ τα γεγονότα εξελίσσονται. Θεωρούμε ότι οι ενέργειες επιλέγονται μία για πάντα.

11 Παράδειγμα: Το δίλημμα του φυλακισμένου (The Prisoner’s Dilemma)
Το όνομά του προέρχεται από μία ιστορία με ύποπτους για ένα έγκλημα. Η σπουδαιότητά του πηγάζει από την τεράστια ποικιλία περιπτώσεων και καταστάσεων στην οποία οι όποιοι συμμετέχοντες σε παίγνια στρατηγικής αντιμετωπίζουν κίνητρα, παρόμοια με αυτά που αντιμετώπισαν οι ύποπτοι στην ιστορία αυτή.

12 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (1/9)
Δύο ύποπτοι ενός τρομερού εγκλήματος συλλαμβάνονται και κρατούνται σε ξεχωριστά κελιά. Υπάρχουν αρκετές αποδείξεις για να καταδικαστεί καθένας από αυτούς για ένα μικρό αδίκημα. Αλλά δεν υπάρχουν αρκετές αποδείξεις για να καταδικαστεί κανένας από αυτούς για το τρομερό αδίκημα, εκτός και αν ένας από αυτούς ενεργήσει ως πληροφοριοδότης εναντίον του άλλου (finks).

13 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (2/9)
Εάν και οι δύο μείνουν σιωπηλοί, ο καθένας θα καταδικαστεί για το μικρό αδίκημα και θα περάσει 1 χρόνο στη φυλακή. Εάν ένας και μόνο ένας από αυτούς καταδώσει, θα απελευθερωθεί και θα χρησιμοποιηθεί ως μάρτυρας εναντίον του άλλου, ο οποίος θα περάσει 4 χρόνια στη φυλακή. Αν και οι δύο καταδώσουν ο καθένας τον άλλο, ο καθένας θα περάσει 3 χρόνια στη φυλακή.

14 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (3/9)
Η περίπτωση αυτή μπορεί να μοντελοποιηθεί ως παίγνιο στρατηγικής: Παίκτες Οι δύο ύποπτοι Ενέργειες Το σύνολο των ενεργειών κάθε παίκτη είναι {Σιωπηλός, Καταδότης} ({Quiet, Fink}). Προτιμήσεις για τον ύποπτο 1 και για τον ύποπτο 2.

15 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (4/9)
Προτιμήσεις για τον ύποπτο 1. Του ύποπτου 1 η σειρά με την οποία προτιμά τα προφίλ ενεργειών, από το καλύτερο προς το χειρότερο, είναι: {Καταδότης, Σιωπηλός} (τον καταδίδει και ο ύποπτος 2 παραμένει σιωπηλός, οπότε ο ύποπτος 1 απελευθερώνεται). {Σιωπηλός, Σιωπηλός} (φυλακίζεται για 1 χρόνο) {Καταδότης, Καταδότης} (φυλακίζεται για 3 χρόνια) {Σιωπηλός, Καταδότης} (φυλακίζεται για 4 χρόνια) {Σιωπηλός, Καταδότης} ≺ {Καταδότης, Καταδότης} ≺ {Σιωπηλός, Σιωπηλός} ≺ {Καταδότης, Σιωπηλός}

16 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (5/9)
Προτιμήσεις για τον ύποπτο 2. Του ύποπτου 2 η σειρά με την οποία προτιμά τα προφίλ ενεργειών, από το καλύτερο προς το χειρότερο, είναι: {Σιωπηλός, Καταδότης} (τον καταδίδει και ο ύποπτος 1 παραμένει σιωπηλός, οπότε ο ύποπτος 2 απελευθερώνεται) {Σιωπηλός, Σιωπηλός} (φυλακίζεται για 1 χρόνο) {Καταδότης, Καταδότης} (φυλακίζεται για 3 χρόνια) {Καταδότης, Σιωπηλός} (φυλακίζεται για 4 χρόνια). {Καταδότης, Σιωπηλός} ≺ {Καταδότης, Καταδότης} ≺ {Σιωπηλός, Σιωπηλός} ≺ {Σιωπηλός, Καταδότης}

17 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (6/9)
Μπορούμε τώρα να αναπαραστήσουμε το παίγνιο σε ένα πίνακα. Πρώτα επιλέγουμε τις συναρτήσεις απόδοσης (payoff functions) που αναπαριστούν τη διάταξη των προτιμήσεων των υπόπτων. Payoff function u1 για τον ύποπτο 1 για τον οποίο ισχύει u1 (Καταδότης, Σιωπηλός) > u1 (Σιωπηλός, Σιωπηλός) > u1 (Καταδότης, Καταδότης) > u1 (Σιωπηλός, Καταδότης). Ένας απλός καθορισμός είναι: u1 (Καταδότης, Σιωπηλός) = 3 u1 (Σιωπηλός, Σιωπηλός) = 2 u1 (Καταδότης, Καταδότης) = 1 u1 (Σιωπηλός, Καταδότης) = 0

18 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (7/9)
Payoff function u2 για τον ύποπτο 2 για τον οποίο ισχύει u2 (Σιωπηλός, Καταδότης) > u2 (Σιωπηλός, Σιωπηλός) > u2 (Καταδότης, Καταδότης) > u2 (Καταδότης, Σιωπηλός). Ένας απλός καθορισμός είναι: u2 (Σιωπηλός, Καταδότης) = 3 u2 (Σιωπηλός, Σιωπηλός) = 2 u2 (Καταδότης, Καταδότης) = 1 u2 (Καταδότης, Σιωπηλός) = 0

19 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (8/9)
Οι δύο γραμμές αντιστοιχούν στις δυο πιθανές ενέργειες του παίκτη 1. Οι δύο στήλες αντιστοιχούν στις δύο πιθανές ενέργειες του παίκτη 2. Οι αριθμοί σε κάθε κελί είναι οι αποδόσεις των παικτών στο προφίλ ενεργειών στο οποίο αντιστοιχεί το κελί, με του παίκτη 1 να αναγράφεται πρώτα. Ύ π ο τ ς 1 Ύποπτος 2 Σιωπηλός Καταδότης 2,2 0,3 3,0 1,1

20 Το δίλημμα του φυλακισμένου ως παίγνιο στρατηγικής (9/9)
Το δίλημμα του φυλακισμένου μοντελοποιεί μια κατάσταση στην οποία υπάρχουν κέρδη από συνεργασία. Κάθε παίκτης προτιμά και οι δύο παίκτες να επιλέξουν σιωπή από ότι και οι δύο να επιλέξουν να γίνουν καταδότες, αλλά κάθε παίκτης έχει κίνητρο την "ελευθερία" (να επιλέξει να γίνει καταδότης). Το παίγνιο είναι σημαντικό, όχι επειδή μας ενδιαφέρει να κατανοήσουμε τα κίνητρα των φυλακισμένων να ομολογήσουν, αλλά επειδή πολλές άλλες καταστάσεις έχουν παρόμοιες δομές. Οποτεδήποτε καθένας από δύο παίκτες έχει δύο ενέργειες, π.χ. C (που αντιστοιχεί στο Σιωπηλός) και D (που αντιστοιχεί στο Καταδότης), ο παίκτης 1 προτιμά (D, C) από (C, C) από (D,D) από (C,D), και ο παίκτης 2 προτιμά (C, D) από (C, C) από (D, D) από (D, C), το δίλημμα των φυλακισμένων μοντελοποιεί την κατάσταση που αντιμετωπίζουν οι παίκτες.

21 Εργαζόμενοι σε ένα κοινό έργο (1/4)
Εργάζεστε με έναν φίλο σε ένα κοινό έργο. Καθένας από εσάς μπορεί είτε να δουλέψει σκληρά είτε να ξεφύγει. Εάν ο φίλος σας εργάζεται σκληρά, τότε προτιμάτε να αποφύγετε να δουλέψετε (το αποτέλεσμα του έργου θα ήταν καλύτερο εάν εργαζόσασταν σκληρά, αλλά η διαφορά στην απόδοση για εσάς δεν αξίζει την πρόσθετη προσπάθεια).

22 Εργαζόμενοι σε ένα κοινό έργο (2/4)
Προτιμάτε την έκβαση του να εργάζεστε σκληρά και οι δύο παρά να αποφύγετε να δουλέψετε και οι δύο (οπότε δεν γίνεται τίποτα άλλο) Το χειρότερο αποτέλεσμα για εσάς είναι όταν εργάζεστε σκληρά και ο φίλος σας αποφεύγει να δουλέψει (μισείτε να σας “εκμεταλλεύονται"). Αν ο φίλος σας έχει τις ίδιες προτιμήσεις τότε το παιχνίδι που διαμορφώνει την κατάσταση που αντιμετωπίζετε δίνεται στον επόμενο πίνακα, το οποίο, διαφέρει από το δίλημμα του φυλακισμένου μόνο στα ονόματα των ενεργειών.

23 Εργαζόμενοι σε ένα κοινό έργο (3/4)
I II Εργάζομαι σκληρά Αποφεύγω να εργαστώ 2,2 0,3 3,0 1,1

24 Εργαζόμενοι σε ένα κοινό έργο (4/4)
Αυτό δε σημαίνει ότι μια κατάσταση στην οποία δύο άνθρωποι ακολουθούν ένα κοινό σχέδιο έχει αναγκαστικά τη δομή του δίλημμα του φυλακισμένου. Σημαίνει όμως ότι οι προτιμήσεις των παικτών σε μια τέτοια κατάσταση μπορεί να είναι ίδιες με αυτές του διλήμματος του φυλακισμένου! Εάν, για παράδειγμα, κάθε άτομο προτιμά να δουλεύει σκληρά από το να αποφεύγει να δουλέψει όταν ο άλλος εργάζεται σκληρά, τότε το δίλημμα του φυλακισμένου δεν μοντελοποιεί την κατάσταση: οι προτιμήσεις των παικτών είναι διαφορετικές από εκείνες που δίνονται στο παίγνιο.

25 Άσκηση 1 Εργαζόμενοι σε ένα κοινό έργο (εναλλακτική έκδοση).
Δημιουργήστε ένα παίγνιο στρατηγικής. Το παίγνιο να μοντελοποιεί μια κατάσταση στην οποία δύο άτομα εργάζονται σε ένα κοινό έργο. Στην περίπτωση αυτή οι προτιμήσεις τους είναι οι ίδιες με αυτές του προηγούμενου παίγνιου, εκτός από το ότι κάθε άτομο προτιμά να δουλεύει σκληρά από το να αποφεύγει να δουλέψει όταν το άλλο άτομο εργάζεται σκληρά. Παρουσιάστε το παίγνιό σας σε ένα πίνακα.

26 Εργαζόμενοι σε ένα κοινό έργο (Άσκηση 1)
Εργάζομαι σκληρά - Σ Αποφεύγω να εργασθώ - Α Προτιμήσεις Εργαζόμενου Ι {Σ, Α} ≺ {Α, Α} ≺ {Α, Σ} ≺ {Σ, Σ} Προτιμήσεις Εργαζόμενου ΙΙ {Α, Σ} ≺ {Α, Α} ≺ {Σ, Α} ≺ {Σ, Σ} I II Εργάζομαι σκληρά Αποφεύγω να εργαστώ 2,2 0,3 3,0 1,1

27 Δυοπώλιο (1/3) Σε ένα απλό μοντέλο δυοπωλίου, δύο επιχειρήσεις παράγουν το ίδιο αγαθό, για το οποίο κάθε επιχείρηση χρεώνει είτε χαμηλή τιμή είτε υψηλή τιμή. Κάθε επιχείρηση θέλει να επιτύχει το υψηλότερο δυνατό κέρδος. Αν και οι δύο εταιρείες επιλέξουν Υψηλή τότε καθεμιά κερδίζει $1000. Εάν μια επιχείρηση επιλέξει Υψηλή και η άλλη επιλέξει Χαμηλή τότε η επιχείρηση που επιλέγει Υψηλή δεν αποκτά πελάτες και έχει απώλειες $200, ενώ η εταιρεία που επιλέγει Χαμηλή κερδίζει $1200 (το μοναδιαίο κέρδος της είναι χαμηλό, αλλά ο όγκος της είναι υψηλός). Εάν και οι δύο εταιρείες επιλέξουν Χαμηλή, τότε η καθεμία κερδίζει $600. Κάθε επιχείρηση ενδιαφέρεται μόνο για το κέρδος της, έτσι μπορούμε να αναπαραστήσουμε τις προτιμήσεις της με το κέρδος που αποκτά, δίνοντας το παίγνιο που παρουσιάζεται στον επόμενο πίνακα.

28 Δυοπώλιο (2/3) I II Υψηλή Χαμηλή 1000,1000 -200,1200 1200,-200 600,600

29 Δυοπώλιο (3/3) Έχοντας κατά νου ότι αυτό που παρουσιάζει ενδιαφέρον είναι οι προτιμήσεις των παικτών, και όχι οι ιδιαίτερες συναρτήσεις απόδοσης που χρησιμοποιούμε για να τις αναπαραστήσουμε, παρατηρούμε ότι αυτό το παίγνιο, όπως και το προηγούμενο, διαφέρει από το δίλημμα του φυλακισμένου μόνο στα ονόματα των ενεργειών. Η ενέργεια Υψηλή παίζει το ρόλο της ενέργειας Σιωπηλός, και η ενέργεια Χαμηλή παίζει τον ρόλο της ενέργειας Καταδότης. Η επιχείρηση 1 προτιμά (Χαμηλή, Υψηλή) από (Υψηλή, Υψηλή) από (Χαμηλή, Χαμηλή) από (Υψηλή, Χαμηλή). Η επιχείρηση 2 προτιμά (Υψηλή, Χαμηλή) από (Υψηλή, Υψηλή) από (Χαμηλή, Χαμηλή) από (Χαμηλή, Υψηλή).

30 Άσκηση 2 (1/4) Παίγνια ισοδύναμα προς το δίλημμα του φυλακισμένου.
Παίγνια ισοδύναμα προς το δίλημμα του φυλακισμένου. Καθορίστε αν καθένα από τα παίγνια που παρουσιάζονται στους πίνακες που ακολουθούν διαφέρουν από το δίλημμα του φυλακισμένου μόνο στα ονόματα των ενεργειών των παικτών ή αν διαφέρουν επίσης σε μία ή και στις δύο προτιμήσεις των παικτών.

31 Άσκηση 2 (2/4) I I II II X Y 3,3 1,5 5,1 0,0 X Y 2,1 0,5 3,-2 1,-1

32 Άσκηση 2 (3/4) Το αριστερό παίγνιο διαφέρει από το Δίλημμα του Φυλακισμένου και στων δύο παικτών τις προτιμήσεις. Για τον παίκτη Ι οι προτιμήσεις είναι: (Y, X) ≺ (X, X) ≺ (X, Y) ≺ (Y, Y), οι οποίες διαφέρουν από τις αντίστοιχες του Ύποπτου Ι στο Δίλημμα του Φυλακισμένου, που είναι: (Κ, Σ) ≺ (Σ, Σ) ≺ (Κ, Κ) ≺ (Σ, Κ), αν θέσουμε X = Κ ή X = Σ. Το δεξί παίγνιο είναι ισοδύναμο με το Δίλημμα του Φυλακισμένου. Αν θέσουμε X = Σ και Y = Κ τότε: (Κ, Σ) ≺ (Σ, Σ) ≺ (Κ, Κ) ≺ (Σ, Κ), και Για τον παίκτη ΙΙ οι προτιμήσεις είναι: (Σ, Κ) ≺ (Σ, Σ) ≺ (Κ, Κ) ≺ (Κ, Σ), ίδιες με τις αντίστοιχες στο Δίλημμα του Φυλακισμένου.

33 Άσκηση 2 (4/4) Όπως και στο προηγούμενο παράδειγμα, δεν παρατηρείται ότι τα κίνητρα σε ένα δυοπώλιο είναι απαραιτήτως εκείνα που συναντάμε στο δίλημμα του φυλακισμένου. Διαφορετικές υποθέσεις αναφορικά με τα σχετικά μεγέθη των κερδών στις τέσσερις περιπτώσεις δημιουργούν ένα διαφορετικό παιχνίδι. Επιπλέον, στην περίπτωση αυτή μία από τις αφαιρέσεις που ενσωματώνονται στο μοντέλο - δηλαδή ότι κάθε επιχείρηση έχει μόνο δύο τιμές για να επιλέξει ανάμεσά τους - μπορεί και να μην είναι αβλαβής. Εάν οι επιχειρήσεις μπορούν να επιλέξουν μεταξύ πολλών τιμών, τότε η δομή της αλληλεπίδρασης μπορεί να αλλάξει.

34 Ο Αγώνας των Εξοπλισμών (1/3)
Σύμφωνα με ορισμένες υποθέσεις σχετικά με τις προτιμήσεις των χωρών, ένας αγώνας εξοπλισμών μπορεί να διαμορφωθεί ως το δίλημμα του φυλακισμένου. Επειδή το δίλημμα του φυλακισμένου αρχικά είχε μελετηθεί στις αρχές της δεκαετίας του 1950, όταν οι ΗΠΑ και η τότε ΕΣΣΔ συμμετείχαν σε έναν αγώνα πυρηνικών εξοπλισμών, υπάρχει η υποψία ότι η αμερικανική στρατηγική για τα πυρηνικά επηρεάστηκε από τη θεωρία των παιγνίων. Τα στοιχεία δείχνουν ότι δεν ήταν έτσι !!!

35 Ο Αγώνας των Εξοπλισμών (2/3)
Ας υποθέσουμε ότι κάθε χώρα μπορεί να χτίσει ένα οπλοστάσιο από πυρηνικές βόμβες, ή μπορεί να αποφύγει να το πράξει. Υποθέστε επίσης ότι το αγαπημένο αποτέλεσμα κάθε χώρας είναι ότι έχει βόμβες και ότι η άλλη χώρα δεν έχει. Το επόμενο βέλτιστο αποτέλεσμα είναι ότι καμία χώρα δεν έχει βόμβες. Το επόμενο βέλτιστο αποτέλεσμα είναι ότι και οι δύο χώρες έχουν βόμβες (αυτό που έχει σημασία είναι η σχετική δύναμη και ότι οι βόμβες είναι δαπανηρές για την κατασκευή τους). Το χειρότερο αποτέλεσμα είναι ότι μόνο η άλλη χώρα έχει βόμβες.

36 Ο Αγώνας των Εξοπλισμών (3/3)
Σε αυτή την περίπτωση η κατάσταση μοντελοποιείται από το δίλημμα του φυλακισμένου. Η ενέργεια μην κατασκευάζετε βόμβες αντιστοιχεί στην ενέργεια Σιωπηλός και η ενέργεια κατασκευάστε βόμβες αντιστοιχεί στην ενέργεια Καταδότης. Ωστόσο, για άλλη μια φορά οι υποθέσεις σχετικά με τις προτιμήσεις που είναι απαραίτητες για το δίλημμα του φυλακισμένου για να μοντελοποιήσουν την κατάσταση ενδέχεται να μην ικανοποιηθούν: μια χώρα μπορεί να προτιμά να μην κατασκευάζει βόμβες εάν η άλλη χώρα δεν κατασκευάζει, για παράδειγμα (π.χ. η κατασκευή βόμβας μπορεί να είναι πολύ δαπανηρή) , οπότε η κατάσταση μοντελοποιείται από διαφορετικό παιχνίδι.

37 Κοινή περιουσία (1/2) Δύο αγρότες αποφασίζουν πόσο να επιτρέψουν στα πρόβατά τους να βόσκουν στο κοινόχρηστο μέρος του χωριού. Κάθε αγρότης προτιμά τα πρόβατά του να βόσκουν πάρα πολύ παρά λίγο, ανεξάρτητα από την ενέργεια του άλλου αγρότη. Αλλά κάθε αγρότης προτιμά να βάζει βοσκή στα πρόβατα παρά πολύ (στην περίπτωση αυτή η κοινή εκμετάλλευση καταστρέφεται για μελλοντική χρήση). Κάτω από αυτές τις υποθέσεις το παίγνιο είναι το δίλημμα του φυλακισμένου, όπως μοντελοποιείται στη συνέχεια.

38 Κοινή περιουσία (2/2) Βόσκουν πάρα πολύ - Π Βόσκουν λίγο - Λ
Προτιμήσεις Αγρότη Ι {Λ, Π} ≺ {Λ, Λ} ≺ {Π, Π} ≺ {Π, Λ} Προτιμήσεις Αγρότη ΙΙ {Π, Λ} ≺ {Λ, Λ} ≺ {Π, Π} ≺ {Λ, Π} I II Βόσκουν πάρα πολύ Βόσκουν λίγο 2,2 0,3 3,0 1,1

39 Άσκηση 3 (1/3) Το ερμαφρόδιτο ψάρι.
Ψάρια, που ανήκουν σε ορισμένα ερμαφρόδιτα είδη, επιλέγουν σε κάθε συνάντηση ζευγαρώματος, αν πρέπει να παίξουν το ρόλο ενός αρσενικού ή ενός θηλυκού. Κάθε ψάρι έχει έναν προτιμώμενο ρόλο, ο οποίος χρησιμοποιεί λιγότερους πόρους και ως εκ τούτου επιτρέπει περισσότερα ζευγαρώματα στο μέλλον. Ένα ψάρι παίρνει μια απόδοση (payoff) Η εάν ζευγαρώσει σύμφωνα με το ρόλο που έχει προτιμήσει και L εάν ζευγαρώσει με τον άλλο ρόλο, όπου H> ​​L. (Οι αποδόσεις μετριούνται υπό την έννοια του αριθμού των απογόνων, τους οποίους τα ψάρια εξελίχθηκαν για να μεγιστοποιούν)

40 Άσκηση 3 (2/3) Θεωρείστε τη συνάντηση μεταξύ δύο ψαριών των οποίων οι προτιμώμενοι ρόλοι είναι οι ίδιοι. Κάθε ψάρι έχει δύο πιθανές ενέργειες: να συμπράξει σε οποιοδήποτε ρόλο ή να επιμείνει στον προτιμώμενο ρόλο του.

41 Άσκηση 3 (3/3) Αν και τα δύο ψάρια προσφέρονται να εμπλακούν σε οποιοδήποτε ρόλο, οι ρόλοι εκχωρούνται τυχαία και η απόδοση (payoff) για κάθε ψάρι είναι 1/2 * (H + L) (ο μέσος όρος των H και L). Αν κάθε ψάρι επιμείνει στον προτιμώμενο ρόλο του, τα ψάρια δεν ζευγαρώνουν. Το καθένα πηγαίνει προς αναζήτηση άλλου εταίρου και παίρνει την απόδοση S. Όσο μεγαλύτερη είναι η πιθανότητα να συναντηθεί με άλλο εταίρο, τόσο μεγαλύτερο είναι το S. Μοντελοποιείστε αυτή την κατάσταση ως παίγνιο στρατηγικής και προσδιορίστε το εύρος των τιμών του S για οποιεσδήποτε δεδομένες τιμές H και L, για τις οποίες το παίγνιο αυτό διαφέρει από το δίλημμα του φυλακισμένου μόνο στα ονόματα των ενεργειών.

42 Το παίγνιο BoS (1/3) Περιγραφή: Δύο φίλοι επιθυμούν να βγουν έξω μαζί για να πάνε σε ένα κονσέρτο ή Bach ή Stravinsky. Αυτό που τους απασχολεί περισσότερο είναι να βγουν έξω μαζί, αλλά ο ένας προτιμάει Bach και ο άλλος Stravinsky. Όπως το Δίλημμα του Φυλακισμένου έτσι και το BoS μοντελοποιεί μία μεγάλη ποικιλία καταστάσεων. I II Bach Stravinsky 2,1 0,0 1,2

43 Το παίγνιο BoS (2/3) Παράδειγμα 1
Δύο αξιωματούχοι ενός πολιτικού κόμματος αποφασίζουν τι θέση να πάρουν απέναντι σε ένα ζήτημα. Ας υποθέσουμε ότι διαφωνούν για την καλύτερη θέση, αλλά είναι και οι δύο καλύτερα εάν πάρουν την ίδια θέση απ 'ότι αν πάρουν διαφορετικές θέσεις. Οι περιπτώσεις στις οποίες παίρνουν διαφορετικές θέσεις, οπότε οι ψηφοφόροι δεν ξέρουν τι να σκεφτούν και μπερδεύονται, είναι εξίσου κακές. Το παίγνιο BoS μοντελοποιεί τις καταστάσεις που αντιμετωπίζονται σε αυτή την περίπτωση.

44 Το παίγνιο BoS (3/3) Παράδειγμα 2
Δύο συγχωνευόμενες επιχειρήσεις που χρησιμοποιούν σήμερα διαφορετικές τεχνολογίες υπολογιστών. Ως δύο τμήματα μιας και μόνης επιχείρησης θα είναι και τα δύο καλύτερα αν χρησιμοποιούν και οι δύο την ίδια τεχνολογία υπολογιστών. Κάθε επιχείρηση προτιμά η κοινή τεχνολογία να είναι αυτή που χρησιμοποιούσε στο παρελθόν. Το παίγνιο BoS μοντελοποιεί τις επιλογές που αντιμετωπίζουν οι επιχειρήσεις.

45 Ισορροπία Nash (Nash Equilibrium - NE)

46 Ισορροπία Nash (Nash equilibrium - NE) (1/14)
Ερώτημα Ποιες ενέργειες θα επιλεγούν από τους παίκτες σε ένα παίγνιο στρατηγικής; Θέλουμε να υποθέσουμε, σύμφωνα με τη θεωρία του λογικού παίκτη που παίρνει αποφάσεις (rational player) ότι κάθε παίκτης επιλέγει την καλύτερη διαθέσιμη ενέργεια. Σε ένα παίγνιο, η καλύτερη ενέργεια για κάθε παίκτη εξαρτάται από τις ενέργειες των άλλων παικτών. Γι’ αυτό, όταν ένας παίκτης επιλέγει μια ενέργεια πρέπει να έχει στο νου του τις ενέργειες που θα επιλέξουν οι άλλοι παίκτες. Αυτό σημαίνει ότι θα πρέπει να σχηματίσει μία πεποίθηση (belief) σχετικά με τις ενέργειες των άλλων παικτών.

47 Ισορροπία Nash (Nash equilibrium - NE) (2/14)
Ερώτηση Σε ποια βάση μπορεί να διαμορφωθεί μια τέτοια πεποίθηση; Η υπόθεση στην οποία βασίζουμε την ανάλυση που κάνουμε στα παίγνια είναι ότι η πεποίθηση κάθε παίκτη προέρχεται από την προηγούμενη εμπειρία του παίζοντας το παιχνίδι, και ότι αυτή η εμπειρία είναι αρκετά εκτεταμένη ώστε να γνωρίζει ο παίκτης πώς θα συμπεριφέρονται οι αντίπαλοί του. Κανείς δεν του λέει τις ενέργειες που θα επιλέξουν οι αντίπαλοί του, αλλά η προηγούμενη συμμετοχή του στο παιχνίδι τον οδηγεί να είναι σίγουρος για αυτές τις ενέργειες.

48 Ισορροπία Nash (Nash equilibrium - NE) (3/14)
Παρότι υποθέτουμε ότι κάθε παίκτης έχει εμπειρία παίζοντας το παίγνιο, υποθέτουμε ότι βλέπει κάθε παρτίδα (φορά που παίζεται) του παίγνιου σε απομόνωση. Δεν εξοικειώνεται με τη συμπεριφορά συγκεκριμένων αντιπάλων και κατά συνέπεια δεν εξαρτά τη δράση του από τον αντίπαλο που αντιμετωπίζει. Ούτε αναμένει ότι η τρέχουσα δράση του θα επηρεάσει τη μελλοντική συμπεριφορά των άλλων παικτών.

49 Ισορροπία Nash (Nash equilibrium - NE) (4/14)
Είναι χρήσιμο να σκεφτούμε τις ακόλουθες εξιδανικευμένες περιστάσεις. Για κάθε παίκτη στο παίγνιο υπάρχει ένας πληθυσμός πολλών φορέων λήψης αποφάσεων που μπορεί, σε κάθε περίπτωση, να πάρει τον ρόλο του παίκτη. Σε κάθε παρτίδα του παίγνιου, οι παίκτες επιλέγονται τυχαία, ένας από κάθε πληθυσμό. Έτσι, κάθε παίκτης συμμετέχει επανειλημμένα στο παιχνίδι, ενάντια σε συνεχώς μεταβαλλόμενους αντιπάλους. Η εμπειρία του τoν οδηγεί σε πεποιθήσεις για τις ενέργειες των "τυπικών" αντιπάλων, όχι για συγκεκριμένο σύνολο αντιπάλων.

50 Ισορροπία Nash (Nash equilibrium - NE) (5/14)
Παράδειγμα Σκεφτείτε την αλληλεπίδραση μεταξύ αγοραστών και πωλητών. Οι αγοραστές και οι πωλητές αλληλεπιδρούν επανειλημμένα, αλλά σε μια πρώτη προσέγγιση, πολλά από τα ζεύγη μπορούν να διαμορφωθούν ως τυχαία. Σε πολλές περιπτώσεις ένας αγοραστής πραγματοποιεί μόνο μία φορά συναλλαγή με οποιονδήποτε πωλητή, ή ένας αγοραστής αλληλεπιδρά επανειλημμένα αλλά ανώνυμα (π.χ. όταν ο πωλητής είναι ένα μεγάλο κατάστημα).

51 Ισορροπία Nash (Nash equilibrium - NE) (6/14)
Πρώτον, κάθε παίκτης επιλέγει τη δράση του σύμφωνα με το μοντέλο της ορθολογικής επιλογής, λαμβάνοντας υπόψη τις πεποιθήσεις του για τις ενέργειες των άλλων παικτών. Δεύτερον, η πεποίθηση κάθε παίκτη για τις ενέργειες των άλλων παικτών είναι σωστή. Αυτά τα δύο συστατικά ενσωματώνονται στον ακόλουθο ορισμό.

52 Ισορροπία Nash (Nash equilibrium - NE) (7/14)
Ορισμός Μία ισορροπία Nash (Nash equilibrium - NE) είναι ένα προφίλ ενεργειών a* το οποίο έχει την ιδιότητα ότι κανένας παίκτης i δε μπορεί να πετύχει κάτι καλύτερο (να έχει καλύτερο αποτέλεσμα) επιλέγοντας μία ενέργεια διαφορετική από την ai*, δεδομένου ότι κάθε άλλος παίκτης j προσκολλάται (εμμένει) στην ενέργεια aj*.

53 Ισορροπία Nash (Nash equilibrium - NE) (8/14)
Εάν, κάθε φορά που παίζεται το παιχνίδι, το προφίλ ενεργειών είναι η ίδια ισορροπία Nash a*, τότε κανένας παίκτης δεν έχει λόγο να επιλέξει οποιαδήποτε ενέργεια διαφορετική από την συνιστώσα του a*. Δεν υπάρχει πίεση στο προφίλ ενεργειών για αλλαγή. Εκφραζόμενη διαφορετικά, μια ισορροπία Nash ενσωματώνει ένα σταθερό "κοινωνικό πρότυπο": αν όλοι οι άλλοι την τηρούν, κανένας δεν επιθυμεί να αποκλίνει από αυτή.

54 Ισορροπία Nash (Nash equilibrium - NE) (9/14)
Γι’ αυτόν το λόγο, η κατάσταση αυτή αναφέρεται μερικές φορές ως απαίτηση “οι προσδοκίες των παικτών να είναι συντονισμένες”.

55 Ισορροπία Nash (Nash equilibrium - NE) (10/14)
Για παράδειγμα, σε ορισμένες περιπτώσεις οι παίκτες δεν έχουν μεγάλη εμπειρία με το παιχνίδι. Σε άλλες δε βλέπουν κάθε παρτίδα του παιχνιδιού σε απομόνωση. Το αν η έννοια της ισορροπίας Nash είναι κατάλληλη σε οποιαδήποτε δεδομένη κατάσταση είναι θέμα κρίσης.

56 Ισορροπία Nash (Nash equilibrium - NE) (11/14)
Σε ορισμένες περιπτώσεις, η κακή εφαρμογή με την εξιδανικευμένη κατάσταση μπορεί να μετριαστεί από άλλες παραμέτρους. Για παράδειγμα, οι άπειροι παίκτες μπορεί να καταλήξουν σε συμπεράσματα σχετικά με τις πιθανές ενέργειες των αντιπάλων τους από την εμπειρία τους σε άλλες καταστάσεις ή από άλλες πηγές. Τελικά, ο έλεγχος της καταλληλότητας της έννοιας της ισορροπίας Nash είναι αν μας δίνει πληροφορίες για το πρόβλημα.

57 Ισορροπία Nash (Nash equilibrium - NE) (12/14)
O ορισμός της ισορροπίας Nash με ακρίβεια. Έστω ένα προφίλ ενεργειών, στο οποίο η ενέργεια κάθε παίκτη i είναι ai. Έστω a΄i οποιαδήποτε ενέργεια του παίκτη i (είτε ίση με ai, είτε διαφορετική από αυτή). Στη συνέχεια το ( a΄i , a-i ) δηλώνει το προφίλ ενεργειών στο οποίο κάθε παίκτης j εκτός από τον i επιλέγει τη ενέργειά aj όπως ορίζεται από το a, ενώ ο παίκτης i επιλέγει a΄i. (Ο δείκτης -i στο a συμβολίζει το “ εκτός του i ”.)

58 Ισορροπία Nash (Nash equilibrium - NE) (13/14)
Δηλαδή, το ( a΄i , a-i ) είναι το προφίλ ενεργειών στο οποίο όλοι οι παίκτες, εκτός από τον i, εμμένουν στο a ενώ ο i παρεκκλίνει στο a΄i . Εάν a΄i = ai τότε προφανώς ( a΄i , a-i ) = ( ai , a-i ) = a. Εάν για παράδειγμα υπάρχουν τρεις παίκτες, τότε (a'2, a-2) είναι το προφίλ ενεργειών στο οποίο οι παίκτες 1 και 3 εμμένουν στο a (παίκτης 1 επιλέγει a1, παίκτης 3 επιλέγει a3) ενώ ο παίκτης 2 παρεκκλίνει σε a'2.

59 Ισορροπία Nash (Nash equilibrium - NE) (14/14)
O ορισμός της ισορροπίας Nash για στρατηγικά παίγνια με προτιμήσεις σε διάταξη. Το προφίλ ενεργειών a* σε ένα στρατηγικό παίγνιο με προτιμήσεις σε διάταξη είναι μία ισορροπία Nash αν, για κάθε παίκτη i και κάθε ενέργεια ai του παίκτη i, το a* είναι τουλάχιστον τόσο καλό, σύμφωνα με τις προτιμήσεις του παίκτη, όσο είναι το προφίλ ενεργειών ( ai , a*-i ) στο οποίο ο παίκτης i επιλέγει το ai ενώ κάθε άλλος παίκτης j επιλέγει a*j. Ισοδύναμα, για κάθε παίκτη i, ui ( a* ) ≥ ui ( ai , a*-i ), για κάθε ενέργεια ai του παίκτη i, όπου ui είναι η συνάρτηση απόδοσης που αναπαριστάνει τις προτιμήσεις του παίκτη i.

60 Αυστηρές και μη Αυστηρές Ισορροπίες (1/3)
Σε όλες τις ισορροπίες Nash των παιγνίων που έχουμε μελετήσει μέχρι στιγμής, μια απόκλιση από έναν παίκτη οδηγεί σε ένα χειρότερο αποτέλεσμα για αυτόν τον παίκτη από το αποτέλεσμα ισορροπίας. Ωστόσο, ο ορισμός της ισορροπίας Nash απαιτεί μόνο το αποτέλεσμα μιας απόκλισης να μην είναι καλύτερο για το αποκλίνον από το αποτέλεσμα ισορροπίας. Και, πράγματι, μερικά παιχνίδια έχουν ισορροπία στην οποία ένας παίκτης είναι αδιάφορος μεταξύ της ενέργειας ισορροπίας και κάποιας άλλης ενέργειας, λαμβάνοντας υπόψη τις ενέργειες των άλλων παικτών.

61 Αυστηρές και μη Αυστηρές Ισορροπίες (2/3)
Θεωρείστε το παίγνιο που παρουσιάζεται δίπλα. Έχει μια μοναδική ισορροπία Nash, το (T, L). (Για οποιοδήποτε άλλο ζευγάρι ενεργειών, ένας από τους παίκτες είναι καλύτερα να αλλάξει την ενέργειά του.) Όταν ο παίκτης 2 επιλέγει L, όπως κάνει σε αυτή την ισορροπία, ο παίκτης 1 είναι εξίσου ευτυχής επιλέγοντας Τ ή Β (η απόδοση του είναι 1 σε κάθε περίπτωση ) Αν αποκλίνει στο Β, τότε δεν έχει χειρότερο αποτέλεσμα από ό,τι αυτό στην ισορροπία. Λέμε ότι η ισορροπία Nash (T, L) δεν είναι μια αυστηρή ισορροπία (strict equilibrium). I II L M R T 1,1 1,0 0,1 B

62 Αυστηρές και μη Αυστηρές Ισορροπίες (3/3)
Για ένα γενικό παίγνιο, μια ισορροπία είναι αυστηρή εάν η ενέργεια ισορροπίας του κάθε παίκτη είναι καλύτερη από όλες τις άλλες ενέργειές του, λαμβάνοντας υπόψη τις ενέργειες των άλλων παικτών. Συγκεκριμένα, ένα προφίλ δράσης a* είναι μια αυστηρή ισορροπία Nash (strict Nash equilibrium) αν για κάθε παίκτη i έχουμε ui ( a* ) > ui ( ai, a*-i ) για όλες τις ενέργειες ai ≠ a*i του παίκτη i. (Συγκρίνετε την αυστηρή ανισότητα στον ορισμό αυτό με την αδύναμη ανισότητα στην ισορροπία Nash).

63 Συναρτήσεις Βέλτιστης Απόκρισης (Best Response Functions)

64 Συναρτήσεις Βέλτιστης Απόκρισης (1/8)
Μπορούμε να βρούμε την ισορροπία Nash ενός παίγνιου στο οποίο κάθε παίκτης έχει μόνο λίγες ενέργειες, εξετάζοντας κάθε προφίλ ενεργειών διαδοχικά για να διαπιστώσουμε εάν ικανοποιεί τις συνθήκες ισορροπίας. Σε πιο περίπλοκα παίγνια όμως, είναι συχνά καλύτερο να δουλέψουμε με τις "Συναρτήσεις Βέλτιστης Απόκρισης" των παικτών.

65 Συναρτήσεις Βέλτιστης Απόκρισης (2/8)
Θεωρείστε έναν παίκτη, έστω τον παίκτη i. Για οποιοδήποτε προφίλ ενεργειών των παικτών εκτός από τον παίκτη i, οι ενέργειες του παίκτη i του αποφέρουν διάφορες αποδόσεις. Μας ενδιαφέρουν οι βέλτιστες ενέργειες, εκείνες που του αποφέρουν την υψηλότερη απόδοση.

66 Συναρτήσεις Βέλτιστης Απόκρισης (3/8)
Παράδειγμα 1: Στο BoS, ο Bach είναι η βέλτιστη ενέργεια για τον παίκτη 1, αν ο παίκτης 2 επιλέξει τον Bach. Το Stravinsky είναι η βέλτιστη ενέργεια για τον παίκτη 1, αν ο παίκτης 2 επιλέξει τον Stravinsky. Ειδικότερα, στο BoS, ο παίκτης 1 έχει μια μοναδική βέλτιστη ενέργεια για κάθε ενέργεια του παίκτη 2.

67 Συναρτήσεις Βέλτιστης Απόκρισης (4/8)
Παράδειγμα 2: Αντίθετα, στο παίγνιο δίπλα, τόσο το Τ όσο και το Β είναι βέλτιστες ενέργειες για τον παίκτη 1 αν ο παίκτης 2 επιλέξει το L, γιατί και για τις δύο η απόδοση είναι 1 και ο παίκτης 1 δεν έχει καμία ενέργεια που να αποδίδει υψηλότερη απόδοση (στην πραγματικότητα, δεν έχει άλλη διαθέσιμη ενέργεια). I II L M R T 1,1 1,0 0,1 B

68 Συναρτήσεις Βέλτιστης Απόκρισης (5/8)
Με το Bi (a-i) δηλώνουμε το σύνολο των βέλτιστων ενεργειών του παίκτη i όταν η λίστα των ενεργειών των άλλων παικτών είναι a-i. Έτσι, στο BoS έχουμε: B1 (Bach) = {Bach} και B1 (Stravinsky) = {Stravinsky}. Στο προηγούμενο παίγνιο έχουμε B1 (L) = {T, B}.

69 Συναρτήσεις Βέλτιστης Απόκρισης (6/8)
Ακριβώς, ορίζουμε τη συνάρτηση Bi ως εξής: Bi ( a−i ) = {ai στο Ai : ui ( ai , a−i ) ≥ ui ( a′i , a−i ) για όλα τα a′i στο Ai } : οποιαδήποτε ενέργεια στο Bi ( a−i ) είναι για τον παίκτη i τουλάχιστον εξίσου καλή με όλες τις υπόλοιπες ενέργειες του παίκτη i όταν οι ενέργειες των άλλων παικτών δίνονται από το a−i. Αποκαλούμε τη συνάρτηση Bi συνάρτηση βέλτιστης απόκρισης του παίκτη i.

70 Συναρτήσεις Βέλτιστης Απόκρισης (7/8)
Η συνάρτηση Bi έχει σύνολα ως τιμές: συσχετίζει ένα σύνολο ενεργειών με οποιαδήποτε λίστα ενεργειών των άλλων παικτών. Κάθε μέλος του συνόλου Bi ( a-i ) είναι μια καλύτερη απόκριση του παίκτη i στο a-i: αν ο καθένας από τους άλλους παίκτες εμμείνει στο a-i τότε ο παίκτης i δεν μπορεί να κάνει τίποτα καλύτερο από το να επιλέξει ένα μέλος του Bi ( a-i ).

71 Συναρτήσεις Βέλτιστης Απόκρισης (8/8)
Σε ορισμένα παίγνια, όπως το BoS, το σύνολο Bi ( a-i ) αποτελείται από μια μόνο ενέργεια για κάθε λίστα a-i με ενέργειες των άλλων παικτών: δεν έχει σημασία τι κάνουν οι άλλοι παίκτες, ο παίκτης i έχει μια μοναδική βέλτιστη ενέργεια. Σε άλλα παιχνίδια, όπως αυτό που περιγράφηκε στην αυστηρή ισορροπία Nash, το Bi ( a-i ) περιέχει περισσότερες από μία ενέργειες για κάποιες λίστες a-i με ενέργειες των άλλων παικτών.

72 Συναρτήσεις Βέλτιστης Απόκρισης για τον ορισμό της Ισορροπίας Nash (1/4)

73 a*i ανήκει στο Bi ( a*-i ) για κάθε παίκτη i.
Συναρτήσεις Βέλτιστης Απόκρισης για τον ορισμό της Ισορροπίας Nash (2/4) Πρόταση: Το προφίλ ενεργειών a* είναι μία ισορροπία Nash ενός στρατηγικού παίγνιου με προτιμήσεις σε διάταξη εάν και μόνο εάν η ενέργεια κάθε παίκτη είναι η βέλτιστη απόκριση στις ενέργειες των άλλων παικτών: a*i ανήκει στο Bi ( a*-i ) για κάθε παίκτη i. Αν κάθε παίκτης i έχει μια μόνο βέλτιστη απόκριση σε κάθε λίστα a-i με ενέργειες των άλλων παικτών, μπορούμε να γράψουμε την παραπάνω συνθήκη ως εξισώσεις.

74 a*i = bi ( a*-i ) για κάθε παίκτη i.
Συναρτήσεις Βέλτιστης Απόκρισης για τον ορισμό της Ισορροπίας Nash (3/4) Σε αυτή την περίπτωση, για κάθε παίκτη i και για κάθε λίστα a-i με ενέργειες των άλλων παικτών, συμβολίζουμε το μοναδικό μέλος του Bi ( a-i ) με το bi ( a-i ), δηλαδή Bi ( a-i ) = {bi ( a-i )}. Έτσι, η προηγούμενη πρόταση ισοδυναμεί με: a*i = bi ( a*-i ) για κάθε παίκτη i. που είναι μία συλλογή n εξισώσεων για τους n αγνώστους a*i , όπου n είναι το πλήθος των παικτών στο παίγνιο.

75 Συναρτήσεις Βέλτιστης Απόκρισης για τον ορισμό της Ισορροπίας Nash (4/4)
Παράδειγμα: Σε ένα παίγνιο με 2 παίκτες, έστω παίκτης 1 και παίκτης 2, οι εξισώσεις αυτές είναι: a*1 = b1 ( a*2 ) a*2 = b2 ( a*1 ) Σε ένα παίγνιο δύο παικτών, όπου κάθε παίκτης έχει μια βέλτιστη απόκριση στην ενέργεια του άλλου παίκτη, το (a*1, a*2) είναι ισορροπία Nash εάν και μόνο αν η ενέργεια a*1 του παίκτη 1 είναι η βέλτιστη απόκριση στην ενέργεια a*2 του παίκτη 2, και η ενέργεια a*2 του παίκτη 2 είναι η βέλτιστη απόκριση στην ενέργεια a*1 του παίκτη 1.

76 Συναρτήσεις Βέλτιστης Απόκρισης για την εύρεση Ισορροπιών Nash (1/3)
Ο ορισμός της ισορροπίας Nash με όρους συναρτήσεων βέλτιστης απόκρισης προτείνει μια μέθοδο για την εύρεση ισορροπιών Nash: Βρείτε την συνάρτηση βέλτιστης απόκρισης για τον κάθε παίκτη Βρείτε τα προφίλ ενεργειών που ικανοποιούν τη σχέση a*i = bi ( a*-i ) για κάθε παίκτη i. (όταν ο κάθε παίκτης έχει μια μόνο βέλτιστη απόκριση σε κάθε λίστα ενεργειών των άλλων παικτών).

77 Συναρτήσεις Βέλτιστης Απόκρισης για την εύρεση Ισορροπιών Nash (2/3)
Παράδειγμα: Καταρχήν βρίσκουμε τη βέλτιστη απόκριση του παίκτη 1 για κάθε ενέργεια του παίκτη 2. Μετά βρίσκουμε τη βέλτιστη απόκριση του παίκτη 2 για κάθε ενέργεια του παίκτη 1. Τέλος, βρίσκουμε τα κελιά στα οποία οι αποδόσεις και των δύο παικτών έχουν αστερίσκο. 1 2 L C R T 1,2 2,1 1,0 M 0,1 0,0 B NE

78 Συναρτήσεις Βέλτιστης Απόκρισης για την εύρεση Ισορροπιών Nash (1/3)
2 L C R T 1,2 2,1 1,0 M 0,1 0,0 B NE

79 Άσκηση 1 Βρείτε τις ισορροπίες Nash στο διπλανό παίγνιο με χρήση συναρτήσεων βέλτιστης απόκρισης. 1 2 L C R T 2,2 1,3 0,1 M 3,1 0,0 B 1,0 NE

80 Άσκηση 2 Δύο άνθρωποι έχουν $10 για να τα μοιράσουν μεταξύ τους.
Χρησιμοποιούν την ακόλουθη διαδικασία: Κάθε άτομο ονομάζει έναν αριθμό δολαρίων (έναν μη αρνητικό ακέραιο αριθμό), το πολύ ίσο με 10. Αν το άθροισμα των ποσών που ονομάτισαν οι δύο άνθρωποι είναι το πολύ ίσο με 10, τότε ο καθένας τους λαμβάνει το χρηματικό ποσό που ονομάτισε (και το υπόλοιπο χάνεται). Εάν το άθροισμα των ποσών που ονομάτισαν υπερβαίνει το 10 και τα ποσά που ονομάτισαν είναι διαφορετικά, τότε αυτός που είπε το μικρότερο ποσό λαμβάνει αυτό το ποσό και ο άλλος λαμβάνει τα υπόλοιπα χρήματα. Εάν το άθροισμα των ποσών που ονομάτισαν υπερβαίνει τα 10 και τα ποσά είναι τα ίδια, τότε ο καθένας τους λαμβάνει από $5. Προσδιορίστε τη βέλτιστη απόκριση κάθε παίκτη για όλες τις ενέργειες του άλλου παίκτη, σχεδιάστε τις σε ένα διάγραμμα και, έτσι, βρείτε τις ισορροπίες Nash του παιχνιδιού.

81 Άσκηση 2: Λύση (1/2) Για κάθε ποσό που ονομάζεται από έναν από τους παίκτες, οι βέλτιστες αποκρίσεις του άλλου παίκτη δίνονται στο διπλανό πίνακα. Οι συναρτήσεις βέλτιστης απόκρισης απεικονίζονται στο επόμενο σχήμα(κύκλοι για τον παίκτη 1, κουκκίδες για τον παίκτη 2). Από αυτό το σχήμα βλέπουμε ότι το παιχνίδι έχει τέσσερις ισορροπίες Nash: (5, 5), (5, 6), (6, 5) και (6, 6). Οι ενέργειες του άλλου παίκτη Σύνολα Βέλτιστων Αποκρίσεων {10} 1 {9,10} 2 {8,9,10} 3 {7,8,9,10} 4 {6,7,8,9,10} 5 {5,6,7,8,9,10} 6 {5,6} 7 {6} 8 {7} 9 {8} 10 {9}

82 Άσκηση 2: Λύση (2/2) Από αυτό το σχήμα βλέπουμε ότι το παιχνίδι έχει τέσσερις ισορροπίες Nash: (5, 5), (5, 6), (6, 5) και (6, 6). NE

83 Άσκηση 3 (1/3) Δύο άτομα έχουν μια σχέση συνεργασίας, ένα κοινό project. Συγκεκριμένα κάθε παίκτης προσφέρει έργο ai Η απόδοση του παίκτη i είναι ai ( c + aj - ai ), όπου c > 0 είναι μια σταθερά και i = 1, 2.

84 Άσκηση 3 (2/3) Κάθε παίκτης έχει ένα άπειρο πλήθος κινήσεων. Επομένως δε μπορούμε να χρησιμοποιήσουμε την αναπαράσταση με πίνακα. Θα χρησιμοποιήσουμε τις συναρτήσεις βέλτιστης απόκρισης. Δεδομένου του aj η βέλτιστη απόκριση του ai ποια είναι;

85 Άσκηση 3 (3/3)

86 Άσκηση 4


Κατέβασμα ppt "Παίγνια με Πλήρη Πληροφόρηση"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google