Prisoner's dilemma/cs

Vězňovo dilema je typ hry s nenulovým součtem, ve které mají oba hráči dvě možnosti – kooperovat (cooperate) nebo zradit (defect). Vězňovo dilema v rámci zařazení v teorii her označujeme, kromě hry s nenulovým součtem, také jako hru s neúplnými informacemi, hru symetrickou, hru nekooperativní a v původním tvaru i jako hru jednokolovou.

Historie
Skupina, jejíž členové usilují pouze o svůj vlastní prospěch a cíle, může mít menší úspěch, než kdyby jedinci nesledovali své vlastní cíle individuálně. Podobné názory s touto strukturou byly vymýšleny a diskutovány matematiky Melvinem Drescherem a Merrillem Floodem, kteří pracovali na výzkumu v oblasti teorie her ve společnosti RAND, někdy kolem roku 1950. “Vězňovo dilema” bylo takto pojmenováno až matematikem A. W. Tuckerem, který chtěl Drescherovy a Floodovy myšlenky více zpřístupnit obecenstvu psychologů. Z tohoto důvodu si Tucker vymyslel krátký příběh, který použil k ilustraci:

Jsou zatčeni dva pachatelé, A a B, za loupežné přepadení banky a umístěni v separátních oddělených celách. Žalobce však nemá dostatečné důkazy k jejich odsouzení z trestného činu, nýbrž pouze z přestupku, za který by dostali dejme tomu jeden rok vězení. Nabídne tedy každému zvlášť dohodu. Navrhne jim dvě možnosti – přiznat se nebo zůstat mlčet. Dohoda zní asi takto: „Pokud se přiznáte, ale váš komplic zůstane mlčet, vztáhnu proti vám všechna obvinění a použiji vaše svědectví k usvědčení vašeho spolupachatele, který tím bude odsouzen na deset let. Podobně však, pokud se přizná váš komplic a vy zůstanete mlčet, on bude volný, zatímco vy půjdete do vězení. V případě, že se přiznáte oba dva a budu mít dvě doznání, přihlédnu k tomu a oba dostanete středně vysoký trest – tři roky. Pokud ovšem oba zůstanete mlčet, budu vás moci odsoudit pouze za nedovolené držení střelné zbraně.“

Dominantní strategie
Máme zde dominantní strategii, kterou je nespolupráce. Dominantní strategie je taková, kdy jeden vězeň maximalizuje svůj užitek (resp. minimalizuje svůj trest) bez ohledu na to, jakou strategii zvolí druhý vězeň. Z tabulky vyplývá, že když bude pachatel 2 mlčet, bude pro pachatele 1 lepší mluvit, jelikož pak bude volný. Pokud bude pachatel 2 mluvit, bude pro pachatele 1 rovněž lepší mluvit, protože pak dostane 3 roky namísto deseti. Stejně bude uvažovat i druhý pachatel a hra dopadne tak, že budou vypovídat oba. Postup pro určení dominantní strategie je: Z toho tedy vyplývá, že pro vězně 1 je dominantní strategií zvolit pravý sloupec.
 * Když vězeň 2 zvolí horní řádek, co udělá vězeň 1? Zvolí pravý sloupec protože dostane menší trest.
 * Když vězeň 2 zvolí spodní řádek, co udělá vězeň 1? Zvolí opět pravý sloupec, protože tak dostane menší trest.

Nashova rovnováha
Nashova rovnováha se určuje podobně jako dominantní strategie, alespoň v prvním kroku. Ve druhém kroku se ale ptáme na to, co se stane, když se situace obrátí.

Postup je tedy následující:
 * Když A zvolí horní řádek, co udělá B? Zvolí levý sloupec protože nabízí vyšší výplatu.
 * Když B zvolí levý sloupec, co udělá A? Zvolí horní řádek protože nabízí vyšší výplatu.
 * Když A zvolí spodní řádek, co udělá B? Zvolí pravý sloupec protože nabízí vyšší výplatu.
 * Když B zvolí pravý sloupec, co udělá A? Zvolí spodní řádek protože nabízí vyšší výplatu.

Tato matice tedy obsahuje dvě Nashovy rovnováhy.

Obecná forma
V nejjednodušší formě je vězňovo dilema znázorněno na výplatní matici 2 × 2 :

splňující podmínku: T > R > P > S. Každé z možných rozhodnutí jednotlivých hráčů znázorňuje příslušná buňka, kde:
 * R značí odměnu, kterou získají oba za spolupráci,
 * P je částka, kterou oba obdrží za zradu,
 * T znázorňuje pokušení a je nejvýhodnější situací za předpokladu, že hráč zradí pouze sám,
 * S je výnos, který jedinec dostane, pokud se pouze on sám snaží spolupracovat.

Předpokládáme, že jednotlivé výnosy T, R, P, S jsou pro oba hráče stejné, a že mají pouze ordinální význam. Nyní můžeme jednoduše vidět, že máme strukturu dilematu stejnou jako v Tuckerově příběhu. Pokud předpokládáme, že osoba ve sloupci bude spolupracovat, potom hráč zastupující řádek může obdržet R za spolupráci nebo T za pokušení podrazit. Vzhledem k podmínce T > R je pro něj výhodnější nespolupracovat. Obdobná je situace i v případě, že “sloupec” nebude spolupracovat. V takovém případě by druhá osoba mohla získat S nebo P. Vezmeme-li opět v potaz část podmínky (P > S), je jasné, že je pro něj znovu výhodnější podrazit. Můžeme tedy říci, že pro subjekt “řádek” je strategie D výhodnější než strategie C. V případě “sloupce” je situace obdobná - bez ohledu na druhého hráče je pro něj výhodnější zradit. Z toho vyplývá, že dva racionálně uvažující hráči se navzájem podvedou a budou mít pouze P, zatímco iracionální jedinci budou nejspíše kooperovat a jejich výnos bude R.

Ve standardním zpracování předpokládá teorie her racionalitu a znalost obecných vědomostí. Každý hráč je chytrý a ví, že i další hráči jsou inteligentní a že ostatní zároveň předpokládají, že on je inteligentní. Ostatní hráči také vědí, jak si druzí cení jednotlivých výsledků. Z toho tedy plyne, že výsledek (D, D) je v této hře jediným výsledkem, kde si každý z hráčů může jednostranným odchýlením od své strategie jen pohoršit.

Tato situace nám ukazuje dilema, které vzniká mezi vězni proto, že se nemohou mezi sebou domluvit na již zmíněných strategiích. Pro každého z nich je nejlepší se přiznat a zároveň udat toho druhého. Jenomže žádný z vězňů neví, jak bude reagovat druhý vězeň. Kdyby se mohli domluvit a hra by se tak stala kooperativní, tak by nejlepšími strategiemi pro oba vězně bylo (zapírat, zapírat), přičemž by oba ve vězení strávili r let. Jedná se však o nekooperativní hru, tudíž se vězni mezi sebou nemohou domluvit a taky si nemohou být jistí solidaritou toho druhého. Vzniká zde tudíž riziko zrady. Oba dva vězni mají strach, že když bude jeden z nich zapírat, tak ten druhý zradí a udá ho. V tomto případě by si vězeň, který se přiznal, odseděl pouze t let, kdežto udaný vězeň by strávil ve vězení daleko více, a to s let. Proto si každý zvolí jistotu tím, že se přizná a bude odsouzen na p let, než aby byl zrazen a strávil tak ve vězení podstatně delší dobu.

Neantagonistické hry
U neantagonistických konfliktů jsou zájmy hráčů pouze zčásti protichůdné. Vzájemnou spoluprací může dojít k navýšení přínosu pro hráče, ale je nutno sledovat, jestli takováto spolupráce je možná a jakou formou se zisk ze spolupráce rozděluje. K popisu neantagonistických konfliktů užíváme aparátu dvojmaticových her. Číslo na levé straně sloupců matice je výhra pro hráče 1, zatímco číslo na pravé straně je výhra pro hráče 2. Obecně se dá konflikt charakterizovat pomocí dvou matic, pro větší přehlednost je rozumné matice zapisovat do jedné tabulky. Jedním z nejznámějších příkladů neantagonistické hry je právě vězňovo dilema. Opakem neantagonistických her jsou hry antagonistické, u kterých zisk jednoho hráče je zároveň ztrátou hráče druhého.

Opakované vězňovo dilema
Jak jsme mohli vidět v obecné formě vězňova dilematu, daná hra se uskuteční pouze jednou a dohoda zde není žádnou závaznou formou spolupráce. Je tedy pro racionálně uvažující jednotlivce navzájem nejvýhodnější použití jejich dominantní strategie – zrady. To už však není tak jednoznačné, pokud by spolu daná dvojice měla spolupracovat opakovaně (v neurčitém časovém horizontu). Zrada už nutně nemusí být v každém kroku racionálním tahem. Nechť je naší výplatní maticí tabulka č. 2 a nechť se každý další tah uskuteční s pravděpodobností např. 3/5. Potom v případě spolupráce obou hráčů bude zisk následující:

$$z = R + R(\frac{3}{5}) + R(\frac{3}{5})^2 + R(\frac{3}{5})^3 + ... + R(\frac{3}{5})^n + R(\frac{3}{5})^{n+1} + ...$$

Avšak tato strategie v opakované formě vězňova dilematu je pouze jednou z mnoha a z hlediska dosaženého zisku určitě není tou nejlepší.

Aplikace Vězňova dilematu
Aplikace Vězňova dilematu nalézáme hlavně v matematice, ekonomii, sociologii a v evoluční biologii. Tento typ nekooperativní hry se v hojné míře vyskytuje i v našem reálném životě. A to hlavně v těch případech, kdy se člověk rozhoduje sám za sebe bez spolupráce s ostatními lidmi. Jedná se většinou o případy, kdy samotný jedinec váhá, jestli se má zachovat sobecky vůči ostatním lidem nebo jim vyjít vstříc. Existují však některé lidské vlastnosti (nesolidarita, ziskuchtivost, nedůvěřivost), díky kterým se daný jedinec zachová sobecky. Zachovat se sobecky je pro daného člověka totiž často tou nejlepší variantou. Tuto variantu však použijí i ostatní lidé, kteří budou brát v úvahu také již zmíněné špatné vlastnosti, a proto „zachovat se sobecky“ nebude mít takový výhodný výsledek, jako kdyby tuto variantu použil jedinec sám.

Spotřeba vody v domě
Představme si např. dům, který má více než jednoho obyvatele, a ve kterém se celková spotřeba vody dělí rovnoměrně. Pro všechny nájemníky je v jejich nejlepším zájmu šetřit vodou. Jenomže se může stát, že se objeví někdo, kdo šetřit vodou nebude.

Voda se však platí rovnoměrně, a tudíž zde vzniká riziko, že ostatní nájemníci, kteří vodou šetřili, budou muset zaplatit i za spotřebu toho, kdo vodou nešetřil. Proto, než aby ostatní doplatili za plýtvání vody jednoho jedince, radši budou plýtvat taky, i za cenu toho, že zaplatí daleko více, než kdyby všichni šetřili. Tuto situaci si můžeme názorně ukázat v konkrétních číslech, kdy budeme brát v úvahu pouze dva nájemníky.

Když budou oba dva nájemníci šetřit vodou, tak jejich celkový užitek bude 4 jednotky. Jestliže však jeden nájemce vodou šetřit nebude a ten druhý ano, hodnota užitku šetřícího nájemce klesne na 2, protože zaplatí spotřebu vody za nájemce, který nešetřil. Druhému nájemci se užitek zvýší na 5 jednotek, poněvadž za část jím spotřebované vody už zaplatil první nájemce. Proto ani jeden nájemce nebude riskovat to, že bude platit za druhého a budou plýtvat oba dva. Tento způsob se dá samozřejmě aplikovat na větší počet nájemníku než jen na dva.

Oligopoly
Aplikace Vězňova dilematu se dají nalézt i v ekonomii. Pro zjednodušení uvažujme oligopol se dvěma členy, Saudskou Arábií a Íránem. Tyto dvě země spolu uzavřely dohodu, že budou vyvážet menší množství ropy. Rozhodly se tak z toho důvodu, že chtějí, aby ceny ropy ve světě zůstaly vysoké. Velká produkce ropy by totiž měla za následek větší nabídku než poptávku a musely by snížit cenu za jednotku (za barel).

Protože si Saudská Arábie nemůže být jistá tím, že Írán smlouvu neporuší, zvolí pro jistotu vyšší produkci ropy. Je jasné, že tak jak uvažuje Saudská Arábie, bude uvažovat i Írán. Z toho vyplývá, že obě země smlouvu poruší a budou produkovat ropu ve velkém množství. Výsledkem bude více vyprodukované ropy, ale s nižším ziskem :

Na tomto příkladu vidíme, proč mají oligopoly problém udržet si monopolní zisk. Obě dvě země totiž chtějí mít co největší zisk, a proto si zvolí vysokou produkci. Takže místo toho aby každý oligopolista měl monopolní zisk v hodnotě 70 miliard dolarů, bude mít zisk pouze v hodnotě 50 miliard dolarů. Opět je zde rovnovážným bodem hodnota (Vysoká produkce, Vysoká produkce). Stejně jako v předchozích příkladech i zde platí, že oba dva hráči (duopolisté) se navzájem „zradí“.

Závody ve zbrojení
Reálné příklady Vězňova dilematu se objevovaly i v minulosti. Nyní si ukážeme možnou aplikaci ve zbrojení v tzv. „studené válce“ mezi SSSR a USA. Studená válka začala roku 1947 a skončila v roce 1991. Stály v ní proti sobě dvě velmoci - SSSR a USA. Obě velmoci se navzájem obviňovaly v prosazování různých politických ideologií (komunismus vs. imperialismus) a součástí této války byly také „závody“ ve zbrojení. Každá země se totiž mohla rozhodnout, zda bude zbrojit nebo ne. Obě dvě dávaly přednost zbrojení, protože při větší palebné síle, by se staly velmi mocným státem a měly by ve světě větší vliv. Na druhou stranu menší palebná síla vyvolá méně konfliktů. To znamená, že by mohly mezi sebou „žít v bezpečí“. Z těchto úvah vyplývá, že dané země měly na výběr ze dvou strategií, a to zbrojit nebo nezbrojit :

Z tabulky je zřejmé, že pro obě dvě země byla dominující strategie zbrojit. Toto rozhodnutí mělo za následek nejenom neustále ohrožení, ale mělo i za následek vysoké náklady vyplývající ze zbrojení. Tento problém se snažily USA a SSSR vyřešit různými dohodami nebo vyjednáváním o množství vyráběných zbraní a následnými kontrolami dodržování těchto zásad. Problém byl však v tom, že se nebyli schopni domluvit na povoleném množství vyráběných zbraní. Proto se i nadále zbrojilo v obou zemích.

Tento vývoj se však stal osudným pro SSSR. Neustále stoupající náklady na zbrojení měly za následek úpadek sovětského hospodářství. Finanční situace v SSSR byla nezvladatelná, protože se dostupné peněžní prostředky vynaložily pouze a jenom na obranu země. Výsledkem byl rozpad sovětského bloku.

Jestřáb a hrdlička
Nyní si ukážeme, že se s podobnou situací můžeme setkat také v aplikacích neekonomických. Jako aplikaci vězňova dilematu objevující se v evoluční biologii je uváděn model nazvaný jestřáb a hrdlička. Uvažujme populaci jednoho druhu, jejíž jedinci se při konfliktech řídí jednou ze dvou strategií, které nazveme jestřáb a hrdlička. Pojmenování je pouze obrazné a má vystihovat způsob chování při konfliktu: jestřáb bojuje vždy tvrdě a vzdává se jen tehdy, je-li vážně zraněn, hrdlička se přímým útokům raději vyhýbá.

Jedinci mohou bojovat prakticky o cokoliv, může se jednat např. o potravu, jiného jedince nebo výhodnou oblast pro život. Prostřednictvím boje se daný jedinec může stát udatnějším – tuto změnu označíme hodnotou V. Nebo se může zranit, a tím obrazně přijít o hodnotu, kterou označíme C. Platí přitom, že V>C. Poznamenejme, že celková zdatnost poraženého přitom nemusí být nulová, je pouze snížena o tuto hodnotu C, což v praxi znamená, že jedinec např. zůstává v horším teritoriu.

Nejdříve budeme uvažovat chování jestřábů. Budeme brát v potaz, že všichni zástupci jestřábů jsou nebojácní a bojují do konce zbytku svých sil. Proto, když se střetnou proti sobě dva jestřábi, vyhraje každý s pravděpodobností 50%. Naopak, když se proti sobě octnou dva jedinci chovající se jako hrdličky, bojí se boje, a proto budou sdílet oblast společně (rovným dílem). Pokud se střetne jestřáb s hrdličkou, dojde k boji, v němž je hrdlička zabita.

Tuto situaci si můžeme názorně znázornit v následující dvojmatici :

Z matice je zřejmé, že rovnovážnou strategií je dvojice (Jestřáb, Jestřáb), přestože by pro skupinu jako celek bylo očividně výhodnější kooperovat a chovat se jako hrdličky. Nalezená rovnovážná strategie odpovídá tomu, že z evolučního hlediska není strategie hrdlička nikdy tzv. evolučně stabilní, protože populace hrdliček muže být napadena jestřábem, jemuž se v populaci hrdliček daří lépe než hrdličkám samotným.

Rozhodování v reklamní kampani
Oligopolisté nesoupeří jen v oblasti cen, ale také např. prostřednictvím reklamy. I v tomto případě uvidíme, že zájmy jednotlivých firem se nemusí shodovat se zájmy všech firem jako celku. Když dvě firmy propagují své výrobky, aby přilákaly zákazníky, setkávají se s problémem podobným vězňovu dilematu. Jako příklad takového rozhodnutí uveďme dvě společnosti v tabákovém průmyslu – Lucky Strike a Marlboro. Tabulka č. 7 uvádí, jakých zisků mohou obě společnosti dosáhnout v případě využití a nevyužití reklamy.

Když ani jedna z firem nepoužije reklamu, rozdělí si obě firmy trh na půl. Jestliže budou obě inzerovat svůj výrobek, rozdělí si sice trh opět napůl, ale každá z firem přijde o částku, kterou do reklamy investovala. V případě, že jedna bude inzerovat a druhá ne, plyne jí zisk z přetažení zákazníků od konkurence.

„Tato teorie byla otestována v roce 1971, kdy Kongres Spojených států schválil zákon zakazující televizní reklamu na cigarety. K překvapení mnoha přihlížejících nevyužily tabákové společnosti svého značného politického vlivu k tlaku na zrušení tohoto zákona. Když zákon vstoupil v platnost, ubylo reklam na cigarety a zisky tabákových společností rostly. Zákon udělal za tabákové společnosti to, co nedokázaly udělat samy. Vyřešil totiž dilema vězňů tím, že přinutil společnosti k rozsahu výroby jako v podmínkách spolupráce s nízkým rozsahem reklamy a vysokými zisky.“

Otázky a příklady

 * 1) Je Nashova rovnováha vždy nutně Pareto-efektivní?
 * 2) Existuje v tabulce 1 Nashova rovnováha? Pokud ano, najděte ji.
 * 3) Je tato rovnováha Pareto-efektivní?
 * 4) Existuje v tabulce 2 nějaká dominantní strategie? Pokud ano, jaká?
 * 5) Určete Nashovu rovnováhu pro následující tabulku (využijte sedlový bod)

Řešení

 * Ne, není, typickým příkladem je právě vězňovo dilema
 * 1) Ano existuje, buňka s hodnotami [3; 3]
 * Ne, není
 * 1) Neexistuje
 * 2) Nashova rovnováha se nachází v buńce s hodnotou [2] (protíná se miminum řádku a maximum sloupce)

Řešení her pomocí aplikací
V současné době existuje celá řada appletů i samostatných aplikací. Například bezplatný Combat Analyzer pro Windows nabízí formalizaci one-shot game dvou hráčů s možnostmi nalezení Nashovy rovnováhy či dominování strategií.
 * Combat Analyzer

Videa na youtube

 * Teorie her 1. část
 * Teorie her 2. část

Doplňující literatura

 * HARFORD, Thomas; SALOMON, Leonard: “Reformed sinner” and “lapsed saint” strategies in the Prisoner’s Dilemma Game. Journal of Conflict Resolution, Vol. 11, pp. 104–109., 1967
 * MAŇAS, Miroslav: Teorie her a optimální rozhodování, 1. vydání, Praha: Státní nakladatelství technické literatury, 1974
 * MORRIS, Peter: Introduction to Game Theory, Springer Verlag, New York, 1994, 978-0-387-94284-1
 * POLAK, Ben: Game Theory (Yale University: Open Yale Courses), (Přístup 5.6.2012). Licence: Creative Commons BY-NC-SA http://oyc.yale.edu/
 * von NEUMANN, John.; MORGENSTERN, Oskar: Theory of Games and Economic Behavior, vol. I, Elsevier, Amsterdam, 1992, 978-0-691-13061-3