Naar inhoud springen

Nash-evenwicht

Uit Wikipedia, de vrije encyclopedie

In de speltheorie, een deelgebied van de wiskunde, is een Nash-evenwicht een oplossingsconcept voor een niet-coöperatief spel, waar twee of meer spelers aan meedoen. In een Nash-evenwicht wordt elke speler geacht de evenwichtsstrategieën van de andere spelers te kennen en heeft geen van de spelers er voordeel bij om zijn of haar strategie eenzijdig te wijzigen.[1] Als elke speler een strategie heeft gekozen en geen enkele speler kan profiteren door zijn strategie te veranderen, terwijl de andere spelers dat ook niet doen, dan vormt de huidige verzameling van strategiekeuzes plus de bijbehorende uitbetalingen een Nash-evenwicht.

Een Nash-evenwicht gaat uit van een spel, waarin iedere speler een strategie heeft. Die strategie geeft precies aan wat een speler in de verschillende fases van een spel doet. Een strategie kan zowel een pure strategie als een gemengde strategie zijn. De verzameling van strategieën van alle spelers die meedoen aan een bepaald spel noemt men een strategieprofiel. In de speltheorie is een Nash-evenwicht een strategieprofiel waarbij het voor geen enkele speler voordelig is daarvan af te wijken, als de andere spelers dat ook niet doen.

Het Nash-evenwichtsconcept is een begrip dat vooral toepassing vindt in de economie.

Het Nash-evenwicht is vernoemd naar John Forbes Nash, een Amerikaanse wiskundige, die het concept in 1950 in zijn dissertatie aan de universiteit van Princeton introduceerde. Een eerdere versie van het Nash-evenwichtsconcept werd in 1838 voor bekend als eerste gebruikt door Antoine Augustin Cournot in zijn theorie van oligopolies.[2] In Cournots theorie kiezen bedrijven hoeveel product zij produceren om hun eigen winst te maximaliseren. De beste hoeveelheid productie voor een bedrijf is afhankelijk van de productie van anderen. Er treedt een Cournot-evenwicht op wanneer de productie van ieder bedrijf de winst van dat bedrijf maximaliseert gegeven de productie van andere bedrijven; dat is een puur strategisch Nash-evenwicht. Cournot introduceerde in zijn analyse ook het concept van het beste respons dynamiek van de stabiliteit van het evenwicht.

Het moderne speltheoretische concept van Nash-evenwicht wordt in plaats daarvan gedefinieerd in termen van gemengde strategieën, waar de spelers voor een kansverdeling over mogelijke acties kiezen. Het concept van een gemengde strategie Nash-evenwicht werd in 1944 door John von Neumann en Oskar Morgenstern geïntroduceerd in hun boek 'The Theory of Games and Economic Behavior. Hun analyse was echter beperkt tot het bijzondere geval van zero-sum spellen. Zij toonden aan dat er voor alle zero-sum spellen, die uit een eindige reeks acties bestaan, een mixed-strategie Nash-evenwicht zal bestaan. De bijdrage van John Forbes Nash in zijn artikel uit 1951 Non-Cooperative Games was om een gemengde strategie Nash-evenwicht te definiëren voor elke spel dat uit een eindige verzameling van acties bestaat en te bewijzen dat er in zo'n spel ten minste één (gemengde strategie) Nash-evenwicht moet bestaan.

Sinds de ontwikkeling ervan hebben speltheoretici ontdekt dat het Nash-evenwichtsconcept onder bepaalde omstandigheden misleidende voorspellingen doet of er niet in slaagt om een unieke voorspelling te doen. Daarom hebben zij vele gerelateerde oplossingsconcepten (ook wel 'verfijningen' van Nash-evenwicht) geconstrueerd om waargenomen gebreken in het Nash-evenwichtsbegrip te overwinnen. Een heel belangrijk probleem is dat sommige Nash-evenwichten gebaseerd kunnen zijn op bedreigingen die niet geloofwaardig zijn. Daarom introduceerde Reinhard Selten in 1965 het zogenaamde deelspel perfecte evenwicht als een verfijning, die evenwichten elimineert die afhankelijk zijn van niet-geloofwaardige bedreigingen. Andere uitbreidingen van het Nash-evenwichtsconcept hebben geadresseerd wat er gebeurt als een spel herhaald wordt, of wat gebeurt er als een spel wordt gespeeld in een setting waar geen afwezigheid van perfecte informatie aanwezig is. Latere verfijningen en uitbreidingen van het Nash-evenwichtsconcept delen echter het belangrijkste inzicht waarop Nash-concepten berusten: alle evenwichtsconcepten analyseren welke keuzes er zullen worden gemaakt wanneer elke speler met de besluitvorming van alle andere spelers rekening houdt.

Eenvoudig gezegd bevinden twee personen (laten wij ze Jan en Piet noemen) zich in een Nash-evenwicht als Jan de best mogelijk beslissing neemt, waarbij hij rekening houdt met de beslissing van Piet, en dat omgekeerd Piet de beste mogelijke beslissing neemt, daarbij rekening houdend met de beslissing van Jan. Op dezelfde manier bevindt een groep spelers zich in een Nash-evenwicht als ieder groepslid de best mogelijke beslissing neemt, waarbij hij of zij rekening houdt met de beslissingen van alle anderen.

Zie Kruis of munt voor het hoofdartikel over dit onderwerp.

In dit spel kiezen 2 spelers ieder kop of munt. Als ze hetzelfde kiezen krijgen ze een prijs, anders niet. De uitbetalingen staan in onderstaande tabel. In onderstaand voorbeeld kiest A eerst en daarna B.

A kiest munt A kiest kop
B kiest munt Prijs 10 euro Geen prijs
B kiest kop Geen prijs Prijs 10 euro

A en B overleggen en kiezen ervoor om beide kop te kiezen. Dat is dan het strategieprofiel wat bij dit spel hoort: [kop ,kop] voor [A, B]. Dit strategieprofiel is een Nash-evenwicht. Op het moment dat A kop heeft gekozen en B zijn keuze nog moet bepalen, heeft het voor B geen zin om nog van strategie te veranderen. Als B dan namelijk voor munt kiest, krijgt hij geen prijs.

Gevangenendilemma

[bewerken | brontekst bewerken]
Zie Gevangenendilemma voor het hoofdartikel over dit onderwerp.

In het gevangenendilemma kiezen 2 verdachten tussen bekennen en zwijgen. Van deze actie hangt hun (eventuele) straf af.

A zwijgt A bekent
B zwijgt A en B krijgen 2 jaar A is vrij, B krijgt 10 jaar
B bekent A krijgt 10 jaar, B is vrij A en B krijgen 5 jaar

Stel dat beide verdachten zwijgen. In dat geval krijgen ze allebei 2 jaar gevangenisstraf. Dit strategieprofiel is echter geen Nash-evenwicht. In dat geval zou het namelijk — als we geen rekening houden met ethische bezwaren of loyaliteit — voor beide spelers voordelig zijn om de strategie te wisselen. Degene die bekent krijgt namelijk 0 jaar gevangenisstraf in plaats van 2 en gaat er dus op vooruit.

Aan de andere kant is de situatie dat beide verdachten bekennen wel een Nash-evenwicht. In dat geval krijgen beide gevangenen 5 jaar gevangenisstraf. Als B zijn strategie wisselt, terwijl A bij zijn oude strategie blijft, dan krijgt B 10 jaar gevangenisstraf in plaats van 5 en gaat hij er dus op achteruit. Dat geldt natuurlijk ook voor A. Aangezien het voor beide verdachten onvoordelig is om te wisselen, is dit strategieprofiel een Nash-evenwicht.

Merk op dat het Nash-evenwicht in deze situatie niet het optimale strategieprofiel is — als beide verdachten zwijgen krijgen ze bijvoorbeeld allebei minder gevangenisstraf.

Een Nash-evenwicht betekent lang niet altijd dat de totale opbrengst van alle spelers gemaximaliseerd wordt (Pareto-optimum). Doordat iedere speler voor zichzelf, gegeven de strategie van de anderen, zijn opbrengst maximaliseert, kan het zo zijn dat de totale uitkomst niet gemaximaliseerd wordt. Het bekendste voorbeeld daarvan is het bovengenoemde gevangenendilemma.

Ook betekent een Nash-evenwicht niet dat een groep spelers geen voordeel kan hebben bij het afwijken van het Nash-evenwicht. Als dit ook niet kan, dan is er sprake van een sterk Nash-evenwicht (strong Nash equilibrium) of in een iets zwakkere vorm van een coalitiebestendig Nash-evenwicht (coalition-proof Nash equilibrium).

  1. Osborne, Martin J. en Rubinstein, Ariel, A Course in Game Theory. Cambridge, MA : MIT, 1994.
  2. Cournot A. (1838) Researches on the Mathematical Principles of the Theory of Wealth
  • Bernheim, B.D., Peleg, P. en Whinston, M.D., Coalition-Proof Nash Equilibria I. Concepts, Journal of Economic Theory, Volume 42, Issue 1, June 1987, Pages 1–12
  翻译: