Echilibru Nash

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În teoria jocurilor se definește echilibrul lui Nash, un profil de strategie (unul pentru fiecare jucător) în raport cu care interesul niciunui jucător să nu fie singurul care să se schimbe.

«Un joc poate fi descris în termeni de strategii, pe care jucătorii trebuie să le urmeze în mișcările lor: echilibrul este acolo, atunci când nimeni nu își poate îmbunătăți comportamentul unilateral. Pentru a ne schimba, trebuie să acționăm împreună. [1] "

( John Nash )

Nașterea teoremei lui Nash

Prima formulare a acestei teoreme, referitoare la cea mai faimoasă noțiune de echilibru din teoria jocurilor în ceea ce privește „ jocurile necooperante ”, apare într-un articol foarte scurt publicat în 1950 unde John Nash , pe atunci doctorand la Princeton , își explică ideea să fuzioneze intim două concepte aparent foarte îndepărtate [2] : cel al unui punct fix într-o transformare a coordonatelor și cel al celei mai raționale strategii pe care un jucător o poate adopta, atunci când concurează cu un adversar care este și rațional, extinzând teoria jocuri pentru un număr arbitrar de participanți sau agenți. Nash demonstrează că, în anumite condiții, există întotdeauna o situație de echilibru, care se obține atunci când fiecare individ care participă la un anumit joc își alege mișcarea strategică pentru a-și maximiza recompensa , sub conjectura că comportamentul rivalilor nu va varia. datorită alegerii sale (înseamnă că, chiar și cunoscând mișcarea adversarului, jucătorul nu ar mai face o mutare în afară de cea pe care a decis-o).

Rezultatul lui Nash poate fi văzut ca o măsură semnificativă în comparație cu cazul „ jocului cu sumă zero ” studiat anterior de John von Neumann . Ideea echilibrului este, de asemenea, o schimbare conceptuală semnificativă de la abordarea lui von Neumann, care a recurs la ideea de minimax .

Echilibrul Nash

Să vedem mai detaliat ce este exact un echilibru Nash. În acest scop, poate fi util să clarificăm câteva aspecte matematice simple ale teoriei jocurilor și să definim câteva concepte de bază.

Un joc se caracterizează prin:

  • Un set de jucători, sau agenți, la numărul de N, notat cu i = 1, ..., N;
  • Pentru fiecare agent, un transportator

strategii pe care jucătorul i-th le are la dispoziție, setul de acțiuni pe care le poate efectua; din motive de scurtă durată, vom indica mai jos cu strategia aleasă de către jucător;

  • Pentru fiecare agent, o funcție

care se asociază jucătorului câștigul ( de asemenea , numit pay-off) de la fiecare combinație de strategii (câștig de un jucător , în general , aceasta depinde nu numai de strategia sa , ci și pe strategiile alese de adversarii lor).

Un echilibru Nash pentru un anumit joc este o combinație de strategii (notate cu supercriptul )

astfel încât

pentru toți i și pentru fiecare strategie ales de i-lea player.

Sensul acestei ultime inegalități este foarte simplu: dacă un joc admite cel puțin un echilibru Nash, fiecare agent are la dispoziție cel puțin o strategie de la care nu are niciun interes să plece dacă toți ceilalți jucători și-au jucat strategia . De fapt, după cum se poate deduce direct din inegalitatea, în cazul în care jucătorul joacă orice strategie diferită la dispoziția sa de , în timp ce toți ceilalți au jucat propria strategie , nu poate decât să-și înrăutățească câștigurile sau, cel mult, să-l lase neschimbat. Prin urmare, se pare că, dacă jucătorii ating un echilibru Nash, nimeni nu își poate îmbunătăți rezultatele schimbându-și doar propria strategie și, prin urmare, este legat de alegerile altora. Deoarece acest lucru se aplică tuturor jucătorilor, este clar că, dacă există un echilibru Nash și este unic, este soluția jocului, deoarece niciunul dintre jucători nu are interes în strategia de schimbare.

Cea mai importantă contribuție a lui John Nash la teoria jocurilor este demonstrarea existenței acestui echilibru matematic. În special, el a arătat că fiecare joc finit are cel puțin un echilibru Nash, posibil în strategii mixte. A termina jocul înseamnă un joc cu orice număr, dar jucători și strategii terminate, iar strategia mixtă pentru un anumit jucător este definită ca o distribuție a probabilității pe strategiile disponibile jucătorului de mai sus.

Teorema

Este un anunț de joc necooperant jucători. Să presupunem că urmează:

  • sunt subseturi convexe , compacte și ne-goale , pentru fiecare ;
  • sunt funcții continue, pentru fiecare ;
  • , astfel încât , unde este indică șirul de lungime unde a fost ștearsă componenta -thth, să fie aproape concav, pentru fiecare . Cu alte cuvinte, funcția de utilitate, limitată la o strategie, odată ce celelalte sunt fixate, este aproape concavă.

Apoi, jocul admite cel puțin un echilibru Nash.

Demonstrație

În primul rând, să luăm în considerare cea mai bună funcție de redare a jucătorului -alea , definit ca . Rețineți că . Având în vedere cea mai bună caracteristică de răspuns din joc , definit ca , avem asta este un echilibru Nash dacă și numai dacă este un punct fix al celei mai bune funcții de răspuns a jocului, adică .

Deci, dacă verificăm că cea mai bună funcție de răspuns a jocului, Satisfac ipotezele teoremei lui Kakutani , vom avea teza.

  • În mod trivial avem asta este non-gol, convex și compact, ca produs cartezian al subseturilor ne-goale, convexe și compacte ale .
  • Fiind ed. compactă continua, pentru fiecare , atunci există cel puțin un maxim în , Si deasemenea, .
  • este compact, pentru fiecare . De fapt, fiind subseturi închise ale unui compact, acestea sunt compacte. Să luăm în considerare o succesiune , în , convergând către , asa de . Prin definiție, avem asta
    De la faptul că funcțiile utilitare sunt continue și secvența converge la , asa de
    Deci, pentru teorema permanenței semnului , rezultă că
    Aceasta înseamnă că .
  • este convex, pentru fiecare . De fapt, să luăm în considerare întregul
    Din faptul că funcțiile utilitare sunt aproape concav, adică subgraful lor intersectat cu hiperplane generează mulțimi convexe, rezultă că mulțimea este convex, . Observăm că , . Fiind este convex, , atunci intersecția lor este încă un set convex, prin urmare este convex.
  • Cea mai bună funcție de răspuns a jucătorului -th a închis graficul. Să luăm în considerare secvențele , în , convergând respectiv către , dacă, în plus, , asa de , care este cea mai bună funcție de răspuns a jucătorului -th a închis graficul. Este absurd să presupunem că . Apoi va exista un anumit astfel încât . Este . În mod echivalent avem asta
    Din faptul că secvențele sunt convergente și funcțiile de utilitate sunt continue și, în plus, , rezultă că
    Pentru , avem asta . Absurd.

Echilibrul Nash și optimul Pareto

În concluzie, este potrivit să facem o scurtă reflecție asupra semnificației profunde a conceptului de echilibru Nash. Am văzut de fapt că reprezintă o situație în care niciun agent rațional nu are interes în strategia de schimbare și cum este fructul alegerii, de către toți jucătorii, a strategiei sale dominante: „echilibrul Nash este astfel situația în care grupul vine în vizită, fiecare membru al grupului face ceea ce este mai bun pentru ei înșiși, care își propune să își maximizeze propriul profit, indiferent de alegerile oponenților. Cu toate acestea, se spune că echilibrul Nash este cea mai bună soluție pentru toată lumea. De fapt, dacă este adevărat că într-un echilibru Nash singurul jucător nu își poate crește câștigurile modificându-și doar strategia, nu este deloc sigur că un grup de jucători, sau cel puțin toți, nu își pot crește câștigurile prin mișcare departe.în comun prin echilibru. Se știe că echilibrul Nash nu poate fi un Pareto excelent (sau optimitatea Pareto ), și atunci pot exista și alte combinații de strategii care conduc la îmbunătățirea câștigului unora fără a reduce câștigul nimănui, sau chiar, așa cum se întâmplă în cazul dilemei prizonierului , pentru a crește câștigul tuturor. În mod similar, cel mai bun rezultat pentru toată lumea poate să nu fie un echilibru. Să presupunem că, într-un joc, există un echilibru Nash și că există, de asemenea, o combinație de strategii optime, care vor fi notate prin supercript sau, astfel încât

pentru fiecare i, dar că această combinație nu este un astfel de echilibru, așa cum se întâmplă în dilema prizonierului sau, cu alte cuvinte, că nu este o strategie dominantă. În acest caz, fiecare agent individual va avea cel puțin o strategie disponibilă diferit de ceea ce îi permite să își îmbunătățească și mai mult profitul, modificându-și singura strategia, adică există câte una pentru fiecare agent astfel încât

.

În consecință, pentru axioma raționalității, el va fi condus să prefere o altă strategie decât . Mai mult, creșterea câștigului în raport cu echilibrul Nash rezultată din alegerea strategiei Depinde, ca întotdeauna, de faptul că toată lumea a ales această strategie , deoarece , în general , câștigul depinde de alegerile tuturor jucătorilor; a nu fi o strategie dominantă, este posibil ca, chiar dacă unul dintre agenți alege să nu joace , ceilalți suferă o reducere a câștigurilor lor comparativ cu ceea ce ar fi obținut jucând o strategie optimă. În concluzie, fiecare jucător va găsi în continuare preferabil să nu riște și să joace propria strategie dominantă, iar soluția jocului va rămâne în continuare echilibrul Nash, chiar dacă nu garantează câștigul maxim posibil.

Cu toate acestea, nu ar trebui să ne gândim că nu este posibil să se ajungă la o situație în care toată lumea obține cel mai bun rezultat posibil, dacă nu este un echilibru (în unele cazuri coincide cu și astfel problema nu apare): acest lucru este posibil cu condiția ca pentru stabilirea cooperării între jucători, adică toți acționează nu cu scopul de a obține cel mai bun rezultat pentru el însuși, ci de a obține cel mai bun rezultat pentru grup , și astfel, indirect, obținând un rezultat mai bun și în sine (deși acest concept este bine exemplificat în dilema prizonierului). Cu toate acestea, întrucât raționalitatea colectivă contrastează adesea cu raționalitatea individuală, în majoritatea cazurilor este necesară o convenție obligatorie între jucători (și, prin urmare, o instituție care monitorizează acest acord) și o sancțiune împotriva celor care nu o respectă, reducând astfel profitul. individual dacă se îndepărtează de combinația de strategii care garantează tuturor cel mai bun rezultat, astfel încât nimănui să nu i se pară de preferat să îl defecte.

Exemplu: „dilema prizonierului”

Pictogramă lupă mgx2.svg Același subiect în detaliu: Dilema prizonierului .

Dilema prizonierului oferă un bun punct de plecare pentru a compara cele două concepte de echilibru dintre Nash și Pareto optim și pentru a înțelege aplicarea sa în economie . Luând în considerare ceea ce se arată în definiția matematicii de echilibru Nash, vedem aplicarea lor în cazul dilemei prizonierului. Posibilele alegeri pentru doi prizonieri în celule diferite care nu comunică sunt să vorbească (acuzându-l pe celălalt) sau să nu vorbească.

  • Dacă ambii nu vorbesc, vor avea o pedeapsă ușoară (1 an);
  • Dacă vorbește ambii, acuzându-se reciproc, vor avea o pedeapsă grea (6 ani);
  • Dacă fac alegeri diferite, vorbitorul va avea libertate (0 ani), iar celălalt va avea o pedeapsă ceva mai grea (7 ani) decât dacă ar mărturisi amândoi.

Dacă știți amândoi aceste reguli și nu luați acorduri, alegerea care corespunde echilibrului lui Nash este de a vorbi cu amândoi. Din acest exemplu vedem că teoria în cazuri reale nu este întotdeauna cea mai bună soluție (sau uneori nu este suficient de realistă).

Ambii jucători au la dispoziție aceleași strategii (două) și aceleași recompense (2x2) care sunt (vom indica din motive de scurtă durată mărturisiți cu c și nu mărturisiți cu n și anii de închisoare cu un semn minus din moment ce ele reprezintă pierderi și, prin urmare, câștiguri negative):

  • Strategii:
  • Achita:

Rezultă imediat că, pentru amândoi, strategia dominantă este mărturisește, de fapt

Și

deci, indiferent de alegerea oponentului, alege mărturisește garantează întotdeauna un câștig mai mare în comparație cu a nu alege mărturisește. Este imediat recunoscut pe măsură ce combinația de strategii dominante mărturisește - mărturisește că satisface inegalitatea care definește echilibrul Nash, de fapt pentru ambii jucători

(pentru al doilea jucător inegalitatea este satisfăcută prin inversarea ordinii strategiilor). Practic, presupunând că al doilea jucător mărturisește, primul trebuie să aleagă și el mărturisește și nu își poate crește profitul schimbându-și doar strategia: plățile sale în cazul în care nu mărturisește - mărturisirea este mai mică decât ceea ce ar obține jucând echilibrul . mărturisește - recunoaște că este și singurul echilibru al jocului, de fapt, nicio altă combinație de strategii nu satisface inegalitatea.

Soluția jocului este, prin urmare, că amândoi mărturisesc, fiecare primind 6 ani de închisoare.

Cu toate acestea, aspectul mai interesant decât dilema prizonierului este după cum urmează: toate combinațiile de strategii, excepția echilibrului Nash, sunt Pareto excelente. De fapt, luând oricare dintre aceste combinații, nu este posibil să se găsească alta care să implice pentru cel puțin unul dintre cei doi jucători o reducere a anilor de închisoare fără a crește cei ai celuilalt. Acest concept nu se aplică soldului mărturisește - recunoaște el: combinația nu mărturisește - nu mărturisește duce la o reducere a anilor de închisoare pentru ambii jucători (câte un an în loc de 6) și din moment ce

pentru toate i, (c, c) nu este o soluție Pareto-optimă.

Optimitatea Pareto este un concept foarte important în economie: un mare Pareto este definit ca o situație în care, indiferent de alocarea specifică a resurselor, nu este posibil să se găsească altul care să ducă la creșterea bogăției unora fără a scădea bogăția la alții. Motivul pentru importanța optimului lui Pareto este intuitiv: dacă există o soluție care implică o creștere a veniturilor cuiva fără ca nimeni să sufere pierderi, înseamnă că există resurse care nu au fost alocate sau care au fost alocate greșit; prin urmare, este mai bine să schimbați alocarea. În cazul excelentului Pareto, de fapt, îmbogățirea în continuare a cuiva trece în mod necesar prin sărăcirea altcuiva. Dilema prizonierului evidențiază un concept cheie al economiei: optimul Pareto este rațional din punct de vedere colectiv, dar deloc din punct de vedere individual; în esență, dacă N agenții unui joc (și, prin urmare, prin extensie, ai unei piețe) acționează în funcție de raționalitatea individuală, adică cu singurul scop de a-și maximiza profitul personal, nu ajung neapărat la un optim Pareto. În unele cazuri ajung și în altele nu; în acest din urmă caz ​​acțiunile lor implică o dispersie sau o alocare greșită a resurselor.

Comparația dintre echilibrul lui Nash și optimitatea lui Pareto se îndoiește de generalitatea afirmațiilor făcute de Adam Smith . De fapt, el credea că dacă fiecare membru al unui grup își urmărește propriul interes personal și există condiții de concurență perfectă, echilibrul rezultat este unul în care fiecare acțiune individuală crește bogăția generală a grupului. Pe scurt, un Pareto excelent. Astăzi, totuși, știm că, dacă fiecare membru al grupului face ceea ce este mai bun pentru el însuși, rezultatul este, în general, un echilibru Nash, dar nu neapărat un optim Pareto : este deci posibil ca, dacă fiecare agent să facă doar sinele -interes, duce la o alocare ineficientă a resurselor. În cazul dilemei prizonierului, acest lucru este evident: valoarea minimă posibilă a anilor de închisoare este 0 pentru individ și 2 pentru grup, dar dacă ambii își aleg strategia dominantă, primesc câte 6.

Echilibrul duopolului Cournot și al economiei

Această noțiune de echilibru constituie o generalizare a duopolului de echilibru pe care Antoine Augustine Cournot , matematician și economist, l-a descris deja în 1838 .

Notă

  1. ^ Geniul și nebunia lui John Nash . Interviu de Piergiorgio Odifreddi, Repubblica. Exprimat. Cultură. 11 martie 2008
  2. ^ Rețineți că această conexiune era totuși deja prezentă aici: John von Neumann: Über ein ökonomisches Gleichungssystem und eine der Verallgemeinerung Brouwerschen Fixpunktsatzes, Ergebnisse eines Math. Kolloquiums (editor: Karl Menger ), 8, 73-83, 1937. Traducere în limba engleză: Un model de echilibru economic general, Review of Economic Studies, 13, 1-9, 1945-1946.

Bibliografie

  • Nash, John F. Jr. [1950]: Equilibrium Points in n-Person Games, Proc. Nat. Acad. Sci. SUA, 36, 48-49.
  • Nash, John F. Jr. [1951]: Jocuri necooperative, Ann. de Math., 54, 286-295.

Elemente conexe

linkuri externe

  • Nash, Berge, Kakutani demonstrația teoremei existenței echilibrului lui Nash și preliminară (fișier pdf, 18 pagini.)
Controllo di autorità GND ( DE ) 4171190-7
Matematica Portale Matematica : accedi alle voci di Wikipedia che trattano di matematica