Luarea deciziilor Markov

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Luarea deciziilor Markov ( MDP ), numită după matematicianul Andrej Andreevič Markov (1856-1922) , oferă un cadru matematic pentru modelarea luării deciziilor în situații în care rezultatele sunt parțial aleatorii și parțial sub controlul unui factor de decizie . MDP-urile sunt utile pentru studierea unei game largi de probleme de optimizare rezolvate cu programare dinamică și învățare cu întărire . MDP-urile sunt cunoscute din 1950 [1] . Acestea sunt utilizate într-o zonă largă de discipline în care luarea deciziilor are loc într-un mediu dinamic, inclusiv robotică , automatizare , economie și producție industrială .

Mai precis, un proces decizional Markov este un proces de control stocastic în timp discret. Dacă starea și spațiile de acțiune sunt finite, atunci problema se numește MDP finit. MDP-urile finite sunt deosebit de importante pentru teoria dell ' învățării prin întărire (învățare prin întărire).

Definiție

Un MDP terminat este definit de:

  • un spațiu de stări ;
  • un spațiu pentru acțiuni care poate fi întreprins în funcție de stat;
  • probabilitățile de tranziție ele definesc dinamica cu un singur pas a mediului, adică probabilitatea ca, dată fiind o stare și o acțiune la momentul , se ajunge la următoarea stare posibilă : ;
  • valoarea așteptată a recompensei : a primit un statut și o acțiune , dacă treceți la stat primești o recompensă egală cu ( reprezintă valoarea așteptată sau prognoza) ;
  • este factorul de reducere care reprezintă diferența importantă între recompensele viitoare și recompensele prezente .

(Notă: teoria lui Markov privind luarea deciziilor nu specifică acest lucru sau sunt finite, dar algoritmii de bază anteriori presupun că sunt.)

Problemă

Problema centrală a unui MDP este de a identifica care este cea mai bună acțiune de efectuat într-o stare dată, pentru a obține valoarea maximă posibilă a unei funcții de recompensă cumulativă. Funcția care pentru fiecare stare identifică acțiunea de aplicat se numește „politică” (politică) staționară . De obicei, această funcție de evaluare a recompenselor este valoarea așteptată a unei sume reduse pe un orizont potențial infinit:

unde este sunt acțiunile date de politică , este factorul de reducere între 0 și 1.

Datorită proprietății Markov , politica optimă ceea ce maximizează recompensa cu reducerea așteptată, deoarece această problemă poate fi scrisă doar în funcție de stat . Pentru a obține o politică de timp polinomială optimă pentru un anumit MDP, se folosesc adesea algoritmi de programare liniară sau, mai tradițional, algoritmi de programare dinamică [2] .

Algoritmi

Familia standard de algoritmi care calculează această politică optimă utilizează doi vectori, indexați cu starea, care se numesc: „valoare” , care conține valori reale și „politică” ' , care conține acțiunile. Când algoritmul se termină, conține politica soluției e conține suma redusă a recompenselor care trebuie obținute (în medie) în urma soluției începând de la stat .

Algoritmul are două tipuri de pași: o actualizare a valorii și o actualizare a politicii, care se repetă în toate stările și într-o anumită ordine, până când nu mai există modificări ale valorilor. Cele două actualizări recalculează recursiv o nouă valoare estimată pentru politica optimă și pentru valoarea de stat, utilizând o estimare anterioară a acestor valori.

Ordinea actualizărilor depinde de varianta algoritmului. Ele pot fi aplicate tuturor statelor împreună, sau stat cu stat, secvențial sau chiar mai des pentru anumite state decât pentru altele. Atâta timp cât nici o stare nu este exclusă din pașii de actualizare, algoritmul va converge în cele din urmă către o soluție [3] .

Notă

  1. ^ Bellman, R., A Markovian Decision Process , în Journal of Mathematics and Mechanics , vol. 6, 1957.
  2. ^ Shoham, Y și Leyton-Brown, K, Sisteme multiagent ( PDF ), 2010 [2009] , p. 476. Adus la 10 decembrie 2018 .
  3. ^ (EN) Stewart N. Ethier, Procese Markov: caracterizare și convergență , Wiley, 1986, ISBN 9780470316658 ,OCLC 264 621 186 . Adus la 12 decembrie 2018 .

Bibliografie

  • Ronald A. Howard, Dynamic Programming and Markov Processes , The MIT Press, 1960.

Elemente conexe