Învățarea diferenței temporale

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Învățarea diferenței temporale (TD) , adică „învățarea prin diferența temporală, indică o clasă de metode de învățare de întărire care își bazează învățarea pe bootstrap din estimarea actuală a funcției obiective: campionano aceste metode din mediu, precum și Mount Method Charles , dar actualizați funcția de valoare a stării pe baza estimărilor curente, așa cum este cazul în programarea dinamică .

Spre deosebire de metodele Monte Carlo care își schimbă estimările doar atunci când se cunoaște rezultatul final, aceste metode la distanță de timp își adaptează predicțiile în mod dinamic, astfel încât să aibă predicții mai precise despre viitor, chiar înainte ca rezultatul final să fie disponibil. [1] . Aceasta este, de fapt, o formă de bootstrap, după cum se poate vedea din următorul exemplu [1] :

„Să presupunem că doriți să preziceți vremea pentru sâmbătă și să aveți un model care să prezică vremea sâmbătă, având vremea disponibilă pentru fiecare zi a săptămânii. În mod normal, ați aștepta până sâmbătă și abia atunci ați regla toate modelele dvs. , când este, să zicem, vineri, ar trebui să aveți deja o idee bună despre cum ar putea fi vremea sâmbătă - și astfel să puteți schimba, să zicem, modelul de sâmbătă înainte de sosirea sâmbetei ".

Metodele de diferență de timp sunt strâns legate de modelul diferenței de timp al învățării animalelor [2] [3] [4] [5] [6] .

Formularea matematică

Metoda tabelară TD (0), una dintre metodele TD mai simple, estimează funcția valorii de stare a unei decizii Markov de stat finit (MDP) pe baza unei politici (sau politici) . Este funcția valorii de stare a unui MDP care are stări , recompense și un factor de reducere pentru politică :

satisface ecuația Hamilton-Jacobi-Bellman: asa de este un estimator necondiționat (zero bias) pentru . Această observație justifică următorul algoritm de estimare . Algoritmul inițializează un tabel cu valori arbitrare, alegerea unei valori pentru fiecare dintre stările procesului Markov: este stabilită și o rată de învățare pozitiv. În acest moment, politica este evaluată , și odată ce recompensa este obținută , funcția de valoare a stării pentru vechea stare este actualizată utilizând următoarea regulă [7] :

unde este Și indica, respectiv, starea veche și noua.

TD-Lambda

TD-Lambda este un algoritm de învățare creat de Richard S. Sutton pe baza unei lucrări anterioare despre diferențele de timp de învățare realizate de Arthur Samuel [8] . Acest algoritm a fost celebru aplicat de Gerald Tesauro pentru a crea TD-Gammon, un program care a învățat cum să joace table la nivelul jucătorilor umani calificați [9] .

Parametrul poate presupune valori cuprinse între 0 și 1. Prin creșterea valorii lambda, se acordă o greutate mai mare recompenselor obținute în stări departe de cea curentă.

Notă

  1. ^ a b Richard Sutton, Învățarea de a prezice prin metodele diferențelor temporale , în Învățarea automată , vol. 3, nr. 1, 1988, pp. 9–44, DOI : 10.1007 / BF00115009 . (O versiune revizuită este disponibilă pe pagina de publicație a lui Richard Sutton Arhivat 30 martie 2017 la Internet Archive .)
  2. ^ Schultz, W, Dayan, P & Montague, PR., Un substrat neuronal de predicție și recompensă , în Știință , vol. 275, nr. 5306, 1997, pp. 1593–1599, DOI : 10.1126 / science.275.5306.1593 , PMID 9054347 .
  3. ^ PR Montague, P. Dayan și TJ Sejnowski, Un cadru pentru sistemele de dopamină mezencefalică bazat pe învățarea predictivă Hebbian ( PDF ), în The Journal of Neuroscience , vol. 16, n. 5, 1 martie 1996, pp. 1936–1947, DOI : 10.1523 / JNEUROSCI.16-05-01936.1996 , PMID 8774460 .
  4. ^ PR Montague, P. Dayan și SJ Nowlan, Utilizarea consolidării aperiodice pentru auto-organizare dirijată ( PDF ), în Advances in Neural Information Processing Systems , vol. 5, 1993, pp. 969–976.
  5. ^ PR Montague și TJ Sejnowski, Creierul predictiv: coincidența temporală și ordinea temporală în mecanismele de învățare sinaptice , în Învățare și memorie , vol. 1, nr. 1, 1994, pp. 1–33, PMID 10467583 .
  6. ^ TJ Sejnowski, P. Dayan și PR Montague, Predictive hebbian learning , în Proceedings of Eighth ACM Conference on Computational Learning Theory , 1995, pp. 15-18, DOI : 10.1145 / 230000/225300 / p15-sejnowski .
  7. ^ Reinforcement learning: An introduction ( PDF ), p. 130. Adus la 10 septembrie 2019 (arhivat din original la 12 iulie 2017) .
  8. ^ Richard Sutton și Andrew Barto, Reinforcement Learning , MIT Press, 1998, ISBN 978-0-585-02445-5 . Adus la 10 septembrie 2019 (Arhivat din original la 30 martie 2017) .
  9. ^ Gerald Tesauro, Temporal Difference Learning și TD-Gammon , în Communications of the ACM , vol. 38, nr. 3, martie 1995, pp. 58–68, DOI : 10.1145 / 203330.203343 . Adus la 8 februarie 2010 .

Elemente conexe

linkuri externe