Învățarea diferenței temporale

Învățarea diferenței temporale (TD) , adică „învățarea prin diferența temporală, indică o clasă de metode de învățare de întărire care își bazează învățarea pe bootstrap din estimarea actuală a funcției obiective: campionano aceste metode din mediu, precum și Mount Method Charles , dar actualizați funcția de valoare a stării pe baza estimărilor curente, așa cum este cazul în programarea dinamică .

Spre deosebire de metodele Monte Carlo care își schimbă estimările doar atunci când se cunoaște rezultatul final, aceste metode la distanță de timp își adaptează predicțiile în mod dinamic, astfel încât să aibă predicții mai precise despre viitor, chiar înainte ca rezultatul final să fie disponibil. ^[1] . Aceasta este, de fapt, o formă de bootstrap, după cum se poate vedea din următorul exemplu ^[1] :

„Să presupunem că doriți să preziceți vremea pentru sâmbătă și să aveți un model care să prezică vremea sâmbătă, având vremea disponibilă pentru fiecare zi a săptămânii. În mod normal, ați aștepta până sâmbătă și abia atunci ați regla toate modelele dvs. , când este, să zicem, vineri, ar trebui să aveți deja o idee bună despre cum ar putea fi vremea sâmbătă - și astfel să puteți schimba, să zicem, modelul de sâmbătă înainte de sosirea sâmbetei ".

Metodele de diferență de timp sunt strâns legate de modelul diferenței de timp al învățării animalelor ^[2] ^[3] ^[4] ^[5] ^[6] .

Formularea matematică

Metoda tabelară TD (0), una dintre metodele TD mai simple, estimează funcția valorii de stare a unei decizii Markov de stat finit (MDP) pe baza unei politici (sau politici) $\pi$ ${\ displaystyle \ pi}$ $\ pi$ . Este $V^{\pi }$ ${\ displaystyle V ^ {\ pi}}$ ${\ displaystyle V ^ {\ pi}}$ funcția valorii de stare a unui MDP care are stări $(s_{t})_{t\in \mathbb {N} }$ ${\ displaystyle (s_ {t}) _ {t \ in \ mathbb {N}}}$ ${\ displaystyle (s_ {t}) _ {t \ in \ mathbb {N}}}$ , recompense $(r_{t})_{t\in \mathbb {N} }$ ${\ displaystyle (r_ {t}) _ {t \ in \ mathbb {N}}}$ ${\ displaystyle (r_ {t}) _ {t \ in \ mathbb {N}}}$ și un factor de reducere $\gamma$ ${\ displaystyle \ gamma}$ $\gamă$ pentru politică $\pi$ ${\ displaystyle \ pi}$ $\ pi$ :

V^{\pi }(s)=E_{\pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}r_{t}{\Bigg |}s_{0}=s\right\}

{\ displaystyle V ^ {\ pi} (s) = E _ {\ pi} \ left \ {\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t} {\ Bigg | } s_ {0} = s \ right \}}

{\ displaystyle V ^ {\ pi} (s) = E _ {\ pi} \ left \ {\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t} {\ Bigg | } s_ {0} = s \ right \}}

$V^{\pi }$ ${\ displaystyle V ^ {\ pi}}$ ${\ displaystyle V ^ {\ pi}}$ satisface ecuația Hamilton-Jacobi-Bellman: ${\textstyle V^{\pi }(s)=E_{\pi }\{r_{0}+\gamma V^{\pi }(s_{1})|s_{0}=s\}}$ ${\ textstyle V ^ {\ pi} (s) = E _ {\ pi} \ {r_ {0} + \ gamma V ^ {\ pi} (s_ {1}) | s_ {0} = s \}}$ ${\ textstyle V ^ {\ pi} (s) = E _ {\ pi} \ {r_ {0} + \ gamma V ^ {\ pi} (s_ {1}) | s_ {0} = s \}}$ asa de $r_{0}+\gamma V^{\pi }(s_{1})$ ${\ displaystyle r_ {0} + \ gamma V ^ {\ pi} (s_ {1})}$ ${\ displaystyle r_ {0} + \ gamma V ^ {\ pi} (s_ {1})}$ este un estimator necondiționat (zero bias) pentru $V^{\pi }(s)$ ${\ displaystyle V ^ {\ pi} (s)}$ ${\ displaystyle V ^ {\ pi} (s)}$ . Această observație justifică următorul algoritm de estimare $V^{\pi }$ ${\ displaystyle V ^ {\ pi}}$ ${\ displaystyle V ^ {\ pi}}$ . Algoritmul inițializează un tabel $V(s)$ ${\ displaystyle V (s)}$ ${\ displaystyle V (s)}$ cu valori arbitrare, alegerea unei valori pentru fiecare dintre stările procesului Markov: este stabilită și o rată de învățare $\alpha$ ${\ displaystyle \ alpha}$ $\ alfa$ pozitiv. În acest moment, politica este evaluată $\pi$ ${\ displaystyle \ pi}$ $\ pi$ , și odată ce recompensa este obținută $r$ ${\ displaystyle r}$ $r$ , funcția de valoare a stării pentru vechea stare este actualizată utilizând următoarea regulă ^[7] :

V(s)\leftarrow V(s)+\alpha (\overbrace {r+\gamma V(s')} ^{\text{The TD target}}-V(s))

{\ displaystyle V (s) \ leftarrow V (s) + \ alpha (\ overbrace {r + \ gamma V (s ')} ^ {\ text {The TD target}} - V (s))}

{\ displaystyle V (s) \ leftarrow V (s) + \ alpha (\ overbrace {r + \ gamma V (s ')} ^ {\ text {The TD target}} - V (s))}

unde este $s$ ${\ displaystyle s}$ $s$ Și $s^{'}$ ${\ displaystyle s '}$ $e$ indica, respectiv, starea veche și noua.

TD-Lambda

TD-Lambda este un algoritm de învățare creat de Richard S. Sutton pe baza unei lucrări anterioare despre diferențele de timp de învățare realizate de Arthur Samuel ^[8] . Acest algoritm a fost celebru aplicat de Gerald Tesauro pentru a crea TD-Gammon, un program care a învățat cum să joace table la nivelul jucătorilor umani calificați ^[9] .

Parametrul $\lambda$ ${\ displaystyle \ lambda}$ $\ lambda$ poate presupune valori cuprinse între 0 și 1. Prin creșterea valorii lambda, se acordă o greutate mai mare recompenselor obținute în stări departe de cea curentă.

Notă

^ ^a ^b Richard Sutton, Învățarea de a prezice prin metodele diferențelor temporale , în Învățarea automată , vol. 3, nr. 1, 1988, pp. 9–44, DOI : 10.1007 / BF00115009 . (O versiune revizuită este disponibilă pe pagina de publicație a lui Richard Sutton Arhivat 30 martie 2017 la Internet Archive .)
^ Schultz, W, Dayan, P & Montague, PR., Un substrat neuronal de predicție și recompensă , în Știință , vol. 275, nr. 5306, 1997, pp. 1593–1599, DOI : 10.1126 / science.275.5306.1593 , PMID 9054347 .
^ PR Montague, P. Dayan și TJ Sejnowski, Un cadru pentru sistemele de dopamină mezencefalică bazat pe învățarea predictivă Hebbian ( PDF ), în The Journal of Neuroscience , vol. 16, n. 5, 1 martie 1996, pp. 1936–1947, DOI : 10.1523 / JNEUROSCI.16-05-01936.1996 , PMID 8774460 .
^ PR Montague, P. Dayan și SJ Nowlan, Utilizarea consolidării aperiodice pentru auto-organizare dirijată ( PDF ), în Advances in Neural Information Processing Systems , vol. 5, 1993, pp. 969–976.
^ PR Montague și TJ Sejnowski, Creierul predictiv: coincidența temporală și ordinea temporală în mecanismele de învățare sinaptice , în Învățare și memorie , vol. 1, nr. 1, 1994, pp. 1–33, PMID 10467583 .
^ TJ Sejnowski, P. Dayan și PR Montague, Predictive hebbian learning , în Proceedings of Eighth ACM Conference on Computational Learning Theory , 1995, pp. 15-18, DOI : 10.1145 / 230000/225300 / p15-sejnowski .
^ Reinforcement learning: An introduction ( PDF ), p. 130. Adus la 10 septembrie 2019 (arhivat din original la 12 iulie 2017) .
^ Richard Sutton și Andrew Barto, Reinforcement Learning , MIT Press, 1998, ISBN 978-0-585-02445-5 . Adus la 10 septembrie 2019 (Arhivat din original la 30 martie 2017) .
^ Gerald Tesauro, Temporal Difference Learning și TD-Gammon , în Communications of the ACM , vol. 38, nr. 3, martie 1995, pp. 58–68, DOI : 10.1145 / 203330.203343 . Adus la 8 februarie 2010 .

Elemente conexe

linkuri externe

Scholarpedia Diferența de timp Învățare
TD-Gammon
TD-Networks Research Group
Connect Four TDGravity Applet (+ versiune mobilă) - autodidact cu metoda TD-Leaf (combinație de TD-Lambda cu căutare superficială)
Auto-învățare Meta-Tic-Tac-Toe Exemplu de aplicație web care arată cum pot fi folosite diferențele de timp de învățare pentru a învăța constantele de evaluare a stării pentru un AI minimax jucând un simplu joc de societate.
Reinforcement Learning Problem , document care explică modul în care diferențele de timp de învățare pot fi utilizate pentru a accelera Q-learning
Simulator TD Simulator diferență de timp pentru condiționare clasică

Portal IT

Portalul de matematică

Portalul de statistici

[RSutton-1988-1] Richard Sutton, Învățarea de a prezice prin metodele diferențelor temporale , în Învățarea automată , vol. 3, nr. 1, 1988, pp. 9–44, DOI : 10.1007 / BF00115009 . (O versiune revizuită este disponibilă pe pagina de publicație a lui Richard Sutton Arhivat 30 martie 2017 la Internet Archive .)

[WSchultz-1997-2] Schultz, W, Dayan, P & Montague, PR., Un substrat neuronal de predicție și recompensă , în Știință , vol. 275, nr. 5306, 1997, pp. 1593–1599, DOI : 10.1126 / science.275.5306.1593 , PMID 9054347 .

[:0-3] PR Montague, P. Dayan și TJ Sejnowski, Un cadru pentru sistemele de dopamină mezencefalică bazat pe învățarea predictivă Hebbian ( PDF ), în The Journal of Neuroscience , vol. 16, n. 5, 1 martie 1996, pp. 1936–1947, DOI : 10.1523 / JNEUROSCI.16-05-01936.1996 , PMID 8774460 .

[:1-4] PR Montague, P. Dayan și SJ Nowlan, Utilizarea consolidării aperiodice pentru auto-organizare dirijată ( PDF ), în Advances in Neural Information Processing Systems , vol. 5, 1993, pp. 969–976.

[:2-5] PR Montague și TJ Sejnowski, Creierul predictiv: coincidența temporală și ordinea temporală în mecanismele de învățare sinaptice , în Învățare și memorie , vol. 1, nr. 1, 1994, pp. 1–33, PMID 10467583 .

[:3-6] TJ Sejnowski, P. Dayan și PR Montague, Predictive hebbian learning , în Proceedings of Eighth ACM Conference on Computational Learning Theory , 1995, pp. 15-18, DOI : 10.1145 / 230000/225300 / p15-sejnowski .

[7] Reinforcement learning: An introduction ( PDF ), p. 130. Adus la 10 septembrie 2019 (arhivat din original la 12 iulie 2017) .

[RSutton-1998-8] Richard Sutton și Andrew Barto, Reinforcement Learning , MIT Press, 1998, ISBN 978-0-585-02445-5 . Adus la 10 septembrie 2019 (Arhivat din original la 30 martie 2017) .

[CACM-9] Gerald Tesauro, Temporal Difference Learning și TD-Gammon , în Communications of the ACM , vol. 38, nr. 3, martie 1995, pp. 58–68, DOI : 10.1145 / 203330.203343 . Adus la 8 februarie 2010 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

V · D · M Învățare automată
Probleme	Clasificarea · Regresie · asociere Reguli · Învățare nesupravegheați · Supravegheat de învățare · Reinforcement Learning · învățare profundă
Învățare nesupravegheată	Clustering · clustering Ierarhica · K mijloace · Așteptarea maximizare · DBSCAN · schimbare medie · antagonist generativă rețea (CGAN · cycleGAN VAE-GAN)
Învățare supravegheată	Arborele decizional · Pădure aleatorie · CRF · HMM · KNN · Clasificator bayesian · Rețea neuronală artificială · Regresie liniară · Regresie logistică · PGM · SVM
Consolidarea învățării	Q-learning · SARSA · TD
Reducerea dimensiunii	Analiza factorilor · CCA · ICA · LDA · PCA · Selectați caracteristici · Extracție caracteristici · t-SNE
Rețele neuronale artificiale	Perceptron · RBF · N · FFN · Rețea Hopfield · MLP · RNN ( LSTM ) · RBM · SOM · CNN · TDNN · SNN
Software	Keras · Microsoft Cognitive Toolkit · scikit-learn · TensorFlow · Theano · Torch · Weka
Alte	Algoritm genetic · PSO · Caracteristică