AlphaZero

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

AlphaZero este un algoritm de inteligență artificială bazat pe tehnici de învățare automată dezvoltate de Google DeepMind . Este o generalizare a AlphaGo Zero , un predecesor dezvoltat special pentru jocul go și la rândul său o evoluție a AlphaGo , primul software capabil să obțină performanțe supraomenești în jocul go . Similar cu AlphaGo Zero, folosește Monte Carlo Tree Search (MCTS) ghidat de o rețea neuronală convoluțională profundă , pregătită pentru întărire . [1]

La 5 decembrie 2017, echipa DeepMind a publicat o preimprimare pe arXiv în care sunt prezentate unele dintre rezultatele obținute de AlphaZero în diferite jocuri de masă clasice, atingând un nivel supraomenesc în jocul de șah , shōgi și mergând cu câteva ore de antrenament , puterea depășirea joc de programe campion mondial în disciplinele respective:. batog uscat de șah și Elmo / yaneura ou pentru shogi (ambele motoare bazate pe algoritmi tradiționale, și anume căutare copac cu tăiere alfa-beta ), și AlphaGo Zero pentru du - te. În special, un caz de AlphaZero a câștigat un meci de 100 de jocuri împotriva Stockfish, câștigând 25 pentru alb, 3 pentru negru și o remiză în restul jocurilor. Autorii estimează că AlphaZero a depășit puterea de joc a lui Stockfish după primele patru ore de antrenament (aproximativ 300.000 de mini-loturi). [1] [2] [3] Versiunea finală a articolului a fost publicată în Science în numărul din decembrie 2018. [4]

Relația cu AlphaGo Zero

AlphaZero este o generalizare a AlphaGo Zero, algoritmul pentru jocul de evoluție al AlphaGo . Poate fi aplicat la o varietate de jocuri de societate și a fost testat de către autori în jocul shōgi , șah și go . Principalele diferențe ale AlphaZero în comparație cu predecesorul său sunt: [1]

  • AlphaGo Zero folosește tehnici de optimizare Bayesian pentru a regla fin parametrii de căutare în fiecare joc, în timp ce AlphaZero folosește parametri constanți în toate jocurile.
  • În antrenament, jocurile AlphaGo Zero sunt generate de cel mai bun jucător obținut în timpul iterațiilor anterioare, iar după fiecare iterație performanța noii instanțe este măsurată în raport cu cel mai bun jucător , înlocuindu-l dacă îl poate învinge cu o marjă de cel puțin 55% . AlphaZero folosește în schimb o singură rețea neuronală care este actualizată continuu, fără a aștepta sfârșitul fiecărei iterații.
  • Go (spre deosebire de șah și shogi) este simetric pentru anumite reflexii și rotații; AlphaGo Zero exploatează simetriile atât în ​​faza de antrenament (prin efectuarea măririi datelor prin opt rotații și reflecții posibile pentru fiecare poziție), cât și în faza de evaluare (prin aplicarea unei simetrii aleatorii la intrare înainte de a o trimite la rețeaua neuronală, pentru a anula părtinire datorată rotației sau reflexiei). Cu toate acestea, AlphaZero nu poate profita de aceste soluții tehnice.
  • Un joc de șah (spre deosebire de go) se poate încheia cu o remiză ( remiză ); în timp ce AlphaGo estimează și optimizează probabilitatea de a câștiga, AlphaZero estimează și optimizează rezultatul scontat al meciului (exprimat în formă numerică).

Rezultate experimentale

AlphaZero a fost pionier în jocul de șah, shogi și go, folosind trei instanțe distincte antrenate separat pentru 700.000 de mini-loturi de 4096 de înregistrări pe un cluster de prima generație de 5000 TPU pentru crearea jocului și 64 de a doua generație pentru formarea rețelei neuronale , folosind 800 de simulări pentru fiecare MCTS și o rată de învățare inițială de 0,2, redusă progresiv (prin împărțirea la zece) de trei ori în timpul antrenamentului. Timpul efectiv de antrenament a diferit în funcție de dimensiunea tabloului de joc și a fost de 9 ore pentru șah, 12 pentru shogi și 34 pentru go. Evaluarea a fost efectuată rulând AlphaZero pe o singură mașină echipată cu 4 TPU-uri și folosind ca oponenți Stockfish 8 pentru șah și cască WCSC27 cu funcția de căutare yaneura ou 2017 Early KPPT 4.73 64AVX2 pentru shogi, în ambele cazuri cu 64 de fire de căutare și 1 GB de hash și, pentru deplasare, o instanță de AlphaGo Zero instruită timp de trei zile și care rulează pe aceeași configurație hardware ca AlphaZero. Jocurile s-au jucat cu un minut pe mișcare, fără a medita , deschizând cartea sau baza de masă . Setările de abandon au fost active pentru toate software-urile, egale cu -900 de cenți pentru 10 mutări consecutive în cazul Stockfish și elmo și probabilitatea de a câștiga mai puțin de 5% pentru AlphaZero. [1]

AlphaZero a jucat în astfel de condiții un meci de 100 de jocuri împotriva fiecărui adversar, generând rezultatele în tabelul următor. În faza de cercetare, AlphaZero analizează o cantitate de poziții cu trei ordine de mărime mai mici decât algoritmii tradiționali bazate pe căutarea în copaci cu tăiere, sau aproximativ 80.000 de poziții pe secundă în șah și 40.000 în shogi, în timp ce Stockfish analizează aproximativ 70 de milioane de poziții pe secundă și cască 35 de milioane. [1]

Joc alb Rezultat Negru
Şah AlphaZero 25 25 0 Batog uscat
Batog uscat 0 47 3 AlphaZero
Shogi AlphaZero 43 2 5 cască
cască 3 0 47 AlphaZero
Merge AlphaZero 31 - 19 AlphaGo Zero
AlphaGo Zero 21 - 29 AlphaZero

A fost efectuat un experiment în care AlphaZero s-a confruntat cu Stockfish în 12 meciuri de 100 de jocuri, în fiecare dintre care poziția de pornire a fost una dintre cele 12 cele mai frecvente deschideri în jocul uman (cu peste 100.000 de intrări în baza de date online 365Chess.com ). [5] Autorii au evidențiat modul în care AlphaZero a descoperit și a jucat toate aceste deschideri în faza de antrenament. [1]

Deschidere ECOU alb Rezultat Negru
Deschidere engleză A10 AlphaZero 20 30 0 Batog uscat
Batog uscat 2 40 8 AlphaZero
Gambit al unei femei D06 AlphaZero 16 34 0 Batog uscat
Batog uscat 2 47 1 AlphaZero
Meciul feminin A46 AlphaZero 24 26 0 Batog uscat
Batog uscat 0 47 3 AlphaZero
Meciul feminin E00 AlphaZero 17 33 0 Batog uscat
Batog uscat 1 44 5 AlphaZero
Apărarea Indiei de Est E61 AlphaZero 16 34 0 Batog uscat
Batog uscat 2 48 0 AlphaZero
Apărarea franceză C00 AlphaZero 39 11 0 Batog uscat
Batog uscat 4 46 0 AlphaZero
Deschidere ECOU alb Rezultat Negru
Apărare siciliană B50 AlphaZero 17 32 1 Batog uscat
Batog uscat 3 43 4 AlphaZero
Apărare siciliană B40 AlphaZero 17 31 2 Batog uscat
Batog uscat 7 40 3 AlphaZero
Apărare siciliană B30 AlphaZero 11 39 0 Batog uscat
Batog uscat 1 46 3 AlphaZero
Meci spaniol C60 AlphaZero 27 22 1 Batog uscat
Batog uscat 0 44 6 AlphaZero
Apărare Caro-Kann B10 AlphaZero 25 25 1 Batog uscat
Batog uscat 1 45 4 AlphaZero
Deschiderea Réti A05 AlphaZero 13 36 1 Batog uscat
Batog uscat 0 43 7 AlphaZero

Reacții

Rezultatele AlphaZero au primit o acoperire media excelentă. Presa a subliniat timpul de antrenament relativ limitat necesar pentru a atinge forța de joc supraomenească (în ceea ce privește cele patru ore necesare pentru a depăși puterea de joc a lui Stockfish, Telegraph îl etichetează ca fiind „mai scurt decât cel dintre micul dejun și prânz.”) [2] [6] [ 7] [8] [9] Este un moment semnificativ, dar echivalent cu o cantitate enormă de calcule: instruirea a fost de fapt efectuată pe o configurație masiv paralelă (5000 TPU generația I plus generația 64) și cantitatea de calcul este echivalent cu aproximativ doi ani de timp pe mașină pe un singur TPU, corespunzând unui timp mult mai lung pe un GPU comercial și chiar mai mult pe un procesor . [10] Expertul în AI, Joanna Bryson, a menționat că, datorită abilităților bune de publicitate ale Google, AlphaZero face deja o mare stropire în atenția provocatorilor. "Nu este vorba doar de a avea cei mai buni programatori. Este, de asemenea, o problemă eminamente politică, deoarece contribuie la întărirea poziției Google în negocierile cu guvernele și autoritățile de reglementare AI". [9]

Lumea șahului și-a exprimat mai multe puncte de vedere pozitive. [11] Garri Kasparov , fost campion mondial și mereu interesat de inteligența artificială aplicată șahului, a definit rezultatul ca fiind excepțional. [12] [13] GM-ul danez Peter Heine Nielsen a spus într-un interviu acordat BBC "M-am întrebat întotdeauna ce s-ar întâmpla dacă o specie superioară ar ateriza pe planeta noastră și ne-ar arăta cum să jucăm șah. Acum știu". [9] GM-ul norvegian Jon Ludvig Hammer a numit AlphaZero „un nebun înainte” cu un profund sentiment al jocului pozițional. [2] O opinie similară a fost exprimată de Demis Hassabis , cofondator al DeepMind și jucător de șah, care etichetează stilul de joc al AlphaZero drept străin: „Uneori câștigă oferind sacrificii contraintuitive, de exemplu prin sacrificarea reginei și episcopului pentru a profita de un avantaj pozițional. ". [14]

Critici

Rezultatele au atras, de asemenea, perplexitate din punct de vedere metodologic, datorită configurației experimentale și a diferitelor tipuri de hardware utilizate. Hikaru Nakamura și Larry Kaufman (care au contribuit la dezvoltarea Rybka și Komodo , motoare UCI puternice) au evidențiat modul în care absența unei cărți de deschidere a afectat negativ performanța Stockfish, care este optimizată pentru a profita de ea, în timp ce dimpotrivă AlphaZero nu folosește un mecanism similar (Kaufman subliniază că, de fapt, AlphaZero învață teoria deschiderii de la zero în faza de antrenament), ipotezând că, în condiții optime, decalajul final în scor ar putea fi mai mic. Cei doi exprimă, de asemenea, îndoieli cu privire la modul în care arhitectura hardware diferită și puterea relativă de calcul disponibilă pentru software au afectat rezultatul. [12]

Tord Romstad, unul dintre dezvoltatorii originali ai Stockfish, a subliniat modul în care condițiile de joc penalizau pentru Stockfish, care nu este optimizat pentru jocul cu timp fix pe mișcare, beneficiind în schimb de a avea un timp fix pe joc și de a distribui timpul. a mișcărilor după cum este necesar. Rețineți, de asemenea, faptul că versiunea motorului utilizată în experimente avea un an. Pe de altă parte, el observă, de asemenea, timpul scurt disponibil echipei pentru a obține rezultatul, argumentând că AlphaZero ar fi putut obține rezultate chiar mai bune cu mai multă muncă pusă la dispoziție pentru proiect și notează importanța reprezentată de introducerea unui sistem complet nou abordare, atât din punct de vedere hardware, cât și software, a problemei jocului de șah. [15]

Alte critici metodologice privesc reproductibilitatea limitată a experimentului, deoarece codul sursă AlphaZero nu este accesibil și hardware-ul utilizat nu este disponibil comercial. Mai mult, printre exemplele de jocuri publicate nu există înfrângeri, a căror analiză ar fi utilă pentru continuarea cercetării în încercarea de a îmbunătăți punctele slabe, motiv pentru care este o bună practică în publicațiile științifice să evidențieze și criticitățile unui algoritm precum și punctele sale forte. [10]

În ceea ce privește shogi, critici similare se referă la faptul că memoria alocată pentru tabelul hash al elmo a fost prea mică și că setările pentru abandon (în special în cazul nyū gyoku ) nu au fost optime. [16] [17]

Notă

  1. ^ a b c d e f ( EN ) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis, Mastering Șah și Shogi prin auto-joc cu un algoritm general de învățare a întăririi ( PDF ), 5 decembrie 2017.
  2. ^ A b c (EN) Sarah Knapton, Leon Watson, Cunoștințe întregi despre șah uman învățate și depășite de AlphaZero de la DeepMind în patru ore , Telegraph.co.uk , 6 decembrie 2017. Adus pe 6 decembrie 2017.
  3. ^ James Vincent, AI DeepMind a devenit un jucător de șah supraomenesc în câteva ore, doar pentru distracție , The Verge , 6 decembrie 2017. Accesat la 6 decembrie 2017 .
  4. ^ (EN) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis, Un algoritm general de învățare pentru întărire care stăpânește șah, shogi și Go through self-play , în Știință , vol. 362, nr. 6419, 7 decembrie 2018, pp. 1140-1144, DOI : 10.1126 / science.aar6404 .
  5. ^ Baza de date de jocuri de șah online , la 365chess.com .
  6. ^ Nadeem Badshah, robotul DeepMind de la Google devine mare maestru de șah în patru ore , în The Times of London , 7 decembrie 2017. Accesat la 7 decembrie 2017 .
  7. ^ (RO) Ultimul spectacol al Alphabet AI are mai mult de un ponei truc , în WIRED, 6 decembrie 2017. Adus pe 7 decembrie 2017.
  8. ^ Nathan Mattise, DeepMind AI are nevoie de doar 4 ore de auto-antrenament pentru a deveni un șef de șah , la arstechnica.com .
  9. ^ a b c Google AI „supraomenesc” revendică coroana de șah , în BBC News , 6 decembrie 2017. Adus pe 7 decembrie 2017 .
  10. ^ a b Jose Camacho Collados, Este AlphaZero într-adevăr o descoperire științifică în AI? , pe medium.com .
  11. ^ AlphaZero: Reacții de la GM de top, autorul Stockfish , la chess.com .
  12. ^ a b AlphaZero de la Google distruge Stockfish în 100-Game Match , la Chess.com . Adus pe 7 decembrie 2017 .
  13. ^ Samuel Gibbs, AlphaZero AI bate programul de șah campion după ce s-a predat în patru ore , în The Guardian , 7 decembrie 2017. Accesat la 8 decembrie 2017 .
  14. ^ (EN) Will Knight, șahul „Alien” al lui Alpha Zero, arată puterea și particularitatea AI , în MIT's Technology Review , 8 decembrie 2017. Adus pe 11 decembrie 2017.
  15. ^ AlphaZero: Reactions From Top GMs, Stockfish Author , at chess.com , chess.com , 8 decembrie 2017. Accesat pe 9 decembrie 2017 .
  16. ^ Unele îngrijorări cu privire la condițiile de potrivire dintre AlphaZero și motorul Shogi , suコ ン ピ ュ ー タ 将 棋 レ ー テ ィ ン グ, "uuunuuun". Adus la 9 decembrie 2017 (arhivat din original la 8 decembrie 2017) . (via ( EN )瀧 澤 誠 @elmo (@mktakizawa) | Twitter , în mktakizawa (elmo developer) , 9 decembrie 2017. Accesat 11 decembrie 2017. )
  17. ^ DeepMind 社 が や ね う ら 王 に 注目 し 始 め た よ う で す, pe yaneuraou.yaneu.com , dezvoltatorul YaneuraOu, o componentă de căutare utilizată de elmo, 7 decembrie 2017. Adus pe 9 decembrie 2017 .

Elemente conexe

linkuri externe