Se opune rețelei generative

În domeniul „ învățării automate ”, se definește rețeaua opusă generativă sau rețea generativă antagonică sau contradictorie rețea generativă sau rețea adversară generativă engleză (GAN), o clasă de metode, introdusă pentru prima dată de la Ian Goodfellow , ^[1] în care două rețelele neuronale sunt instruite competitiv într-un cadru de joc minimax . Acest tip de cadru permite rețelei neuronale să învețe cum să genereze date noi cu aceeași distribuție ca datele utilizate în faza de antrenament. De exemplu, este posibil să se obțină o rețea neuronală capabilă să genereze fețe umane hiper-realiste, ^[2] așa cum a demonstrat în 2018 NVIDIA Corporation , un producător de GPU .

Metodă

În versiunea sa originală, o rețea adversă generativă este compusă din două componente: un model generativ sau un generator $G.$ ${\ displaystyle G}$ $G.$ și un model discriminatoriu sau discriminatoriu $D.$ ${\ displaystyle D}$ $D.$ , ambele realizate prin rețele neuronale. Scopul modelului generativ este de a produce date noi, în timp ce modelul discriminativ învață cum să distingem datele reale de cele generate artificial. În special, având în vedere un spațiu latent ${\boldsymbol {z}}$ ${\ displaystyle {\ boldsymbol {z}}}$ ${\ displaystyle {\ boldsymbol {z}}}$ , având o distribuție a priori $p_{\boldsymbol {z}}({\boldsymbol {z}})$ ${\ displaystyle p _ {\ boldsymbol {z}} ({\ boldsymbol {z}})}$ ${\ displaystyle p _ {\ boldsymbol {z}} ({\ boldsymbol {z}})}$ , generatorul reprezintă o funcție diferențiată $G({\boldsymbol {z}};\theta _{g})$ ${\ displaystyle G ({\ boldsymbol {z}}; \ theta _ {g})}$ ${\ displaystyle G ({\ boldsymbol {z}}; \ theta _ {g})}$ care scoate noile date în funcție de o anumită distribuție $p_{g}$ ${\ displaystyle p_ {g}}$ ${\ displaystyle p_ {g}}$ , unde este $\theta _{g}$ ${\ displaystyle \ theta _ {g}}$ ${\ displaystyle \ theta _ {g}}$ sunt parametrii modelului generativ. Discriminatorul reprezintă o funcție diferențiată $D({\boldsymbol {x}};\theta _{d})$ ${\ displaystyle D ({\ boldsymbol {x}}; \ theta _ {d})}$ ${\ displaystyle D ({\ boldsymbol {x}}; \ theta _ {d})}$ , unde este $\theta _{d}$ ${\ displaystyle \ theta _ {d}}$ ${\ displaystyle \ theta _ {d}}$ sunt parametrii modelului discriminator, care produce probabilitatea ca ${\boldsymbol {x}}$ ${\ displaystyle {\ boldsymbol {x}}}$ ${\ displaystyle {\ boldsymbol {x}}}$ provine din distribuirea datelor de instruire $p_{data}$ ${\ displaystyle p_ {data}}$ ${\ displaystyle p_ {data}}$ . Scopul este de a obține un generator care să fie un bun estimator al $p_{data}$ ${\ displaystyle p_ {data}}$ ${\ displaystyle p_ {data}}$ . Când se întâmplă acest lucru, discriminatorul este „păcălit” și nu mai poate distinge eșantioanele provenite $p_{data}$ ${\ displaystyle p_ {data}}$ ${\ displaystyle p_ {data}}$ de la cei din $p_{g}$ ${\ displaystyle p_ {g}}$ ${\ displaystyle p_ {g}}$ .

Cheia pentru realizarea acestui lucru este formarea competitivă. Rețeaua discriminativă este instruită pentru a maximiza probabilitatea clasificării corecte a probelor din datele de instruire și din probele generate. În același timp, rețeaua generativă este instruită prin minimizare

log(1-D(G({\boldsymbol {z}}))

{\ displaystyle log (1-D (G ({\ boldsymbol {z}}))}

{\ displaystyle log (1-D (G ({\ boldsymbol {z}}))}

,

și astfel maximizarea probabilității discriminatorului de a lua în considerare probele produse de rețeaua generativă, adică ${\boldsymbol {x}}\sim p_{g}$ ${\ displaystyle {\ boldsymbol {x}} \ sim p_ {g}}$ ${\ displaystyle {\ boldsymbol {x}} \ sim p_ {g}}$ , ca provenind din $p_{data}$ ${\ displaystyle p_ {data}}$ ${\ displaystyle p_ {data}}$ .

Prin urmare, învățarea constă în optimizarea unui joc minimax cu doi jucători (D și G):

\min _{G}\max _{D}\mathbb {E} _{{\boldsymbol {x}}\sim p_{data}({\boldsymbol {x}})}[\log D({\boldsymbol {x}})]+\mathbb {E} _{{\boldsymbol {z}}\sim p_{\boldsymbol {z}}({\boldsymbol {z}})}[\log(1-D(G({\boldsymbol {z}})))]

{\ displaystyle \ min _ {G} \ max _ {D} \ mathbb {E} _ {{\ boldsymbol {x}} \ sim p_ {data} ({\ boldsymbol {x}})} [\ log D ( {\ boldsymbol {x}})] + \ mathbb {E} _ {{\ boldsymbol {z}} \ sim p _ {\ boldsymbol {z}} ({\ boldsymbol {z}})} [\ log (1 - D (G ({\ boldsymbol {z}})))]}}

{\ displaystyle \ min _ {G} \ max _ {D} \ mathbb {E} _ {{\ boldsymbol {x}} \ sim p_ {data} ({\ boldsymbol {x}})} [\ log D ( {\ boldsymbol {x}})] + \ mathbb {E} _ {{\ boldsymbol {z}} \ sim p _ {\ boldsymbol {z}} ({\ boldsymbol {z}})} [\ log (1 - D (G ({\ boldsymbol {z}})))]}}

,

care are un ansamblu foarte bun pentru $p_{g}=p_{data}$ ${\ displaystyle p_ {g} = p_ {data}}$ ${\ displaystyle p_ {g} = p_ {data}}$ . ^[1]

Cele două rețele sunt antrenate alternativ prin propagarea înapoi a erorii , păstrând neschimbați parametrii modelului generativ în timpul antrenamentului discriminatorului și, invers, păstrând parametrii rețelei discriminative neschimbate în timpul antrenamentului generatorului.

Variante

În ultimii ani, a existat o dezvoltare rapidă a metodelor care reprezintă versiuni modificate ale cadrului original.

Rețea condiționată de adversar generativ

O rețea contradictorie generativă condiționată (cGAN) este o extensie a GAN în care atât generatorul, cât și discriminatorul sunt condiționate prin utilizarea unui fel de informații suplimentare. ${\boldsymbol {y}}$ ${\ displaystyle {\ boldsymbol {y}}}$ ${\ displaystyle {\ boldsymbol {y}}}$ . Funcția obiectivă devine:

\min _{G}\max _{D}\mathbb {E} _{{\boldsymbol {x}}\sim p_{data}({\boldsymbol {x}})}[\log D({\boldsymbol {x}}|{\boldsymbol {y}})]+\mathbb {E} _{{\boldsymbol {z}}\sim p_{\boldsymbol {z}}({\boldsymbol {z}})}[\log(1-D(G({\boldsymbol {z}}|{\boldsymbol {y}})))]

{\ displaystyle \ min _ {G} \ max _ {D} \ mathbb {E} _ {{\ boldsymbol {x}} \ sim p_ {data} ({\ boldsymbol {x}})} [\ log D ( {\ boldsymbol {x}} | {\ boldsymbol {y}})] + \ mathbb {E} _ {{\ boldsymbol {z}} \ sim p _ {\ boldsymbol {z}} ({\ boldsymbol {z} })} [\ log (1-D (G ({\ boldsymbol {z}} | {\ boldsymbol {y}})))}}

{\ displaystyle \ min _ {G} \ max _ {D} \ mathbb {E} _ {{\ boldsymbol {x}} \ sim p_ {data} ({\ boldsymbol {x}})} [\ log D ( {\ boldsymbol {x}} | {\ boldsymbol {y}})] + \ mathbb {E} _ {{\ boldsymbol {z}} \ sim p _ {\ boldsymbol {z}} ({\ boldsymbol {z} })} [\ log (1-D (G ({\ boldsymbol {z}} | {\ boldsymbol {y}})))}}

.

De exemplu, este posibil să se genereze o nouă imagine a unei anumite cifre scrise de mână, oferind eticheta referitoare la clasificarea sa, adică un scalar în $[0,9]$ ${\ displaystyle [0,9]}$ ${\ displaystyle [0,9]}$ , ca intrare suplimentară în cele două rețele, ^[3] sau generează automat imagini ale mediilor externe pornind de la un aspect semantic al scenei. ^[4] În general, posibilele câmpuri de aplicare se încadrează în domeniul problemelor de traducere a unei imagini în alta: ^[5] ^[6] generarea de fotografii realiste pornind de la etichete semantice, generarea de imagini aeriene pornind de la hărți urbane (pt. exemplu Google Maps ), generație de imagini realiste pornind de la contururile scenei sau de la un desen, pictură și multe altele.

VAE-GAN

Această clasă de metode se bazează pe unirea autoencoderului variațional sau auto-codificatorilor variaționali englezi (VAE) și GAN. În general, un discriminator este utilizat pentru a distinge între exemplele de ieșire VAE și cele reale. În acest fel, în loc să utilizeze o funcție de eroare definită, discriminatorul permite să învețe o funcție de asemănare între exemplul reconstruit în ieșire din VAE și cel furnizat în intrare. Această abordare are ca rezultat reconstituiri mai bune decât un singur VAE. ^[7]

cycleGAN

Un cycleGAN, din rețeaua engleză generativă adversară generatoare de cicluri, ^[8] este o evoluție a rețelei generative adversare în care antrenamentul are loc într-o manieră nesupravegheată . În acest fel, este posibil să învățați un model capabil să traducă o imagine dintr-un domeniu $X$ ${\ displaystyle X}$ $X$ altcuiva $Da$ ${\ displaystyle Y}$ $Da$ , și invers, fără a fi nevoie să folosiți imagini țintă, adesea indisponibile, în timpul fazei de antrenament . Modelul este format din două generatoare $G:X\rightarrow Y$ ${\ displaystyle G: X \ rightarrow Y}$ ${\ displaystyle G: X \ rightarrow Y}$ Și $F:Y\rightarrow X$ ${\ displaystyle F: Y \ rightarrow X}$ ${\ displaystyle F: Y \ rightarrow X}$ pentru a traduce, respectiv, imagini din domeniu $X$ ${\ displaystyle X}$ $X$ la domeniu $Da$ ${\ displaystyle Y}$ $Da$ și invers și de doi discriminatori, $D_{X}$ ${\ displaystyle D_ {X}}$ ${\ displaystyle D_ {X}}$ Și $D_{Y}$ ${\ displaystyle D_ {Y}}$ ${\ displaystyle D_ {Y}}$ , pentru a face distincția între exemplele generate și cele reale pentru fiecare domeniu. În timpul antrenamentului, pe lângă funcția obișnuită a adversarului, următoarea funcție de consistență este minimizată:

{\mathcal {L}}(G,F)=\mathbb {E} _{x\sim p_{\text{data}}(x)}\left[\|F(G(x))-x\|_{1}\right]+\mathbb {E} _{y\sim p_{\text{data}}(y)}\left[\|G(F(y))-y\|_{1}\right]

{\ displaystyle {\ mathcal {L}} (G, F) = \ mathbb {E} _ {x \ sim p _ {\ text {data}} (x)} \ left [\ | F (G (x) ) -x \ | _ {1} \ right] + \ mathbb {E} _ {y \ sim p _ {\ text {data}} (y)} \ left [\ | G (F (y)) - y \ | _ {1} \ right]}

{\ displaystyle {\ mathcal {L}} (G, F) = \ mathbb {E} _ {x \ sim p _ {\ text {data}} (x)} \ left [\ | F (G (x) ) -x \ | _ {1} \ right] + \ mathbb {E} _ {y \ sim p _ {\ text {data}} (y)} \ left [\ | G (F (y)) - y \ | _ {1} \ right]}

.

Ideea este că dai două poze $x\in X$ ${\ displaystyle x \ în X}$ $x \ în X$ Și $y\in Y$ ${\ displaystyle y \ in Y}$ $y \ în Y$ , aplicând cei doi generatori în cascadă $F(G(x))$ ${\ displaystyle F (G (x))}$ ${\ displaystyle F (G (x))}$ Și $G(F(y))$ ${\ displaystyle G (F (y))}$ ${\ displaystyle G (F (y))}$ imaginile respective se obțin din nou $X$ ${\ displaystyle x}$ $X$ Și $y$ ${\ displaystyle y}$ $y$ . Acest tip de model este aplicat cu succes în problemele în care nu există date de antrenament asociate, adică atunci când nu sunt disponibile pentru fiecare element al unui domeniu $X$ ${\ displaystyle X}$ $X$ echivalentul său în domeniul țintă $Da$ ${\ displaystyle Y}$ $Da$ (de exemplu, transfer de stil de la o imagine la alta).

Alte variante

Există multe alte variații ale cadrului de bază. În special, numeroase metode s-au specializat în funcție de domeniul aplicației, care diferă atât din punctul de vedere al arhitecturii rețelei, cât și de funcția obiectivă adoptată în timpul antrenamentului. Dezvoltarea rețelelor generative opuse a avut loc mai ales în câmpul viziunii artificiale , în care acestea au fost puternic folosite de la prima lor apariție. ^[9]

Elemente conexe

Învățarea adversară a mașinilor

Notă

^ ^a ^b Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville și Yoshua Bengio, Generative Adversarial Nets ( PDF ), în Z. Ghahramani, M. Welling, C. Cortes , ND Lawrence, KQ Weinberger (eds.) (Eds.), Advances in Neural Information Processing Systems 27 , Curran Associates, Inc., 2014, pp. 2672-2680. Adus pe 2 iulie 2019 .
^ Tero Karras, Samuli Laine și Timo Aila, A Style-Based Generator Architecture for Generative Adversarial Networks , în arXiv: 1812.04948 [cs, stat] , 12 decembrie 2018. Accesat 2 iulie 2019 .
^ Mehdi Mirza și Simon Osindero, Conditional Generative Adversarial Nets , în arXiv: 1411.1784 [cs, stat] , 6 noiembrie 2014. Accesat la 3 iulie 2019 .
^ Levent Karacan, Zeynep Akata, Aykut Erdem și Erkut Erdem, Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts , în arXiv: 1612.00215 [cs] , 1 decembrie 2016. Accesat 4 iulie 2019 .
^ Phillip Isola, Jun-Yan Zhu, Tinghui Zhou și Alexei A. Efros, Image-to-Image Translation with Conditional Adversarial Networks , în arXiv: 1611.07004 [cs] , 21 noiembrie 2016. Accesat la 4 iulie 2019 .
^ Chaoyue Wang, Chang Xu, Chaohui Wang și Dacheng Tao, Rețele adversare perceptive pentru transformarea imagine-la-imagine , în IEEE Transactions on Image Processing , vol. 27, n. 8, 2018-08, pp. 4066–4079, DOI : 10.1109 / TIP.2018.2836316 , ISSN 1057-7149 ( WC ACNP ) . Adus pe 4 iulie 2019 .
^ Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle și Ole Winther, Autoencodare dincolo de pixeli folosind o metrică de similitudine învățată , în arXiv: 1512.09300 [cs, stat] , 31 decembrie 2015. Adus pe 5 iulie 2019 .
^ Jun-Yan Zhu, Taesung Park, Phillip Isola și Alexei A. Efros, Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks , în arXiv: 1703.10593 [cs] , 30 martie 2017. Accesat 4 iulie 2019 .
^ Zhengwei Wang, Qi She și Tomas E. Ward, Generative Adversarial Networks: A Survey and Taxonomy , în arXiv: 1906.01529 [cs] , 4 iunie 2019. Accesat pe 5 iulie 2019 .

Alte proiecte

Wikimedia Commons conține imagini sau alte fișiere din rețeaua generativă opusă

[GAN-1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville și Yoshua Bengio, Generative Adversarial Nets ( PDF ), în Z. Ghahramani, M. Welling, C. Cortes , ND Lawrence, KQ Weinberger (eds.) (Eds.), Advances in Neural Information Processing Systems 27 , Curran Associates, Inc., 2014, pp. 2672-2680. Adus pe 2 iulie 2019 .

[2] Tero Karras, Samuli Laine și Timo Aila, A Style-Based Generator Architecture for Generative Adversarial Networks , în arXiv: 1812.04948 [cs, stat] , 12 decembrie 2018. Accesat 2 iulie 2019 .

[3] Mehdi Mirza și Simon Osindero, Conditional Generative Adversarial Nets , în arXiv: 1411.1784 [cs, stat] , 6 noiembrie 2014. Accesat la 3 iulie 2019 .

[4] Levent Karacan, Zeynep Akata, Aykut Erdem și Erkut Erdem, Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts , în arXiv: 1612.00215 [cs] , 1 decembrie 2016. Accesat 4 iulie 2019 .

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou și Alexei A. Efros, Image-to-Image Translation with Conditional Adversarial Networks , în arXiv: 1611.07004 [cs] , 21 noiembrie 2016. Accesat la 4 iulie 2019 .

[6] Chaoyue Wang, Chang Xu, Chaohui Wang și Dacheng Tao, Rețele adversare perceptive pentru transformarea imagine-la-imagine , în IEEE Transactions on Image Processing , vol. 27, n. 8, 2018-08, pp. 4066–4079, DOI : 10.1109 / TIP.2018.2836316 , ISSN 1057-7149 ( WC ACNP ) . Adus pe 4 iulie 2019 .

[7] Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle și Ole Winther, Autoencodare dincolo de pixeli folosind o metrică de similitudine învățată , în arXiv: 1512.09300 [cs, stat] , 31 decembrie 2015. Adus pe 5 iulie 2019 .

[8] Jun-Yan Zhu, Taesung Park, Phillip Isola și Alexei A. Efros, Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks , în arXiv: 1703.10593 [cs] , 30 martie 2017. Accesat 4 iulie 2019 .

[9] Zhengwei Wang, Qi She și Tomas E. Ward, Generative Adversarial Networks: A Survey and Taxonomy , în arXiv: 1906.01529 [cs] , 4 iunie 2019. Accesat pe 5 iulie 2019 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

V · D · M Învățare automată
Probleme	Clasificarea · Regresie · asociere Reguli · Învățare nesupravegheați · Supravegheat de învățare · Reinforcement Learning · învățare profundă
Învățare nesupravegheată	Clustering · clustering Ierarhica · K mijloace · Așteptarea maximizare · DBSCAN · schimbare medie · antagonist generativă rețea (CGAN · cycleGAN VAE-GAN)
Învățare supravegheată	Arborele decizional · Pădure aleatorie · CRF · HMM · KNN · Clasificator bayesian · Rețea neuronală artificială · Regresie liniară · Regresie logistică · PGM · SVM
Consolidarea învățării	Q-learning · SARSA · TD
Reducerea dimensiunii	Analiza factorilor · CCA · ICA · LDA · PCA · Selecția caracteristicilor · Extragerea caracteristicilor · t-SNE
Rețele neuronale artificiale	Perceptron · RBF · N · FFN · Rețea Hopfield · MLP · RNN ( LSTM ) · RBM · SOM · CNN · TDNN · SNN
Software	Keras · Microsoft Cognitive Toolkit · scikit-learn · TensorFlow · Theano · Torch · Weka
Alte	Algoritm genetic · PSO · Caracteristic