Rețea neuronală convoluțională

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Arhitectura tipică a unei rețele neuronale convoluționale

În învățarea automată , o rețea neuronală convoluțională ( CNN sau ConvNet din rețeaua neuronală convoluțională engleză) este un tip de rețea neuronală artificială în avans, în care tiparul de conectivitate dintre neuroni este inspirat de organizarea cortexului vizual animal, ale cărui neuroni individuali sunt dispuse în așa fel încât să răspundă la regiunile suprapuse care învelesc câmpul vizual [1] . Rețelele convoluționale sunt inspirate din procesele biologice [2] și sunt variații ale perceptronilor cu mai multe straturi concepute pentru a utiliza preprocesarea la minimum. Au mai multe aplicații în recunoașterea imaginilor și a videoclipurilor, sisteme de recomandare [3] , procesare a limbajului natural [4] și, recent, în bioinformatică .

Istorie

Proiectarea RNC urmează procesarea vederii în organismele vii [ fără sursă ] .

Câmpuri receptive

Lucrările lui Hubel și Wiesel din anii 1950 și 1960 au arătat cum cortexul vizual al pisicilor și maimuțelor conținea neuroni care răspund individual la mici regiuni ale câmpului vizual. Presupunând că ochii nu se mișcă, regiunea câmpului vizual în care stimulul afectează arderea unui singur neuron este cunoscută sub numele decâmpul săureceptiv. [ fără sursă ] . Celulele adiacente au câmpuri receptive similare, suprapuse [ fără sursă ] . Mărimea câmpului receptiv și a locației variază sistematic de-a lungul cortexului pentru a forma o hartă completă a câmpului vizual [ fără sursă ] . Cortexul din fiecare emisferă reprezintă câmpul vizual al părții opuse [ fără sursă ] .

Lucrarea din 1968 [5] a identificat două tipuri de celule vizuale din creier:

  • celule simple , a căror producție este maximizată având margini drepte orientate într-un mod particular în câmpul lor receptiv
  • celule complexe , care au câmpuri receptive mai mari, a căror ieșire este insensibilă la poziția exactă a marginilor în câmp.

Neocognitron

Neocognitronul [6] a fost introdus în 1980. [7] [8] Neocognitronul nu necesită unități situate în locații multiple pentru a avea aceleași greutăți antrenabile . Această idee a apărut în 1986 în versiunea de carte a lucrării originale privind propagarea înapoi [9] (Figura 14). Neocognitronii au fost dezvoltați în 1988 pentru semnale temporale. [10] Designul lor a fost îmbunătățit în 1998, [11] generalizat în 2003 [12] și simplificat în același an. [13]

LeNet-5

LeNet-5, o rețea pionieră convoluțională pe 7 niveluri proiectată de LeCun și colab în 1998 [11] care clasifică cifrele, a fost aplicată de mai multe bănci pentru a recunoaște numerele scrise de mână pe cecuri, scanate în imagini de 32 × 32 pixeli. Capacitatea de a procesa imagini cu rezoluție mai mare necesită straturi convoluționale mai mari și mai multe dintre ele, astfel încât această tehnică este limitată de disponibilitatea resurselor de calcul.

Rețea neuronală invariantă de schimbare

În mod similar, o rețea neuronală invariantă de schimbare a fost propusă pentru recunoașterea caracterelor în 1988. [14] [15] Arhitectura și algoritmul de instruire au fost modificate în 1991 [16] , aplicându-le în procesarea imagisticii medicale [17] și detectarea automată a cancerului de sân în mamografii [18] .

Un design diferit bazat pe convoluție a fost propus în 1988 [19] pentru aplicarea la descompunerea semnalelor din electromiografie , unidimensionale și complicate prin deconvoluție. Acest design a fost schimbat în 1989 cu alte modele bazate și pe convoluție. [20] [21]

Piramida abstracției neuronale

Arhitectura feed-forward a rețelelor neuronale convoluționale a fost extinsă în piramida abstracției neuronale [22] prin conexiuni de feedback lateral. Rețeaua neuronală convoluțională recurentă rezultată permite încorporarea flexibilă a informațiilor contextuale pentru a rezolva iterativ ambiguitățile locale. Spre deosebire de modelele anterioare, ieșirile sunt generale în format de imagine la rezoluție maximă.

Implementări GPU

În urma articolului din 2005 care stabilea activitatea GPGPU pentru învățarea automată [23] , mai multe publicații au descris modalități mai eficiente de a antrena rețelele neuronale convoluționale utilizând GPU [24] [25] [26] [27] . În 2011, acestea au fost rafinate și implementate pe un GPU, cu rezultate impresionante [28] . În 2012, Ciresan și colab. Au crescut semnificativ cele mai bune performanțe din literatura de specialitate pentru mai multe baze de date de imagini, inclusiv MNIST , NORB , HWDB1.0 (caractere chinezești), CIFAR10 (set de 60.000 de imagini RGB etichetate 32 × 32) [7] și ImageNet [29] .

Blocuri de construcție

  • Stratul convoluțional
  • Stratul de pooling
  • Stratul ReLu
  • Strat complet conectat
  • Stratul de pierdere

Aplicații

CNN-urile sunt un instrument fundamental în domeniul învățării profunde . În special, acestea sunt potrivite pentru recunoașterea imaginii. Puteți utiliza arhitectura ConvNet pentru a antrena o rețea și utilizați-o ulterior pentru a obține o etichetă categorică sau numerică. De asemenea, este posibil să extrageți caracteristici dintr-o rețea pregătită anterior și să le utilizați pentru a antrena un clasificator liniar. În plus, este posibil să se efectueze învățarea prin transfer, care constă în recalificarea ultimului strat conectat al unui ConvNet deja existent pe date noi.

Puteți instrui un CNN atât pe CPU, GPU unic, mai multe GPU-uri în paralel.

Programarea bibliotecilor

Notă

  1. ^ Convolutional Neural Networks (LeNet) - DeepLearning 0.1 documentation , on DeepLearning 0.1 , LISA Lab . Accesat la 31 august 2013 .
  2. ^ Masakazu Matusugu, Katsuhiko Mori, Yusuke Mitari și Yuji Kaneda, Recunoașterea expresiei faciale independente a subiectului cu detectare robustă a feței utilizând o rețea neuronală convoluțională ( PDF ), în Neural Networks , vol. 16, n. 5, 2003, pp. 555–559, DOI : 10.1016 / S0893-6080 (03) 00115-1 . Adus la 17 noiembrie 2013 .
  3. ^ Aaron van den Oord, Sander Dieleman și Benjamin Schrauwen, Recomandare muzicală bazată pe conținut profund ( PDF ), editat de CJC Burges, L. Bottou, M. Welling, Z. Ghahramani și KQ Weinberger, Curran Associates, Inc., 1 ianuarie 2013, pp. 2643-2651.
  4. ^ Ronan Collobert și Jason Weston, A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning , în Proceedings of the 25th International Conference on Machine Learning , ICML '08, New York, NY, SUA, ACM, 1 ianuarie 2008 , pp. 160–167, DOI : 10.1145 / 1390156.1390177 , ISBN 978-1-60558-205-4 .
  5. ^ DH Hubel și TN Wiesel,Câmpuri receptive și arhitectură funcțională a cortexului striat de maimuță , în Jurnalul de fiziologie , vol. 195, nr. 1, 1 martie 1968, pp. 215–243, DOI : 10.1113 / jphysiol.1968.sp008455 , ISSN 0022-3751 ( WC ACNP ) , PMC 1557912 , PMID 4966457 .
  6. ^ Yann LeCun, Yoshua Bengio și Geoffrey Hinton, Deep learning , în Nature , vol. 521, nr. 7553, 2015, pp. 436–444, Bibcode : 2015 Natur.521..436L , DOI : 10.1038 / nature14539 , PMID 26017442 .
  7. ^ a b Dan Ciresan, Ueli Meier și Jürgen Schmidhuber, rețele neuronale profunde cu coloane multiple pentru clasificarea imaginilor , în 2012 IEEE Conference on Computer Vision and Pattern Recognition , New York, NY, Institute of Electrical and Electronics Engineers (IEEE), iunie 2012 , pp. 3642–3649, DOI : 10.1109 / CVPR.2012.6248110 , ISBN 978-1-4673-1226-4 ,OCLC 812295155 , arXiv : 1202.2745v1 . Adus pe 9 decembrie 2013 .
  8. ^ Kunihiko Fukushima, Neocognitron: Un model de rețea neuronală auto-organizată pentru un mecanism de recunoaștere a modelelor neafectat de schimbarea poziției ( PDF ), în Cibernetica biologică , vol. 36, n. 4, 1980, pp. 193–202, DOI : 10.1007 / BF00344251 , PMID 7370364 . Adus la 16 noiembrie 2013 .
  9. ^ David E. Rumelhart, Geoffrey E. Hinton și Ronald J. Wiliams, Capitolul 8: Învățarea reprezentărilor interne prin propagare de erori ( PDF ), în David E. Rumelhart și James.L. McClelland (ed.), Prelucrare distribuită în paralel, volumul 1 , MIT Press, 1986, pp. 319–362, ISBN 978-0-262-68053-0 (arhivat din original la 10 martie 2016) .
  10. ^ Toshiteru Homma, Les Atlas și Robert Marks II, O rețea neuronală artificială pentru tarte-uri bipolare spațio-temporale: aplicație la clasificarea fonemelor ( PDF ), în Advances in Neural Information Processing Systems , vol. 1, 1988, pp. 31-40.
  11. ^ a b Yann LeCun, Léon Bottou, Yoshua Bengio și Patrick Haffner, Gradient-based learning aplicat la recunoașterea documentelor ( PDF ), în Proceedings of the IEEE , vol. 86, nr. 11, 1998, pp. 2278–2324, DOI : 10.1109 / 5.726791 . Adus pe 7 octombrie 2016 .
  12. ^ S. Behnke. Rețele neuronale ierarhice pentru interpretarea imaginilor, volumul 2766 din Lecture Notes in Computer Science. Springer, 2003.
  13. ^ Simard, Patrice, David Steinkraus și John C. Platt. „Cele mai bune practici pentru rețelele neuronale convoluționale aplicate analizei vizuale a documentelor”. În ICDAR, vol. 3, pp. 958-962. 2003.
  14. ^ Wei Zhang, rețeaua neuronală de recunoaștere a modelelor invariante de schimbare și arhitectura sa optică , în Proceedings of annual conference of the Japan Society of Applied Physics , 1988.
  15. ^ Wei Zhang, model de procesare distribuită paralel cu interconectări spațiu-invariante locale și arhitectura sa optică , în Applied Optics , vol. 29, nr. 32, 1990, pp. 4790–7, Bibcode : 1990ApOpt..29.4790Z , DOI : 10.1364 / AO.29.004790 , PMID 20577468 .
  16. ^ Wei Zhang, Error Back Propagation with Minimum-Entropy Weights: A Technique for Better Generalization of 2-D Shift-Invariant NNs , în Proceedings of the International Joint Conference on Neural Networks , 1991.
  17. ^ Wei Zhang, Prelucrarea imaginii endoteliului corneean uman pe baza unei rețele de învățare , în Optica aplicată , vol. 30, n. 29, 1991, pp. 4211–7, Bibcode : 1991ApOpt..30.4211Z , DOI : 10.1364 / AO.30.004211 , PMID 20706526 .
  18. ^ Wei Zhang, Detectarea computerizată a microcalcificărilor grupate în mamografii digitale utilizând o rețea neuronală artificială invariantă în schimbare , în Medical Physics , vol. 21, n. 4, 1994, pp. 517–24, Bibcode : 1994MedPh..21..517Z , DOI : 10.1118 / 1.597177 , PMID 8058017 .
  19. ^ Daniel Graupe, Ruey Wen Liu, George S Moschytz. "Aplicații ale rețelelor neuronale la procesarea semnalului medical". În Proc. 27th Conf. Decizie și control IEEE, Pp. 343–347, 1988.
  20. ^ Daniel Graupe, Boris Vern, G. Gruener, Aaron Field și Qiu Huang. „Descompunerea semnalelor EMG de suprafață în potențiale de acțiune cu fibră unică prin intermediul rețelei neuronale”. Proc. IEEE International Symp. pe circuite și sisteme, pp. 1008-1011, 1989.
  21. ^ Qiu Huang, Daniel Graupe, Yi Fang Huang, Ruey Wen Liu. „Identificarea tiparelor de declanșare a semnalelor neuronale”. În Proc. 28. Conf. Decizie și control IEEE, Pp. 266-271, 1989.
  22. ^ Sven Behnke, Hierarchical Neural Networks for Image Interpretation ( PDF ), Lecture Notes in Computer Science, vol. 2766, Springer, 2003, DOI : 10.1007 / b11963 , ISBN 978-3-540-40722-5 .
  23. ^ Dave Steinkraus, Patrice Simard și Ian Buck, Utilizarea GPU-urilor pentru algoritmi de învățare automată , în a 12-a Conferință internațională privind analiza și recunoașterea documentelor (ICDAR 2005) , 2005, pp. 1115–1119.
  24. ^ Kumar Chellapilla, Sid Puri și Patrice Simard, Rețele neuronale convoluționale de înaltă performanță pentru procesarea documentelor , în Guy Lorette (ed.), Al zecelea atelier internațional privind frontierele în recunoașterea scrisului de mână , Suvisoft, 2006.
  25. ^ GE Hinton, S Osindero și YW Teh, Un algoritm de învățare rapidă pentru plasele de credință profundă. , în Neural computation , vol. 18, nr. 7, iulie 2006, pp. 1527–54, DOI : 10.1162 / neco . 2006.18.7.1527 , PMID 16764513 .
  26. ^ Yoshua Bengio, Pascal Lamblin, Dan Popovici și Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks , în Advances in Neural Information Processing Systems , 2007, pp. 153-160.
  27. ^ MarcAurelio Ranzato, Christopher Poultney, Sumit Chopra și Yann LeCun,Efficient Learning of Sparse Representations with a Energy-Based Model ( PDF ), în Advances in Neural Information Processing Systems , 2007.
  28. ^ Dan Ciresan, Ueli Meier, Jonathan Masci, Luca M. Gambardella și Jurgen Schmidhuber, Flexible, High Performance Convolutional Neural Networks for Image Classification ( PDF ), în Proceedings of the Twenty-Second international conference on Artificial Intelligence-Volume Volume Two , vol. 2, 2011, pp. 1237-1242. Adus la 17 noiembrie 2013 .
  29. ^ 10. Deng, Jia și colab. "Imagenet: O bază de date de imagini ierarhice la scară largă." Viziunea computerizată și recunoașterea modelelor, 2009. CVPR 2009. Conferința IEEE pe. IEEE, 2009.

Elemente conexe

linkuri externe