Incorporarea cuvintelor

Incorporarea cuvintelor ( imersiunea cuvintelor traduse literalmente) cunoscută și sub numele de reprezentare distribuită a cuvintelor ^[1] permite memorarea atât a informațiilor semantice, cât și a celor sintactice ale cuvintelor începând de la un corp ne-adnotat ^[2] și construind un spațiu vectorial în care vectorii cuvintelor cuvintele sunt mai apropiate dacă cuvintele apar în aceleași contexte lingvistice, adică dacă sunt recunoscute ca semantic mai asemănătoare (conform ipotezei semanticii distribuționale ).

Definiție

Într-o definiție mai riguroasă, încorporarea cuvintelor este un termen general care indică, în procesarea limbajului natural , un set de tehnici de modelare în care cuvintele sau expresiile unui vocabular sunt mapate în vectori de numere reale . Conceptual constă dintr-o operație de imersiune matematică , ca urmare a căreia un spațiu format dintr-o dimensiune per cuvânt este transformat într-un spațiu vector continuu cu o dimensiune mult mai mică. Aceste tehnici își găsesc aplicarea în studiul apropierii semantice a vorbirii, în special în lumea semanticii distribuționale .

Metode

Metodele pentru generarea acestei mapări includ rețelele neuronale , ^[3] reducerea dimensională a matricei de co-apariție a cuvântului, ^[4] ^[5] ^[6] modele probabilistice, ^[7] și reprezentarea explicită bazată pe contextul în care apare cuvântul. ^[8] . Multe dintre noile tehnici de încorporare a cuvintelor sunt implementate cu arhitectura rețelei neuronale, în loc de tehnicile tradiționale de învățare n-gram și supravegheate .

Am crezut că vectorul (literalmente purtători de gândire) este o extensie a cuvântului încorporare pentru propoziții întregi sau chiar documente. Unii cercetători speră că acestea pot crește calitatea traducerii automate . ^[9] ^[10]

Aplicații

Cei mai populari algoritmi propuși pentru învățarea încorporării cuvintelor sunt Word2vec , dezvoltat de Tomas Mikolov ^[11] și GloVe , dezvoltat de Universitatea Stanford ^[12] . Există, de asemenea, unele software și biblioteci de software disponibile , cum ar fi Gensim ^[13] și Deeplearning4j ^[14] , care oferă o implementare a acestor algoritmi și permit utilizarea lor în alte aplicații. Alți algoritmi, cum ar fi Analiza componentelor principale (PCA) și încorporarea vecinilor stochastici distribuiți t (t-SNE), sunt folosiți pentru a micșora dimensiunea spațiului vector cuvânt și pentru a permite vizualizarea lor într-un spațiu bidimensional sau tridimensional ^[15] .

Notă

^ Turian, Joseph, Lev Ratinov și Yoshua Bengio. „Reprezentări de cuvinte: o metodă simplă și generală pentru învățarea semi-supravegheată.” Lucrările celei de-a 48-a reuniuni anuale a asociației pentru lingvistică computațională. Association for Computational Linguistics, 2010.
^ Mikolov, Tomas, Wen-tau Yih și Geoffrey Zweig. „Regularități lingvistice în reprezentări de cuvinte în spațiu continuu”. Hlt-naacl. Vol. 13. 2013. , pe aclweb.org . Adus la 10 martie 2017 (arhivat din original la 30 noiembrie 2016) .
^ (EN) Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado și Jeffrey Dean, Reprezentări distribuite ale cuvintelor și frazelor și compoziționalitatea lor , pe arxiv.org/archive/cs.CL 2013.
^ Rémi Lebret și Ronan Collobert, Word Emdeddings through Hellinger PCA , în Conferința Capitolului European al Asociației pentru Lingvistică Computațională (EACL) , vol. 2014, 2013, arXiv : 1312.5542 .
^ Omer Levy și Yoav Goldberg, Neural Word Embedding as Implicit Matrix Factorization ( PDF ), NIPS , 2014.
^ Yitan Li și Linli Xu, Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective ( PDF ), Int'l J. Conf. On Artificial Intelligence (IJCAI) , 2015.
^ Amir Globerson, Euclidean Embedding of Co-occurrence Data ( PDF ), în Journal of Machine learning research , 2007.
^ Omer Levy și Yoav Goldberg, Linguistic Regularities in Sparse and Explicit Word Representations ( PDF ), CoNLL , 2014, pp. 171-180.
^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun și Sanja Fidler, Skip-thought vectors , pe arxiv.org/archive/cs.CL, 2015.
^ (EN) Thoughtvectors , pe deeplearning4j.org. Adus la 6 martie 2017 (arhivat din original la 11 februarie 2017) .
^ (EN) Thomas Mikolov, Estimarea eficientă a reprezentărilor cuvintelor în spațiul vectorial (PDF), în Proceedings of NIPS, 2013. Accesat la 4 septembrie 2018.
^ (EN) GLOVE , pe nlp.stanford.edu.
^ (EN) Gensim , pe radimrehurek.com. Adus la 6 martie 2017 (Arhivat din original la 3 ianuarie 2017) .
^ (EN) Deeplearning4j , pe deeplearning4j.org. Adus la 4 septembrie 2018 .
^ (EN) Mohammad Ghassemi, Roger Mark și Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), în Computing in Cardiology, 2015.

Elemente conexe

Portal IT : accesați intrările Wikipedia care se ocupă cu IT

[1] Turian, Joseph, Lev Ratinov și Yoshua Bengio. „Reprezentări de cuvinte: o metodă simplă și generală pentru învățarea semi-supravegheată.” Lucrările celei de-a 48-a reuniuni anuale a asociației pentru lingvistică computațională. Association for Computational Linguistics, 2010.

[2] Mikolov, Tomas, Wen-tau Yih și Geoffrey Zweig. „Regularități lingvistice în reprezentări de cuvinte în spațiu continuu”. Hlt-naacl. Vol. 13. 2013. , pe aclweb.org . Adus la 10 martie 2017 (arhivat din original la 30 noiembrie 2016) .

[3] (EN) Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado și Jeffrey Dean, Reprezentări distribuite ale cuvintelor și frazelor și compoziționalitatea lor , pe arxiv.org/archive/cs.CL 2013.

[4] Rémi Lebret și Ronan Collobert, Word Emdeddings through Hellinger PCA , în Conferința Capitolului European al Asociației pentru Lingvistică Computațională (EACL) , vol. 2014, 2013, arXiv : 1312.5542 .

[5] Omer Levy și Yoav Goldberg, Neural Word Embedding as Implicit Matrix Factorization ( PDF ), NIPS , 2014.

[6] Yitan Li și Linli Xu, Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective ( PDF ), Int'l J. Conf. On Artificial Intelligence (IJCAI) , 2015.

[7] Amir Globerson, Euclidean Embedding of Co-occurrence Data ( PDF ), în Journal of Machine learning research , 2007.

[8] Omer Levy și Yoav Goldberg, Linguistic Regularities in Sparse and Explicit Word Representations ( PDF ), CoNLL , 2014, pp. 171-180.

[9] (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun și Sanja Fidler, Skip-thought vectors , pe arxiv.org/archive/cs.CL, 2015.

[10] (EN) Thoughtvectors , pe deeplearning4j.org. Adus la 6 martie 2017 (arhivat din original la 11 februarie 2017) .

[11] (EN) Thomas Mikolov, Estimarea eficientă a reprezentărilor cuvintelor în spațiul vectorial (PDF), în Proceedings of NIPS, 2013. Accesat la 4 septembrie 2018.

[12] (EN) GLOVE , pe nlp.stanford.edu.

[13] (EN) Gensim , pe radimrehurek.com. Adus la 6 martie 2017 (Arhivat din original la 3 ianuarie 2017) .

[14] (EN) Deeplearning4j , pe deeplearning4j.org. Adus la 4 septembrie 2018 .

[15] (EN) Mohammad Ghassemi, Roger Mark și Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), în Computing in Cardiology, 2015.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

V · D · M Învățare automată
Probleme	Clasificarea · Regresie · asociere Reguli · Învățare nesupravegheați · Supravegheat de învățare · Reinforcement Learning · învățare profundă
Învățare nesupravegheată	Clustering · clustering Ierarhica · K mijloace · Așteptarea maximizare · DBSCAN · schimbare medie · antagonist generativă rețea (CGAN · cycleGAN VAE-GAN)
Învățare supravegheată	Arborele decizional · Pădure aleatorie · CRF · HMM · KNN · Clasificator bayesian · Rețea neuronală artificială · Regresie liniară · Regresie logistică · PGM · SVM
Consolidarea învățării	Q-learning · SARSA · TD
Reducerea dimensiunii	Analiza factorilor · CCA · ICA · LDA · PCA · Selectați caracteristici · Extracție caracteristici · t-SNE
Rețele neuronale artificiale	Perceptron · RBF · N · FFN · Rețea Hopfield · MLP · RNN ( LSTM ) · RBM · SOM · CNN · TDNN · SNN
Software	Keras · Microsoft Cognitive Toolkit · scikit-learn · TensorFlow · Theano · Torch · Weka
Alte	Algoritm genetic · PSO · Caracteristică