Semantica distributiva

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Semantica distribuțională cuprinde o serie de teorii lingvistice de calcul și metode pentru studiul distribuției semantice a cuvintelor în limbajul natural . Aceste modele derivă dintr-o perspectivă empirică și presupun că o distribuție statistică a termenilor este preponderentă în delimitarea comportamentului lor semantic [1] .

Principii de baza

Această teorie propune paradigma conform căreia cuvintele sunt distribuite într-un spațiu în care se află, între ele, la o distanță proporțională cu gradul lor de asemănare. Acesta din urmă urmează ipoteza fundamentală a semanticii distribuționale (numită ipoteza distribuțională ) conform căreia două cuvinte sunt cu atât mai asemănătoare semantic, cu cât tind să apară mai mult în același context lingvistic .
Propoziția emblematică a acestei teorii este [2] :

( EN )

Veți cunoaște un cuvânt al companiei pe care o păstrează

( IT )

„Veți ști un cuvânt de la compania pe care o frecventează

( [3] , „O sinopsis a teoriei lingvistice 1930-1955.” (1957: pagina 11: capitolul IV: linia 8) )

Această ipoteză împărtășește un principiu de funcționare similar modelului cognitiv propus pentru a explica funcționarea lexicului mental, prin care conceptele nu sunt toate memorate ca într-o enciclopedie, ci sunt organizate în funcție de informațiile contextuale în care apare cuvântul [4] .

Spații vectoriale

Pentru realizările concrete ale ipotezei distribuționale, procedăm prin construirea spațiilor semantice distribuționale folosind reprezentări geometrice pentru a reprezenta semantica textului. Fiecare punct din spațiu este caracterizat prin n dimensiuni, adică prin coordonatele față de cele n axe care formează spațiul nostru vectorial . În acest fel, fiecare cuvânt devine un vector, ale cărui dimensiuni depind de contextele lingvistice în care poate apărea cuvântul și distanța dintre puncte este proporțională cu distanța semantică dintre cuvinte (pe baza ipotezei distribuționale).
În mod formal, spațiul semantic este definit de patru variabile fundamentale [5] [6] :

  • T care reprezintă ansamblul cuvintelor țintă care formează spațiul semantic;
  • B , aceasta este baza care definește dimensiunile spațiului nostru și conține contextele lingvistice pe care se evaluează asemănarea;
  • M este matricea de co-apariție reprezentând vectorii lui T ;
  • S este metrica care măsoară distanța punctelor din spațiul semantic;


Prin urmare, se poate rezuma că fiecare cuvânt țintă T corespunde unui rând al matricei M și fiecare context B definește coloanele matricei în sine. Celulele conțin, în cel mai simplu caz, frecvența de co-apariție a cuvântului T într-un context B.
Diferențele dintre modele depind de metoda prin care definesc B , adică de modul în care definesc contextul. Este de obicei definit pe baza unei ferestre W de cuvinte care înconjoară cuvântul țintă T. În acest caz B (dimensiunea vectorilor) este un subset al cuvintelor standard obținute prin excluderea cuvintelor stop (care nu au nicio relevanță semantică) și prin includerea celor mai frecvente cuvinte de conținut în vocabularul textului.
Dacă trebuie să calculați distanța semantică dintre două cuvinte, trebuie să calculați distanța dintre cei doi vectori pe toate dimensiunile. Cu cât dimensiunile sunt mai asemănătoare între cei doi vectori, cu atât semnificațiile cuvintelor care formează vectorii sunt mai asemănătoare (din nou conform ipotezei distribuționale). Cea mai comună măsură a proximității spațiale este cosinusul unghiului format de aceștia (dacă vectorii au dimensiuni egale, unghiul este 0 și cosinusul este maxim = 1; dacă vectorii sunt independenți, unghiul este de 90 ° și cosinusul este minim = 0). O altă metodă este de a calcula distanța euclidiană prin generalizarea la un spațiu multidimensional.

Semantica si cognitia

În urma verificării rezultatelor și a corectitudinii acestora, a reieșit că ipoteza distribuțională are multe comparații cu interpretarea semantică oferită de oameni, în special spațiile semantice distribuționale pot fi utilizate ca modele pentru diferite sarcini legate de distanța semantică dintre cuvinte. ( amorsare semantică sau erori de interferență în sarcina de recunoaștere a cuvintelor etc.) mai precis decât modelele lexicale bazate pe simboluri cu rețele lexicale (cum ar fi Wordnet ) [7] .
Cu toate acestea, această teorie a furnizat cea mai mare contribuție teoretică în domeniul cognitiv-lingvistic, care a considerat întotdeauna reprezentarea sensului ca o proiecție în minte a simbolurilor conceptuale numite ontologii (un concept aplicat informaticii cu numele de ontologii formale ). . Acestea din urmă reprezintă reprezentarea categoriilor conceptuale prin limbaje formale (simboluri specifice care reprezintă semantica cuvintelor) [8] [9] , care formează entități complet independente de context, separând total competența semantică de utilizarea contextuală a același cuvânt (diferența tipică a teoriei generative ). Dificultatea obiectivă a acestei abordări este gestionarea sensurilor în schimbare care se realizează atunci când sunt scufundate într-un context specific. Semantica distribuțională revoluționează această lume atribuind contextului proprietățile constructorului de sens, așa cum face aluzia [10] :

( EN )

Înțelesul complet al unui cuvânt este întotdeauna contextual și niciun studiu al sensului în afară de context nu poate fi luat în serios. "

( IT )

Înțelesul complet al unui cuvânt este întotdeauna contextual și niciun studiu al sensului, altul decât prin context, nu poate fi luat în serios. "

( [3] „Tehnica semanticii.” (1935: pagina 37) )

Prin urmare, este dat un nou model de reprezentare semantică, sensibil la context și dinamic prin natură.

Aplicații

Sosirea mare corpusuri a permis această teorie să apară în studiul de calcul al semanticii și , astfel , a găsi aplicații concrete în modele de calcul pentru construirea de spații vectoriale pentru reprezentarea cuvintelor.

Cele mai cunoscute modele pentru aceste studii sunt:

  • Analiza semantică latentă (LSA) [11]
  • Hyperspace analog cu limba [12]
  • Indexare aleatorie [13]

Printre cei mai recenți algoritmi pentru crearea încorporării de cuvinte găsim:

  • word2vec bazat pe modelul de rețea neuronală Skip-gram (o tehnică în care n-grame încă stochează un model al limbii, dar permit omiterea jetoanelor ) [14] care folosește o metodă predictivă [15] .
  • mănușă folosind metode bazate pe numărare [16] .

Mulți cercetători au discutat care este metoda cea mai bună de utilizat și unii au ajuns la concluzia că un model care utilizează metode predictive este mai bun [17] , în timp ce alții susțin că cele două clase de metode nu sunt drastic diferite la un nivel fundamental în care ambele sondează statistici de co-apariție a unui corpus , dar eficiența cu care metodele bazate pe număr captează statistici globale poate fi avantajoasă [16] .
Modelele de distribuție au găsit numeroase aplicații în lingvistica computațională , inclusiv simplificarea textului [18] , care urmărește să faciliteze înțelegerea textului pentru cititorii umani sau automat, identificarea metaforei [19] , amorsarea semantică [20] , raționamentul analitic [21] ] .

Notă

  1. ^ Lenci, Alessandro. „Semantica distributivă în cercetarea lingvistică și cognitivă”. Revista italiană de lingvistică 20.1 (2008): 1-31.
  2. ^ Biserică, Kenneth. - Un pendul a oscilat prea departe. Probleme lingvistice în tehnologia limbii 6.5 (2011): 1-27.
  3. ^ a b en: John Rupert Firth
  4. ^ CHARLES, W. (2000). Corelate contextuale de sens. Psiholingvistică aplicată, 21 (4), 505-524, p. 507
  5. ^ Lowe, Will. „Către o teorie a spațiului semantic”. Lucrările celei de-a douăzeci și treia conferințe anuale a societății științei cognitive. Philadelphia 2001, pp. 576-581.
  6. ^ Padó, Sebastian și Mirella Lapata. „Construcția bazată pe dependență a modelelor de spațiu semantic.” Computational Linguistics 33.2 (2007): 161-199.
  7. ^ Vigliocco, Gabriella și colab. „Reprezentarea semnificațiilor cuvintelor obiect și acțiune: ipoteza spațială semantică featurală și unitară”. Psihologie cognitivă 48.4 (2004): 422-488. , DOI : 10.1016 / j.cogpsych.2003.09.001 .
  8. ^ Guarino, Nicola. „Ontologie formală și sisteme informaționale”. Procesele FOIS. Vol. 98. Nr. 1998. 1998.
  9. ^ Viinikkala, Mika. „Ontologia în sistemele informaționale”. (2005).
  10. ^ George A. Miller și Walter G. Charles, Corelate contextuale ale similitudinii semantice , în Limbaj și procese cognitive , vol. 6, nr. 1, 1 ianuarie 1991, pp. 1–28, DOI : 10.1080 / 01690969108406936 . Adus pe 14 martie 2017 .
  11. ^ Landauer, Thomas K. și Susan T. Dumais. „O soluție la problema lui Platon: teoria analizei semantice latente a achiziției, inducției și reprezentării cunoștințelor”. Revizuire psihologică 104.2 (1997): 211.
  12. ^ Lund, Kevin și Curt Burgess. „Producerea de spații semantice de înaltă dimensiune din co-apariția lexicală”. Metode de cercetare a comportamentului, instrumente și computere 28.2 (1996): 203-208.
  13. ^ Karlgren, Jussi și Magnus Sahlgren. „26 De la cuvinte la înțelegere”. (2001). Arhivat 8 august 2017 la Internet Archive .
  14. ^ Guthrie, David și colab. „O privire mai atentă asupra modelării skip-gram”. Lucrările celei de-a 5-a Conferințe internaționale privind resursele lingvistice și evaluarea (LREC-2006). 2006. ( PDF ), pe homepages.inf.ed.ac.uk . Adus la 10 martie 2017 (Arhivat din original la 17 mai 2017) .
  15. ^ MIKOLOV, Tomas și colab. Estimarea eficientă a reprezentărilor cuvintelor în spațiul vectorial. arXiv preprint arXiv: 1301.3781 , 2013 .
  16. ^ a b Pennington, Jeffrey, Richard Socher și Christopher D. Manning. „Mănușă: vectori globali pentru reprezentarea cuvântului”. EMNLP. Vol. 14. 2014.
  17. ^ Baroni, Marco, Georgiana Dinu și Germán Kruszewski. „Nu numărați, preziceți! O comparație sistematică a vectorilor semantici de numărare a contextului vs. ACL (1). 2014.
  18. ^ Siddharthan, Advaith. „Simplificarea sintactică și coeziunea textului”. Research on Language and Computation 4.1 (2006): 77-109.
  19. ^ Gershman, Yulia Tsvetkov Elena Mukomel Anatole. „Detecția inter-linguală a metaforelor folosind caracteristici semantice comune.” Meta4NLP 2013 (2013): 45.
  20. ^ Jones, Michael N., Walter Kintsch și Douglas JK Mewhort, High-dimensional semantic space accounts of priming. "Journal of memory and language 55.4 (2006): 534-552. , DOI : 10.1016 / j.jml.2006.07. 003 .
  21. ^ Michael Ramscar și Daniel Yarlett, Semantic grounding in models of analogy: an approach , in Cognitive Science , vol. 27, n. 1, 1 ianuarie 2003, pp. 41–71, DOI : 10.1016 / S0364-0213 (02) 00113-1 . Adus pe 10 martie 2017 .

Bibliografie

Elemente conexe

linkuri externe

Matematica este în aer - semantică distribuțională