Inducerea semnificațiilor

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În lingvistica computațională , inducerea (sau discriminarea ) semnificațiilor este o problemă deschisă a procesării limbajului natural care constă în identificarea automată a semnificațiilor unui cuvânt . Deoarece rezultatul unui sistem de inducere a semnificațiilor este un set de simțuri (inventar) pentru cuvântul țintă, această sarcină este strâns legată de cea de dezambiguizare , care se bazează în schimb pe un inventar predefinit de semnificații și are ca scop rezolvarea problemei. ambiguitatea cuvintelor într-un context.

Metode

Rezultatul unui sistem de inducție a semnificației este o grupare de contexte în care apare cuvântul țintă sau, alternativ, o grupare de cuvinte legate de cuvântul țintă (co-apariții). În literatura de specialitate au fost propuse trei abordări principale [1] :

  • Gruparea contextului
  • Gruparea de cuvinte
  • Grafice de coincidență

Gruparea contextului

În gruparea contextului, fiecare apariție a unui cuvânt țintă este reprezentată ca un vector context. Acești vectori sunt apoi grupați în grupuri, câte unul pentru fiecare semnificație diferită a cuvântului țintă. O abordare istorică de acest tip se bazează pe conceptul de spațiu al cuvintelor [2] , adică vectori ale căror dimensiuni sunt cuvinte.

Gruparea de cuvinte

O a doua abordare constă în gruparea cuvintelor care sunt semantic similare și, prin urmare, transmit un sens specific al cuvântului țintă. Metodele de acest tip includ algoritmul Lin [3] și algoritmul Clustering by Committee [4] .

Grafice de coincidență

A treia abordare a inducerii semnificațiilor se bazează pe noțiunea de grafic de co-apariție, adică un grafic ale cărui vârfuri sunt cuvinte legate de cuvântul țintă și ale căror margini leagă cuvinte care co-apar împreună în corpurile de referință. Metodele de acest tip includ: utilizarea algoritmului de grupare Markov [5] , HyperLex [6] și variantele conexe [7] .

Aplicații

Notă

  1. ^(EN) R. Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41 (2), 2009, pp. 1-69
  2. ^(EN) H. Schutze. Dimensiunile sensului . În Proc. Conferinței ACM / IEEE din 1992 pe supercomputere. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796
  3. ^ ( EN ) D. Lin. Recuperare automată și grupare de cuvinte similare. Arhivat pe 4 martie 2012 la Internet Archive . În Proc. Al celei de-a 17-a Conferințe Internaționale de Lingvistică Computațională (COLING), Montreal, Canada, 1998, pp. 768-774.
  4. ^(EN) D. Lin și P. Pantel. Descoperirea simțurilor cuvintelor din text . În Proc. Al celei de-a VIII-a Conferințe internaționale privind descoperirea cunoștințelor și exploatarea datelor (KDD), Edmonton, Canada, 2002, pp. 613-619.
  5. ^(EN) și B. D. Widdows Dorow. Un model grafic pentru achiziție lexicală nesupravegheată. Arhivat 7 august 2011 la Internet Archive . În Proc. A 19-a Conferință Internațională de Lingvistică Computațională (COLING), Taipei, Taiwan, 2002, pp. 1-7
  6. ^ a b ( EN ) J. Véronis. Hyperlex: Cartografie lexicală pentru regăsirea informațiilor. Arhivat 24 iulie 2011 la Internet Archive. Computer Speech and Language, 18 (3), 2004, pp. 223-252
  7. ^(EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Doi algoritmi pe bază de grafic pentru WSD state-of-the-art Filed 07 martie 2010 în Internet Arhiva .. În Lucrările Conferinței din 2006 privind metodele empirice în procesarea limbajului natural (EMNLP), Sydney, Australia, pp. 585-593
  8. ^ R. Navigli, G. Crisafulli. Inducerea simțurilor Word pentru a îmbunătăți gruparea rezultatelor căutării pe web . Proc. Conferinței din 2010 privind metodele empirice în prelucrarea limbajului natural (EMNLP 2010), MIT Stata Center, Massachusetts, SUA.

Elemente conexe