Inducerea semnificațiilor

În lingvistica computațională , inducerea (sau discriminarea ) semnificațiilor este o problemă deschisă a procesării limbajului natural care constă în identificarea automată a semnificațiilor unui cuvânt . Deoarece rezultatul unui sistem de inducere a semnificațiilor este un set de simțuri (inventar) pentru cuvântul țintă, această sarcină este strâns legată de cea de dezambiguizare , care se bazează în schimb pe un inventar predefinit de semnificații și are ca scop rezolvarea problemei. ambiguitatea cuvintelor într-un context.

Metode

Rezultatul unui sistem de inducție a semnificației este o grupare de contexte în care apare cuvântul țintă sau, alternativ, o grupare de cuvinte legate de cuvântul țintă (co-apariții). În literatura de specialitate au fost propuse trei abordări principale ^[1] :

Gruparea contextului
Gruparea de cuvinte
Grafice de coincidență

Gruparea contextului

În gruparea contextului, fiecare apariție a unui cuvânt țintă este reprezentată ca un vector context. Acești vectori sunt apoi grupați în grupuri, câte unul pentru fiecare semnificație diferită a cuvântului țintă. O abordare istorică de acest tip se bazează pe conceptul de spațiu al cuvintelor ^[2] , adică vectori ale căror dimensiuni sunt cuvinte.

Gruparea de cuvinte

O a doua abordare constă în gruparea cuvintelor care sunt semantic similare și, prin urmare, transmit un sens specific al cuvântului țintă. Metodele de acest tip includ algoritmul Lin ^[3] și algoritmul Clustering by Committee ^[4] .

Grafice de coincidență

A treia abordare a inducerii semnificațiilor se bazează pe noțiunea de grafic de co-apariție, adică un grafic ale cărui vârfuri sunt cuvinte legate de cuvântul țintă și ale căror margini leagă cuvinte care co-apar împreună în corpurile de referință. Metodele de acest tip includ: utilizarea algoritmului de grupare Markov ^[5] , HyperLex ^[6] și variantele conexe ^[7] .

Aplicații

S-a demonstrat că inducerea semnificațiilor îmbunătățește performanța de recuperare a informațiilor pe web în prezența unor interogări extrem de ambigue ^[6] .
Algoritmii pentru inducerea semnificațiilor pe grafice îmbunătățesc mult gruparea rezultatelor căutării pe web și îmbunătățesc gradul de diversificare a rezultatelor căutării returnate de motoarele de căutare precum Yahoo! ^[8]

Notă

^(EN) R. Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41 (2), 2009, pp. 1-69
^(EN) H. Schutze. Dimensiunile sensului . În Proc. Conferinței ACM / IEEE din 1992 pe supercomputere. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796
^ ( EN ) D. Lin. Recuperare automată și grupare de cuvinte similare. Arhivat pe 4 martie 2012 la Internet Archive . În Proc. Al celei de-a 17-a Conferințe Internaționale de Lingvistică Computațională (COLING), Montreal, Canada, 1998, pp. 768-774.
^(EN) D. Lin și P. Pantel. Descoperirea simțurilor cuvintelor din text . În Proc. Al celei de-a VIII-a Conferințe internaționale privind descoperirea cunoștințelor și exploatarea datelor (KDD), Edmonton, Canada, 2002, pp. 613-619.
^(EN) și B. D. Widdows Dorow. Un model grafic pentru achiziție lexicală nesupravegheată. Arhivat 7 august 2011 la Internet Archive . În Proc. A 19-a Conferință Internațională de Lingvistică Computațională (COLING), Taipei, Taiwan, 2002, pp. 1-7
^ ^a ^b ( EN ) J. Véronis. Hyperlex: Cartografie lexicală pentru regăsirea informațiilor. Arhivat 24 iulie 2011 la Internet Archive. Computer Speech and Language, 18 (3), 2004, pp. 223-252
^(EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Doi algoritmi pe bază de grafic pentru WSD state-of-the-art Filed 07 martie 2010 în Internet Arhiva .. În Lucrările Conferinței din 2006 privind metodele empirice în procesarea limbajului natural (EMNLP), Sydney, Australia, pp. 585-593
^ R. Navigli, G. Crisafulli. Inducerea simțurilor Word pentru a îmbunătăți gruparea rezultatelor căutării pe web . Proc. Conferinței din 2010 privind metodele empirice în prelucrarea limbajului natural (EMNLP 2010), MIT Stata Center, Massachusetts, SUA.

Elemente conexe

[1] (EN) R. Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41 (2), 2009, pp. 1-69

[2] (EN) H. Schutze. Dimensiunile sensului . În Proc. Conferinței ACM / IEEE din 1992 pe supercomputere. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796

[3] ( EN ) D. Lin. Recuperare automată și grupare de cuvinte similare. Arhivat pe 4 martie 2012 la Internet Archive . În Proc. Al celei de-a 17-a Conferințe Internaționale de Lingvistică Computațională (COLING), Montreal, Canada, 1998, pp. 768-774.

[4] (EN) D. Lin și P. Pantel. Descoperirea simțurilor cuvintelor din text . În Proc. Al celei de-a VIII-a Conferințe internaționale privind descoperirea cunoștințelor și exploatarea datelor (KDD), Edmonton, Canada, 2002, pp. 613-619.

[5] (EN) și B. D. Widdows Dorow. Un model grafic pentru achiziție lexicală nesupravegheată. Arhivat 7 august 2011 la Internet Archive . În Proc. A 19-a Conferință Internațională de Lingvistică Computațională (COLING), Taipei, Taiwan, 2002, pp. 1-7

[veronis04-6] ( EN ) J. Véronis. Hyperlex: Cartografie lexicală pentru regăsirea informațiilor. Arhivat 24 iulie 2011 la Internet Archive. Computer Speech and Language, 18 (3), 2004, pp. 223-252

[7] (EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Doi algoritmi pe bază de grafic pentru WSD state-of-the-art Filed 07 martie 2010 în Internet Arhiva .. În Lucrările Conferinței din 2006 privind metodele empirice în procesarea limbajului natural (EMNLP), Sydney, Australia, pp. 585-593

[8] R. Navigli, G. Crisafulli. Inducerea simțurilor Word pentru a îmbunătăți gruparea rezultatelor căutării pe web . Proc. Conferinței din 2010 privind metodele empirice în prelucrarea limbajului natural (EMNLP 2010), MIT Stata Center, Massachusetts, SUA.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]