Dezambiguizarea

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Dezambiguizarea (în engleză Word Sense Disambiguation sau, prescurtat, WSD ) este procesul prin care se specifică semnificația unui cuvânt sau a unui set de cuvinte ( propoziție ), care denotă sensuri diferite în funcție de contexte , pentru a evita ca acesta să fie ambiguu .

Problema dezambiguizării, prin intermediul unor algoritmi specifici, are o importanță deosebită în cercetarea inteligenței artificiale și, în special, în procesarea limbajului natural . Mai exact, se așteaptă beneficii de dezambiguizare în traducerea automată ,recuperarea informațiilor , programele automate de extragere a informațiilor etc.

Următoarele două exemple acoperă semnificații distincte ale cuvântului romb :

  1. Am cumpărat un calcan proaspăt de pe piață
  2. Rombul are patru laturi de aceeași lungime

Deși este evident pentru un om că prima propoziție se referă la semnificația peștilor și a doua la cea a figurii geometrice , dezvoltarea algoritmilor pentru a reproduce această abilitate umană este de obicei dificilă.

Probleme

O problemă fundamentală a dezambiguizării se referă la identificarea semnificațiilor cuvintelor ( inventarii sensurilor ). Când un cuvânt capătă mai multe semnificații, se numește polisemic . În cazuri precum cuvântul romb , unele dintre semnificații apar clar distincte. Aceste semnificații se numesc omonime . Cu toate acestea, există și alte cazuri cu semnificații diferite strâns legate. Un exemplu este acela al unui sens legat de un alt sens prin metaforă (de exemplu, devorarea unei averi) sau metonimie (băut un pahar ). În astfel de cazuri, subdivizarea semnificațiilor este mult mai dificilă: diferite dicționare oferă subdiviziuni diferite de semnificații pentru cuvinte. O soluție adoptată de cercetători a fost aceea de a alege un dicționar special în limba engleză, WordNet , și de a folosi setul său de semnificații. Căutările au fost efectuate, de asemenea, utilizând echivalenți WordNet în alte limbi (pentru italiană, există BabelNet [1] , ItalWordNet [2] și MultiWordNet [3] ). Din păcate, WordNet codifică distincții de sens prea rafinate, ducând la o dezamăgire dezamăgitoare. În ultimul timp, au fost create distincții de sens mai puțin rafinate, care au dus la performanțe de dezambiguizare pentru limba engleză între 80% și 90% [4] .

Notă

  1. ^ R. Navigli, SP Ponzetto. BabelNet: Construirea unei rețele semantice multilingve foarte mari . Proc. Al celei de-a 48-a reuniuni anuale a Asociației pentru Lingvistică Computațională (ACL 2010), Uppsala, Suedia, 11-16 iulie 2010, pp. 216-225.
  2. ^ Roventini A., Alonge A., Calzolari N., Magnini B., Bertagna F. (2000), "ItalWordNet: a Large Semantic Database for Italian", Proc. A II-a Conferință internațională privind resursele lingvistice și evaluarea (LREC 2000 ), Atena, Grecia, 2000, pp. 783-790.
  3. ^ E. Plant, L. Bentivogli, C. Girardi. MultiWordNet: dezvoltarea unei baze de date multilingve aliniate , Proc. Prima Conferință Internațională pe Global WordNet, Mysore, India, 21-25 ianuarie 2002.
  4. ^ R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-Grained English All-Words Task . Proc. Of Semeval-2007 Workshop ( SemEval ), în cea de-a 45-a reuniune anuală a Asociației pentru Lingvistică Computațională (ACL 2007), Praga, Republica Cehă, pp. 30–35.

Bibliografie

  • ( EN ) Eneko Agirre, Philip Edmonds (Ed.). Dezambiguizarea sensului cuvântului: algoritmi și aplicații , serie: Tehnologia textului, vorbirii și limbajului, Springer, 2007.
  • ( EN ) Nancy Ide, Jean Véronis. Dezambiguizarea sensului de cuvânt: stadiul artei , lingvistică computațională, 24 (1), 1998, pp. 1-40.
  • ( EN ) Roberto Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41 (2), 2009, pp. 1-69.

Elemente conexe

Alte proiecte

Controlul autorității LCCN (EN) sh85119869 · GND (DE) 4233548-6