Extracția terminologică

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Extragerea terminologică este o subcategorie de extragere a informațiilor care constă în identificarea (automat) a termenilor relevanți într-un corpus dat.

Scopul extracției terminologice este de a genera material util pentru crearea unui glosar sau ontologie terminologică sau ca suport pentru traducerea umană și automată . Odată extrapolate, condițiile potențiale de interes sunt filtrate pe baza recurenței, specificității și ratei de ambiguitate. Această operațiune se efectuează de obicei folosind programe de calculator dedicate (așa-numiții extrageri de terminologie).

Extracția poate fi monolingvă sau bilingvă . Extracția monolingvă are ca scop identificarea termenilor candidați, în timp ce extracția bilingvă se bazează pe analiza textelor sursă și a traducerilor conexe pentru a identifica termenii potențiali și traducătorii lor. Există instrumente de extragere a terminologiei abordării lingvistice , mai potrivite pentru lucrul la o singură limbă, deoarece caută combinații de cuvinte care corespund anumitor structuri din vorbire. Instrumentele cu o abordare mai statistică , pe de altă parte, identifică secvențele repetate ale segmentelor lexicale, cu avantajul de a fi independente de limbajul luat în considerare.

Deoarece acesta este un proces care utilizează programe automate, intervenția umană în extragerea terminologică este necesară pentru a exclude erorile, inexactitățile și cuvintele irelevante. În acest sens, extragerea termenilor poate fi, prin urmare, definită ca un proces de selecție asistat sau semi-automat.

Ulrich Heid , expert în lexicografie computațională , lector la Universitățile din Stuttgart și Hildesheim și membru al IMS Corpus / Lexicon Research Group, susține că extragerea automată a terminologiei trebuie să urmeze trei principii:

  1. Un sistem de extracție trebuie să permită întotdeauna corectarea manuală și, prin urmare, să fie semiautomat.
  2. Extragerea termenilor candidați va fi întotdeauna însoțită de un anumit zgomot , adică de prezența unor termeni nedoriti, a căror reducere trebuie, așadar, să fie obiectivul celor care dezvoltă astfel de sisteme.
  3. Un sistem de extragere a terminologiei ar trebui, pe de altă parte, să minimizeze numărul candidaților buni care nu sunt atrași, adică așa-numita tăcere .

De asemenea, potrivit profesorului Heid, extracția are loc în două etape: identificarea termenilor candidați și filtrarea ulterioară pentru a reduce zgomotul și tăcerea .

Diferite programe pot fi utilizate pentru extragerea semi-automată a termenilor din corpurile de referință electronice. Cel mai cunoscut este Trados ' Multiterm , creat în 1992. Alte programe utile sunt WordSmith Tools , TextStat , AntConc și instrumente web precum WebCorp10 .

Bibliografie

  • Riediger, H. (2018) Ce este terminologia și cum se face un glosar [1]
  • C. Nikolau și C. Stephanidis (Eds.) Jurnalul internațional privind bibliotecile digitale, vol. 3, nr. 2., pp. 115-130
  • ECDL '98 Proceedings of the Second Conference European on Research and Advanced Technology for Digital Libraries, pp. 585-604. [isbn: 3-540-65101-2]
  • o aplicație web pentru a afla terminologia partajată a comunităților web emergente. Să apară în Proc. A III-a Conferință Internațională privind interoperabilitatea pentru aplicații și aplicații software (I-ESA 2007). Funchal (Insula Madeira), Portugalia, 28-30 martie 2007

Elemente conexe

linkuri externe