Extracția terminologică
Extragerea terminologică este o subcategorie de extragere a informațiilor care constă în identificarea (automat) a termenilor relevanți într-un corpus dat.
Scopul extracției terminologice este de a genera material util pentru crearea unui glosar sau ontologie terminologică sau ca suport pentru traducerea umană și automată . Odată extrapolate, condițiile potențiale de interes sunt filtrate pe baza recurenței, specificității și ratei de ambiguitate. Această operațiune se efectuează de obicei folosind programe de calculator dedicate (așa-numiții extrageri de terminologie).
Extracția poate fi monolingvă sau bilingvă . Extracția monolingvă are ca scop identificarea termenilor candidați, în timp ce extracția bilingvă se bazează pe analiza textelor sursă și a traducerilor conexe pentru a identifica termenii potențiali și traducătorii lor. Există instrumente de extragere a terminologiei abordării lingvistice , mai potrivite pentru lucrul la o singură limbă, deoarece caută combinații de cuvinte care corespund anumitor structuri din vorbire. Instrumentele cu o abordare mai statistică , pe de altă parte, identifică secvențele repetate ale segmentelor lexicale, cu avantajul de a fi independente de limbajul luat în considerare.
Deoarece acesta este un proces care utilizează programe automate, intervenția umană în extragerea terminologică este necesară pentru a exclude erorile, inexactitățile și cuvintele irelevante. În acest sens, extragerea termenilor poate fi, prin urmare, definită ca un proces de selecție asistat sau semi-automat.
Ulrich Heid , expert în lexicografie computațională , lector la Universitățile din Stuttgart și Hildesheim și membru al IMS Corpus / Lexicon Research Group, susține că extragerea automată a terminologiei trebuie să urmeze trei principii:
- Un sistem de extracție trebuie să permită întotdeauna corectarea manuală și, prin urmare, să fie semiautomat.
- Extragerea termenilor candidați va fi întotdeauna însoțită de un anumit zgomot , adică de prezența unor termeni nedoriti, a căror reducere trebuie, așadar, să fie obiectivul celor care dezvoltă astfel de sisteme.
- Un sistem de extragere a terminologiei ar trebui, pe de altă parte, să minimizeze numărul candidaților buni care nu sunt atrași, adică așa-numita tăcere .
De asemenea, potrivit profesorului Heid, extracția are loc în două etape: identificarea termenilor candidați și filtrarea ulterioară pentru a reduce zgomotul și tăcerea .
Diferite programe pot fi utilizate pentru extragerea semi-automată a termenilor din corpurile de referință electronice. Cel mai cunoscut este Trados ' Multiterm , creat în 1992. Alte programe utile sunt WordSmith Tools , TextStat , AntConc și instrumente web precum WebCorp10 .
Bibliografie
- Riediger, H. (2018) Ce este terminologia și cum se face un glosar [1]
- C. Nikolau și C. Stephanidis (Eds.) Jurnalul internațional privind bibliotecile digitale, vol. 3, nr. 2., pp. 115-130
- ECDL '98 Proceedings of the Second Conference European on Research and Advanced Technology for Digital Libraries, pp. 585-604. [isbn: 3-540-65101-2]
- o aplicație web pentru a afla terminologia partajată a comunităților web emergente. Să apară în Proc. A III-a Conferință Internațională privind interoperabilitatea pentru aplicații și aplicații software (I-ESA 2007). Funchal (Insula Madeira), Portugalia, 28-30 martie 2007
Elemente conexe
linkuri externe
- http://www.ims.uni-stuttgart.de/~uli/
- https://web.archive.org/web/20160304204224/http://www.staff.uni-mainz.de/fantinuo/download/estrazione_interpreti.pdf
- http://www.mediazioni.sitlec.unibo.it/index.php/no7-anno2009/61-articoli-no-7-2009/43-estrazione-terminologica-da-corpora-creati-ad-hoc-per- traducere-o-experimentare-didactică-comparație-între-corpuri-manuale-și-corpuri-automate-webbootcat.html
- https://web.archive.org/web/20121029171702/http://ecolore.leeds.ac.uk/xml/materials/overview/tools/term_extraction.xml?lang=it
- https://dl.acm.org/citation.cfm?id=1080344&dl=ACM&coll=
- https://web.archive.org/web/20060619123604/http://acl.ldc.upenn.edu/E/E99/E99-1003.pdf
- https://dl.acm.org/citation.cfm?id=1105712
- https://dl.acm.org/citation.cfm?id=1072370&dl=ACM&coll=
- https://dl.acm.org/citation.cfm?id=1088648
- https://dl.acm.org/citation.cfm?id=1378245.1378253
- https://dl.acm.org/citation.cfm?id=1378254&jmp=cit&coll=GUIDE&dl=GUIDE