Memorie de traducere

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Traducerea (în memorie English translation memory, TM) este un tip special de bază de date utilizată în programele software concepute pentru a ajuta și a ajuta procesul de traducere .

Unele programe care folosesc memorii de traducere sunt cunoscute sub numele de manageri de memorie de traducere ( TMM ).

Memoriile de traducere sunt de obicei utilizate cu instrumente dedicate, cum ar fi Traducerea asistată de computer (CAT), programele de procesare a textelor , sistemele de gestionare a terminologiei, dicționarele multilingve sau chiar rezultatele brute ale traducerii automate .

Ideea din spatele amintirilor de traducere datează de la sfârșitul anilor 1970, însă acestea au fost introduse pentru prima dată pe piață abia la sfârșitul anilor 1980.

O memorie de traducere constă din segmente de text ale pasajului care urmează să fie traduse într-o limbă sursă și traducerile corespunzătoare într-una sau mai multe limbi de recepție. Aceste segmente sau șiruri pot fi blocuri întregi de text, paragrafe, propoziții sau fraze. Perechile create sunt numite „ unități de traducere ”. Cuvintele unice, pe de altă parte, nu sunt gestionate direct de TM, ci de baze de date terminologice.

Cercetările arată că multe companii multilingve de documentare folosesc sisteme de gestionare a memoriei de traducere. Într-un sondaj efectuat în 2006 de profesioniști în traducere, 82,5% din 874 de chestionare au confirmat utilizarea TM. [1]

Utilizarea TM este corelată cu tipurile de text caracterizate prin termeni tehnici simpli și structuri de propuneri (tehnice sau deși într-o măsură mai mică, comerciale și financiare), o bună experiență în domeniul computerelor și repetitivitatea conținutului [1]

Traducătorul oferă software-ului de gestionare a memoriei de traducere cu o sursă de traducere sau prototext . Programul împarte apoi prototextul în segmente, caută eventualele potriviri dintre aceste segmente și segmentele sursă traduse anterior și introduse în memoria de traducere disponibilă, apoi propune potrivirile găsite ca posibile soluții de traducere. Traducătorul poate accepta corespondențele propuse sau le poate înlocui sau modifica pentru a le adapta mai bine la semnificația prototextului și pentru a utiliza versiunea modificată. În ultimele două cazuri, segmentul prototext și segmentul corespunzător tradus metatext , combinate, sunt introduse în memoria de traducere.

Unele programe de gestionare a memoriei de traducere caută doar 100% potriviri (potriviri exacte), adică recuperează doar segmente de text care se potrivesc exact cu unitățile de traducere din memoria de traducere . Alții, pe de altă parte, utilizează algoritmi de potrivire aproximativi, fuzzy : caută șiruri care corespund parțial segmentului sursă și le propun traducătorului subliniind diferențele; cu toate acestea, acesta din urmă poate stabili procentul minim de acord care trebuie luat în considerare în program.

Flexibilitatea și robustețea algoritmilor de căutare a potrivirii determină în mare măsură performanța programului de gestionare a memoriei de traducere, deși pentru unele aplicații rata exactă de potrivire este atât de mare încât justifică utilizarea doar potrivirilor exacte.

Segmentele care nu au potrivire în memorie vor trebui traduse manual de către traducător. Aceste noi segmente traduse sunt stocate în baza de date, unde pot fi utilizate pentru traduceri viitoare și în repetări ale aceleiași piese care sunt traduse.

Memoriile de traducere sunt deosebit de eficiente pentru traducerea textelor foarte repetitive, cum ar fi manualele tehnice. Acestea sunt, de asemenea, utile pentru traducerea modificărilor adăugate treptat unui text tradus anterior, deoarece permit, de exemplu, să se ocupe de mai puține modificări într-o nouă versiune a manualului.

Dimpotrivă, TM-urile sunt considerate în mod tradițional inadecvate pentru traducerea textelor literare din simplul motiv că în acest tip de texte repetarea este absentă sau aproape. Cu toate acestea, unii le consideră utile și pentru textul care nu se repetă, deoarece activele bazei de date create pentru căutările potrivite sunt valoroase pentru determinarea utilizării adecvate a termenilor, pentru asigurarea calității (fără segmente goale) și pentru simplificare. sursa și segmentul țintă sunt afișate întotdeauna împreună, în timp ce traducătorii, într-un mediu tradițional de revizuire, trebuie să lucreze cu două documente).

Principalele beneficii

Sistemele de gestionare a memoriei de traducere sunt cele mai potrivite pentru traducerea documentației tehnice și a documentelor care conțin vocabulare specializate. Avantajele pe care le oferă sunt:

  • Încredere că documentul este complet tradus (memoria de traducere nu acceptă segmente țintă goale)
  • Asigurați-vă că documentele traduse sunt coerente pentru definiții comune, formulare și terminologie. Acest lucru este important atunci când mai mulți traducători lucrează la același proiect.
  • Permiterea traducătorilor să traducă documente într-o mare varietate de formate fără a fi nevoie să dețineți software-ul necesar de obicei pentru procesarea acestor formate.
  • Accelerați procesul de traducere general, deoarece amintirile de traducere „amintesc” de materialele traduse anterior, traducătorii trebuie să traducă o singură dată.
  • Reduceți costul traducerii proiectelor pe termen lung, cum ar fi textul din manuale, mesajele de avertizare sau seriile de documente, trebuie traduse o singură dată și pot fi utilizate de mai multe ori.
  • Pentru proiecte de documentare de mari dimensiuni, economiile (în timp sau bani) din utilizarea unui pachet TM pot fi deja evidente chiar și pentru prima traducere a unui proiect nou, dar de obicei astfel de economii vor fi vizibile numai în timpul traducerii versiunilor ulterioare ale unui proiect care a avut deja traduse înainte de a utiliza memoria de traducere

Principalele obstacole

Principalele probleme care împiedică utilizarea mai largă a programelor de gestionare a memoriei de traducere sunt:

  • Conceptul de „memorii de traducere” se bazează pe premisa că frazele folosite în traducerile anterioare pot fi „reciclate”. Cu toate acestea, un principiu ghid al traducerii este acela că traducătorul trebuie să traducă mesajul textului și nu frazele care îl compun.
  • Managerii de memorie de traducere nu se încadrează ușor în procesele de traducere și localizare de astăzi. Pentru a profita de tehnologia TM, procesele de traducere trebuie reproiectate.
  • Administratorii de memorie de traducere nu acceptă în prezent toate formatele de documentare și este posibil să nu existe filtre care să accepte toate tipurile de fișiere.
  • Există o curbă de învățare asociată cu utilizarea managerilor de memorie de traducere, iar programele trebuie personalizate pentru o eficiență maximă.
  • În cazurile în care întregul sau o parte a procesului de traducere este extern sau este gestionat de traducători liberi care lucrează extern, operatorii externi au nevoie de instrumente speciale pentru a putea lucra cu textele generate de managerul de memorie de traducere.
  • Versiunile complete ale multor administratori de memorie de traducere pot costa de la 400,00 EUR la 2000,00 EUR pe instalare, ceea ce poate reprezenta o investiție grea (chiar dacă există programe mai ieftine). Cu toate acestea, unii dezvoltatori produc versiuni gratuite sau ieftine ale instrumentelor lor, cu funcționalitate redusă, pe care unii traducători le pot folosi pentru a lucra la proiecte create cu versiuni complete ale acestor instrumente. (Rețineți că există pachete freeware și shareware TM disponibile, dar niciunul nu a atins încă o cotă de piață ridicată).
  • Costurile cu importul traducerilor anterioare ale utilizatorului în baza de date a memoriei de traducere, instruirea, precum și orice îmbunătățiri produse pot reprezenta, de asemenea, o investiție considerabilă.
  • Întreținerea bazelor de date cu memorie de traducere tinde să fie în continuare un proces manual în majoritatea cazurilor, iar incapacitatea de întreținere se poate reflecta în termeni de utilitate scăzută semnificativ și de calitate a potrivirilor TM.
  • Este posibil ca programele de gestionare a memoriei de traducere să nu fie adecvate pentru textul care nu are repetiții interne sau nu conține părți neschimbate între revizuiri. Textul tehnic este în general mai potrivit pentru memoria de traducere, în timp ce textele de marketing sau creative sunt mai puțin adecvate.
  • Calitatea textului înregistrat în memoria de traducere nu este garantată, dacă traducerea unui anumit segment este incorectă, este de fapt mai probabil ca traducerea incorectă să fie refolosită data viitoare când același text sursă sau un text similar este tradus, perpetuând eroarea.
  • Există, de asemenea, o influență potențială și, dacă este prezentă, probabil inconștientă asupra textului tradus. Diferite limbi folosesc secvențe diferite pentru elementele logice din cadrul unei propoziții, iar un traducător căruia i s-a prezentat o propoziție cu mai multe traduceri care este parțial tradusă este mai puțin probabil să o reconstruiască complet.
  • Există, de asemenea, posibilitatea ca traducătorul să trateze textul mecanic propoziție cu propoziție, în loc să se concentreze asupra modului în care fiecare propoziție se raportează la cei din jur și la pasajul în ansamblu.

Funcțiile unei memorii de traducere

Iată un rezumat al principalelor funcții ale unei memorii de traducere.

Funcția externă

Conteaza

Această funcție este utilizată pentru a transfera o melodie și traducerile acesteia dintr-un fișier text într-un TM. Importul se poate face dintr-un format brut , unde o melodie externă este disponibilă pentru a fi importată într-un TM împreună cu traducerea acestuia. Uneori, textele trebuie reprocesate de utilizator. Există un alt format care poate fi folosit pentru import: formatul nativ . Acest format este folosit de TM pentru a salva memoriile de traducere într-un fișier.

Analize

Procesul de analiză are loc în conformitate cu următorii pași:

Analiza textuală

Este foarte important să recunoaștem corect punctuația pentru a distinge de exemplu între o perioadă la sfârșitul unei propoziții și o perioadă într-o abreviere. Astfel, marcajul este un fel de pre-ediție. De obicei, materialele care au fost procesate prin programe de ajutor pentru traducători conțin majorări, deoarece etapa de traducere este încorporată într-o linie de producție a documentelor multilingvă. Alte elemente de text speciale pot fi setate prin marcare. Există elemente speciale care nu trebuie să fie traduse, cum ar fi numele proprii și codurile, în timp ce altele ar putea fi nevoite să fie convertite în format nativ.

Analiza lingvistică

Reducerea de bază a formularului este utilizată pentru a pregăti liste de cuvinte și un text pentru regăsirea automată a termenilor dintr-o anumită bază de date. Pe de altă parte, analiza poate fi utilizată pentru a extrage termeni cu mai multe cuvinte sau frazeologie dintr-un text sursă. Prin urmare, analiza este utilizată pentru a normaliza variațiile în ordinea cuvintelor din frazeologie, adică ce cuvinte pot forma o propoziție.

Segmentare

Scopul său este de a alege cele mai utile unități de traducere. Segmentarea este un fel de analiză. Se face monolingv cu analiza suprafeței și alinierea se bazează pe segmentare. Dacă traducătorii corectează manual segmentările, versiunile ulterioare ale documentului nu se vor potrivi cu TM pe baza segmentării corecte, deoarece programul își va repeta greșelile. Traducătorii continuă de obicei frază cu frază, deși traducerea unei propoziții poate depinde de traducerea celor din jur.

Aliniere

Este sarcina de a defini corespondențele de traducere între textele sursă și destinație. Ar trebui să existe feedback de aliniere pentru segmentare și un algoritm bun de aliniere ar trebui să poată corecta segmentarea inițială.

Extragerea termenului

Poate avea un dicționar anterior ca intrare. De asemenea, atunci când extrageți termeni necunoscuți, puteți utiliza analiza bazată pe statistici text. Acestea sunt destinate estimării cantității de muncă efectuată într-o traducere. Este foarte util pentru planificarea și programarea lucrărilor. Statisticile de traducere numără de obicei cuvinte și evaluează cantitatea de repetare din text.

Export

Exportul transferă textul din TM într-un fișier text extern. Importul și exportul trebuie inversate.

Funcții online

La traducere, unul dintre principalele scopuri ale tehnologiei TM este de a prelua cele mai utile potriviri din memorie, astfel încât traducătorul să o poată alege pe cea mai bună. TM trebuie să afișeze atât sursa, cât și textul țintă, indicând identități și diferențe.

Cercetare

Diferite tipuri de împerechere pot fi recuperate de la un TM.

  • Acord exact

Potrivirile exacte sunt afișate atunci când potrivirea dintre segmentul sursă și segmentul stocat este o potrivire completă, caracter cu caracter. La traducerea unei propoziții, o potrivire exactă înseamnă că aceeași propoziție a fost tradusă anterior. Meciurile exacte se mai numesc meciuri „100%”.

  • Potrivire exactă în context (ICE) sau potrivire garantată

O potrivire ICE este o potrivire exactă care apare exact în același context, adică în aceeași poziție într-un paragraf. Contextul este adesea definit prin expresii și atribute înconjurătoare, cum ar fi numele fișierului documentului, data și permisiunile.

  • Acord parțial

Când meciul nu este exact, atunci este un meci parțial. Unele sisteme alocă procentaje pentru aceste tipuri de potriviri, caz în care o potrivire parțială este mai mare de 0% și mai mică de 100%. Aceste date nu sunt comparabile între diferite sisteme decât dacă este specificată metoda de notare.

  • Concordanţă

Când traducătorul selectează unul sau mai multe cuvinte în segmentul sursă, sistemul preia perechi de segmente care corespund criteriilor de căutare. Această caracteristică este utilă pentru găsirea traducerilor de termeni și expresii în absența unei baze de date terminologice.

Actualizați

Un TM este actualizat cu o nouă traducere atunci când a fost acceptată de traducător. Ca întotdeauna la actualizarea unei baze de date, se pune întrebarea ce să facem cu conținutul anterior al bazei de date. Un TM poate fi editat prin schimbarea sau ștergerea intrărilor din TM. Unele sisteme permit traducătorilor să salveze mai multe traduceri ale aceluiași segment sursă.

Traducere automată

Instrumentele de memorie de traducere implică deseori recuperarea și înlocuirea automată.

  • Căutare automată

În TM-uri, căutarea este efectuată și rezultatul este afișat automat pe măsură ce traducătorul se deplasează prin document.

  • Înlocuire automată

Cu înlocuirea automată, dacă apare o potrivire exactă în traducerea unei noi versiuni a unui document, software-ul repetă vechea traducere. Dacă traducătorul nu verifică traducerea față de sursă, se va repeta o eroare a traducerii anterioare.

Conexiune retea

Rețeaua permite unui grup de traducători să traducă un pasaj împreună, mai repede decât oricine poate face lucrând singur, deoarece propozițiile și propozițiile traduse de un traducător sunt disponibile pentru alții. Mai mult, dacă memoria de traducere este partajată înainte de traducerea finală, există posibilitatea ca orice greșeli ale unui traducător să fie corectate de către alți membri ai echipei.

Memorie text

„Memoria text” este baza propunerii Lisa OSCAR pentru un standard pentru TM în cod XML. [2] Memoriile text includ amintiri de autor și memorii de traducere.

Memorie de traducere

Identificatorii unici sunt amintiți în timpul traducerii, astfel încât documentul în limba țintă să fie „exact” aliniat la nivelul unității de text. Dacă documentul sursă este modificat ulterior, atunci unitățile de text nemodificate pot fi traduse direct în noua versiune țintă a documentului, fără a fi nevoie de nicio interacțiune a traducătorului. Este conceptul de concordanță „exactă” sau „perfectă” cu memoria de traducere. xml: tm poate oferi, de asemenea, mecanisme pentru potrivirile parțiale și exploatate din document.

Istoria amintirilor de traducere

Conceptul din spatele amintirilor de traducere nu este recent - cercetările universitare asupra conceptului au început la sfârșitul anilor 1970, iar primele comercializări au devenit disponibile la sfârșitul anilor 1980 - dar au devenit viabile din punct de vedere comercial doar la sfârșitul anilor '90. Inițial, sistemele de memorie de traducere stocau fraze sursă și destinație aliniate între ele într-o bază de date, din care puteau fi reamintite în timpul traducerii. Problema acestei abordări „exploatate” este că nu există nicio garanție că noua propoziție în limba sursă va fi în același context cu propoziția sursă a bazei de date. În consecință, toate corespondențele exploatate necesită un traducător [uman] pentru a examina concordanța memoriei pentru relevanță în noul document. Deși mai mică decât traducerea efectivă, recenzia are totuși un cost.

Suport pentru limbi noi

Instrumentele de memorie de traducere de la majoritatea companiilor nu acceptă multe limbi emergente. Recent, țările asiatice precum India s-au aruncat în procesarea automată a limbilor și există o cerere puternică de memorii de traducere în astfel de țări în curs de dezvoltare. Deoarece majoritatea companiilor de software CAT se concentrează pe limbile instituționale, nimic nu se întâmplă în limbile asiatice.

Tendințe recente

O dezvoltare recentă este conceptul de „memorie text”, spre deosebire de memoria de traducere. [3] Aceasta este, de asemenea, baza standardului LISA OSCAR propus. [4] „Memorii text” în xml: tm includ „memorii de autor” și „memorii de traducere”. Memoria autorului este utilizată pentru a urmări modificările din timpul ciclului de construire. Memoriile de traducere folosesc informații din memoria autorului pentru a implementa potrivirea în memoria de traducere. Deși este destinată în principal documentelor XML, xml: tm poate fi utilizat pe orice document care poate fi convertit în format [5] XLIFF.

Memorii de traducere a doua generație

Mult mai puternice decât TM-urile din prima generație, acestea includ un motor de analiză lingvistică, folosesc tehnologia „bucăți” pentru a împărți segmente în grupuri terminologice inteligente și generează automat glosare specifice.

Memorie de traducere și standarde conexe

TMX

EXchange Memory Translation: TMX este un standard care facilitează schimbul de memorii de traducere între furnizorii de traduceri. TMX a fost adoptat de comunitatea traducătorilor ca cel mai bun mod de a importa și exporta memorii de traducere. Versiunea actuală, 1.4b, permite recreerea documentelor sursă și destinație originale din datele TMX. O versiune actualizată, 2.0, este în curs de dezvoltare. [6]

TBX

TermBase eXchange . Acest standard LISA, care a fost revizuit și republicat ca ISO 30042, permite schimbul de date terminologice, inclusiv informații lexicale detaliate. Cadrul pentru TBX este furnizat de trei standarde ISO: ISO 12620, ISO 12200 și ISO 16642. ISO 12620 oferă un inventar de „categorii de date” bine definite cu nume standardizate care funcționează ca tipuri de elemente de date sau ca valori predefinite. ISO 12200 (cunoscut și sub numele de MARTIF) oferă baza pentru nucleul structural al TBX. ISO 16642 (cunoscut și sub denumirea de Terminological Markup Framework) include un metamodel structural pentru Markup Language Terminology în general. [7]

UTX

Formatul Universal Terminology eXchange (UTX) este un standard special conceput pentru a fi utilizat pentru dicționarele de traducere automată ale utilizatorilor, dar poate fi utilizat pentru glosare generale, lizibile de utilizator. Scopul UTX este de a accelera schimbul de dicționare și refolosirea acestora prin specificațiile sale extrem de simple și practice.

SRX

Segmentation Rules Exchange („Segmentation Rules eXchange”: SRX) este destinat să îmbunătățească standardul TMX, astfel încât datele de memorie de traducere care sunt schimbate între aplicații să poată fi utilizate mai eficient. Capacitatea de a specifica regulile de segmentare care au fost utilizate în traducerea anterioară poate crește exploatarea care poate fi realizată.

GMX

GILT metric . GILT înseamnă (Globalizare, internaționalizare, localizare și traducere) Globalizare, internaționalizare, localizare și traducere. Standardul metric GILT constă din trei părți: GMX-V pentru valorile volumului, GMX-C pentru valorile complexității și GMX-Q pentru valorile de calitate. Standardele GILT Metrics propuse au sarcina de a cuantifica volumul de muncă și cerințele de calitate pentru orice afacere GILT. [8]

OLIF

Deschideți formatul Lexicon Interchange . OLIF este un standard deschis, compatibil XML, pentru schimbul de date terminologice și lexicale0. Deși inițial a fost conceput ca un mijloc de schimb de date lexicale între lexicane proprietare pentru traducere automată, a evoluat într-un standard deschis și mai general pentru schimbul de terminologie. [9]

XLIFF

Format de fișier de schimb de localizare (XML) Interchange Formats (XLIFF) intenționează să ofere un singur format de fișier de schimb care poate fi înțeles de orice furnizor de localizare. XLIFF este metoda aleasă pentru schimbul de date în format XML în industria traducerilor. [10]

TransWS

Servicii web de traducere . TransWS specifică apelurile necesare pentru a utiliza serviciile web pentru prezentarea și recuperarea fișierelor și mesajelor legate de proiectele de localizare. Este conceput ca un cadru detaliat pentru automatizarea multor procese de localizare curente prin utilizarea serviciilor web. [11]

xml: tm

Această abordare a memoriei de traducere se bazează pe conceptul de memorie text care include memoria autorului și memoria de traducere. xml: tm a fost donat Lisa OSCAR de XML-INTL

PIC

Formatul obiectului portabil Gettext. Deși nu sunt adesea considerate ca un format de memorie de traducere, fișierele Gettext PO sunt fișiere bilingve care sunt utilizate și în procesele de memorie de traducere în același mod în care sunt utilizate memoriile de traducere. De obicei, un sistem de memorie de traducere PO va consta din mai multe fișiere într-un director structurat în copac. Instrumentele obișnuite pentru lucrul cu fișiere PO includ instrumentele GNU gettext și Translate Toolkit. Există, de asemenea, mai multe instrumente și programe care modifică fișierele PO ca și cum ar fi simple fișiere text sursă.

Software de memorie de traducere pentru computere desktop

Software-ul de memorie pentru traducerea computerului desktop este utilizat în mod obișnuit de către traducători individuali pentru a finaliza traducerile. Acestea sunt un instrument specializat pentru traducere în același mod în care un procesor de text este un instrument specializat pentru scriere.

Memorie de traducere centralizată

Sistemele de memorie de traducere centralizate stochează TM-uri pe un server central. Acestea lucrează împreună cu TM-urile de masă și pot crește ratele de concordanță ale TM cu 30-60% mai mult decât exploatarea realizată doar de TM-urile de masă. Exportă kituri de traducere sau „t-kituri” pentru instrumentele de computer desktop ale TM. Un kit t conține unități pre-segmentate pentru a fi traduse pe serverul central și un subset al TM care conține toate concordanțele existente ale TM. TM centralizat face parte, de obicei, dintr-un sistem de gestionare a globalizării (GMS), care poate conține, de asemenea, o bază de date terminologică centralizată (glosar), un program de management (motor de flux de lucru), controlul costurilor și alte instrumente.

Notă

  1. ^ A b Elina Lagoudaki (2006), "Traducerea sistemelor de memorie: perspectiva iluminatoare a utilizatorilor. Constatarea cheie a sondajului TM 2006 Realizat în iulie și august 2006. (Imperial College London, Translation Memories Survey 2006), p.16 Arhivat în 25 martie 2007 la Internet Archive .
  2. ^ Lisa OSCAR xml: tm standard , la xml-intl.com . Adus la 10 iulie 2012 (arhivat din original la 10 februarie 2012) .
  3. ^ Traducerea documentelor XML cu xml: tm
  4. ^ xml: tm
  5. ^ XLIFF
  6. ^ Format de schimb de memorie de traducere Arhivat 1 mai 2008 la Internet Archive .>
  7. ^ Format Termbase Exchange Arhivat 24 martie 2008 la Internet Archive .
  8. ^ GILT Metrics Arhivat 14 martie 2008 la Internet Archive .
  9. ^ Deschideți formatul Lexicon Interchange
  10. ^ Format de fișier de schimb de localizare XML
  11. ^ Servicii web de traducere

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT