Traducere automată

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Traducerea automată sau MT (Traducere automată din engleză) este o zonă a lingvisticii de calcul și a științei traducerii care studiază traducerea textelor dintr-o limbă naturală în alta prin intermediul programelor computerizate.

Istorie

Primele experimente de traducere automată au fost efectuate în anii treizeci ai secolului trecut de franco-armeanul Georges Artsrouni și rusul Pёtr Smirnov-Trojanskij . Creierul mecanic conceput de Artsouni a fost de fapt un dispozitiv pentru prelucrarea generală (arhivare, căutare, consultare) a informațiilor pe bandă, care ar putea fi folosită ca dicționar bilingv grație unui mecanism de substituție cuvânt cu cuvânt. În schimb, modelul proiectat de Smirnov-Troyansky a folosit un dicționar bilingv și o metodă de corelare a rolurilor gramaticale existente în diferite limbi. Procesul de traducere a fost împărțit în trei faze: transformarea textului original într-o formă logică modelată pe baza limbii sursă; transformarea acestei forme logice într-o a doua formă logică modelată pe baza limbii țintă; transformarea acestei a doua forme logice într-un text în limba țintă.

Povestea reală a TA începe în 1949 cu inginerul Warren Weaver , care a propus mai întâi crearea unui program de calculator capabil să traducă un text dintr-o limbă în alta fără nicio intervenție umană. În documentul intitulat Traducere , scris pentru Divizia de Științe Naturale a Fundației Rockefeller , inginerul și matematicianul american au formulat câteva ipoteze cu privire la potențialul și metodele AT: a susținut validitatea metodei de substituție cuvânt cu cuvânt și a propus integrează-l cu tehnici de statistici aplicate pentru a detecta frecvența cuvintelor și a caracterelor din textele paralele. Ideea Weaver a reușit să capteze atenția mai multor companii într-un timp foarte scurt, care au decis să finanțeze proiectul.

În anii 1950, au început să apară primele limitări ale traducerii automate. În timpul unei prelegeri susținute în 1952, Yehoshua Bar-Hillel , conducător de proiecte noi la MIT (Massachusetts Institute of Technology), a recunoscut pentru prima dată că traducerea complet automatizată poate fi realizată doar cu prețul unui anumit grad de neglijare și că FAHQT (Traducerea complet automată de înaltă calitate) a fost un obiectiv de neatins. Bar-Hillel era convins că ambiguitatea semantică și complexitatea sintactică erau cele mai mari obstacole pentru sistemele de traducere automată, așa că a dezvoltat un prototip de traducător automat care folosea forme simplificate de engleză, cum ar fi engleza de bază , creată de lingvistul și scriitorul Charles Ogden în jurul anilor treizeci. .

În 1952 a avut loc prima conferință TA, care a fost esențială în dezvoltarea primului software de traducere automată major de către IBM . În 1954, la New York, la sediul IBM , a avut loc prima demonstrație publică a funcționării unui sistem de traducere automată în colaborare cu Universitatea Georgetown . În timpul experimentului, 49 de propoziții au fost traduse din rusă în engleză cu un calculator care avea 250 de cuvinte de vocabular și șase reguli gramaticale. La acea vreme, demonstrația a avut un impact major, deoarece a convins publicul că apariția traducerii automate era iminentă, stimulând finanțarea cercetării în special în Statele Unite.

Cu toate acestea, în 1966, Comitetul consultativ pentru prelucrarea limbilor automate (ALPAC) a publicat un raport care a răcit mult entuziasmul și, odată cu acesta, studiile în domeniul traducerii automate, deoarece a subliniat lipsa progreselor realizate și a concluzionat că traducerea automată a fost mai scumpă și mai puțin precisă decât traducerea umană. Din acel moment, finanțarea de stat a fost alocată doar celor mai meritate proiecte AT și interesul cercetătorilor s-a îndreptat către aplicațiile de traducere asistate de computer. În 1983 a fost lansat TSS (Translation Support System), primul program de traducere automată care funcționează pe un computer produs de ALPS, o companie americană care produce software pentru aplicații lingvistice. TSS a fost adoptat rapid de multe companii mari, inclusiv IBM , pentru activitatea lor de traducere internă.

Tipuri

Există trei tipuri importante de traducere automată astăzi. De fapt, sistemele de traducere automată pot fi clasificate în următoarele grupuri:

  • cele bazate pe reguli lingvistice;
  • cei care folosesc corpusuri textuale;
  • cele bazate pe context .

Traducere bazată pe reguli

Traducerea automată bazată pe reguli, care include traducerea bazată pe principiul transferului (transfer) și cea bazată pe utilizarea unui interlingv (sau „ limbaj pivot ”), este în prezent paradigma dominantă pentru traducerea automată. Cuvintele sunt traduse dintr-un punct de vedere pur lingvistic prin alegerea celor mai potrivite echivalente lingvistice. Traducerea automată bazată pe reguli utilizează de obicei un proces de traducere în trei pași. În prima fază, cunoscută sub numele de fază de analiză, sistemul analizează propozițiile textului sursă și le transformă în diagrame arbore (morfologice, sintactice și / sau semantice). În a doua fază, numită fază de transfer, arborii sintactici creați pentru textul sursă sunt transformați în tot atâtea arbori cu structura sintactică a limbii țintă. În a treia fază, numită fază de generare sau sinteză, cuvintele limbii sursă sunt traduse în limba țintă și inserate în arborele țintă urmând regulile sintactice ale limbajului în sine pentru a crea propoziții complete.

O tehnică specială de traducere automată bazată pe reguli este cea care începe de la o limbă intermediară ("interlingua"). În comparație cu sistemul de traducere directă cuvânt cu cuvânt, în acest caz limba sursă a textului care urmează a fi tradus este transferată într-o limbă intermediară, a cărei structură este independentă de cea a limbii originale și a limbii finale. . Textul în limba țintă este obținut din reprezentarea textului în limba intermediară.

Cele mai populare sisteme de traducere automată sunt toate bazate pe reguli. Printre acestea, cele mai cunoscute sunt cu siguranță Babel Fish (folosit de AltaVista și apoi de Yahoo !, și în cele din urmă întrerupt), Microsoft Translator și Google Translate .

Principalele puncte slabe ale acestei tehnologii sunt practic două. În primul rând, cantitatea de reguli pe care se bazează orice sistem este evident limitată. Pentru rezultate mai bune, autorii textului care urmează a fi tradus ar trebui să își adapteze stilul de scriere, ceea ce este, din motive evidente, absolut imposibil. În al doilea rând, deși pachete de traducere automată bazate pe reguli comerciale cu zeci de combinații de limbi sunt disponibile pe piață, multe limbi nu au fost încă activate.

Traducere prin corpuri

Tipul de traducere automată care folosește corpusuri lingvistice paralele se bazează pe analiza eșantioanelor reale și a traducerilor corespunzătoare ale acestora. Printre aceste sisteme, principalul este traducerea automată statistică, prescurtată în SMT ( Statistic Machine Translation ). Scopul acestei tehnologii este de a genera traduceri din metode statistice bazate pe corpusuri de texte bilingve și monolingve. Pentru ca SMT să funcționeze corect, două baze de date destul de mari trebuie puse la dispoziția sistemului: una dintre texte în limba sursă cu traducerile relative în limba țintă și alta de texte numai în limba țintă. Atunci când se confruntă cu un text nou care urmează să fie tradus, sistemul generează posibile traduceri ale secvențelor de cuvinte pe care le găsește în textul propriu-zis pe baza potrivirilor găsite în prima bază de date. Dintre diferitele propuneri de traducere, acesta selectează apoi cea mai bună pe baza celei de-a doua baze de date, cea referitoare doar la limba țintă. Avantajul traducerii statistice automate este că, odată ce sistemul a fost configurat conform specificațiilor solicitate de client, acesta din urmă are un instrument capabil să ofere o calitate decentă a traducerii textelor similare. Dezavantajul este că, pentru ca sistemul să ofere rezultate de un anumit nivel, trebuie să i se pună la dispoziție un corp foarte substanțial de traduceri existente și aprobate.

După cum vă puteți imagina cu ușurință, cu această tehnologie calitatea traducerii crește pe măsură ce dimensiunea corpusuri lingvistice în bazele de date crește. Cu un set nesfârșit de traduceri și texte existente în limba țintă, s-ar putea obține rezultate excelente cu texte cu un subiect similar.

Primul program statistic de traducere automată a fost Candide, dezvoltat de IBM .

Furnizorul mondial de sisteme statistice de traducere automată recomandă un corpus bilingv de cel puțin două milioane de cuvinte pentru fiecare combinație de limbi, dar acest lucru este mult mai mic decât ceea ce este necesar pentru a obține traduceri acceptabile. Din acest motiv și, de asemenea, pentru tendința de a costa mai mult decât unele sisteme bazate pe reguli, sistemele statistice de traducere automată sunt utilizate aproape exclusiv de către agențiile guvernamentale și multinaționale.
Din 2017, au fost lansate serviciile web ale DeepL Translator (ex linguee ) și Ludwig.guru.

Traducere bazată pe context

Traducerea automată bazată pe context se bazează pe găsirea celei mai bune traduceri a unui cuvânt, luând în considerare restul cuvintelor care îl înconjoară.

Sistemul împarte un text în unități de patru / opt cuvinte și propune traduceri ale fiecărei secvențe în limba țintă, eliminând traducerile care conțin propoziții fără sens. Această filtrare folosește un corpus în limba țintă, în care apare de câte ori apare expresia căutată. Apoi, secvența creată este mutată cu o poziție (un singur cuvânt), retraduind majoritatea cuvintelor și filtrând textul din nou, astfel încât doar propozițiile să fie coerente. Această procedură se repetă pe tot parcursul textului. În faza finală, rezultatele fiecărei secvențe sunt concatenate pentru a obține o singură traducere a textului.

Traducerea automată bazată pe context are un mare avantaj față de alte tehnologii de traducere automată bazate pe corpuri lingvistice: adăugarea de noi limbi este foarte ușoară. Pentru a insera un nou limbaj, de fapt, nu este necesar să se traducă milioane de cuvinte ca în metodele statistice: sunt suficiente două corpusuri lingvistice mici: un dicționar electronic bun, care conține reguli care permit sistemului să conjugeze corect verbele și să fie de acord cu adjectivele și substantive după sex și număr și un corpus în limba țintă, care poate fi găsit cu ușurință pe internet .

Astăzi, cel mai sofisticat software oferă posibilitatea de a seta parametri specifici în funcție de sectorul în care se efectuează traducerea pentru a obține rezultate mai precise. De exemplu, puteți limita cantitatea de înlocuiri permise sau puteți selecta nume proprii și puteți ajuta software-ul să recunoască cele mai frecvente terminologii și frazeologie . Aceste tehnici sunt deosebit de utile în domeniile în care se folosește un limbaj formal bazat pe formă, cum ar fi anunțuri în gări și aeroporturi, documente legale și administrative sau prognoze meteo.

Traducătorii automați nu pot înlocui traducătorii umani, dar pot ajuta la gestionarea unei cantități mai mari de muncă într-un mod organizat și sunt totuși utili pentru a înțelege semnificația generală a unui text și pentru a verifica dacă conținutul vă interesează.

Traducere automată prin limbaj intermediar

Traducerea automată utilizând limbajul intermediar este una dintre strategiile clasice de traducere automată. Ideea de bază a acestei metode de traducere indirectă este de a traduce textul inițial într-o limbă intermediară, independentă de celelalte două (inițiale și finale), pentru a le traduce ulterior în limba țintă.

Figura 1. Diagrama limbilor implicate în procesul de traducere folosind un limbaj de legătură

Primele idei de traducere automată prin limbaj intermediar au apărut încă din secolul al XVII-lea, cu Descartes și Leibniz . Ambele au formulat teorii pentru a elabora dicționare bazate pe coduri numerice universale. Cave Beck , Athanasius Kircher și Johann Joachim Becher , la rândul lor, au lucrat la dezvoltarea unui limbaj universal, fără echivoc, bazat pe principii, logică și simboluri iconice. În 1668, John Wilkins a elaborat o interlingua în Eseu către un personaj real și un limbaj filozofic .

Bibliografie

  • ( EN ) W. John Hutchins, Harold L. Somers, An Introduction to Machine Translation , London, Academic Press, 1992. Accesat la 23 ianuarie 2009 (arhivat din original la 22 aprilie 2009) .
  • Aleksandăr Lûdskanov , O abordare semiotică a traducerii. De la perspectiva computerului la știința traducerii , editat de Bruno Osimo , Milano, Hoepli , 2008 [1967] , pp. 76 + XIX, ISBN 978-88-203-4084-1 .
  • Claude Piron, Le défi des langues - Du gâchis au bon sens , Paris, L'Harmattan, 1994.
  • Hellmut Riediger, Traducere cu computerul , Weaver Laboratory, 2018 [1]
  • Isabella Chiari, Introducere în lingvistică computațională , Bari, Laterza , 2007, ISBN 978-88-420-8209-5 .

Elemente conexe

linkuri externe

Controlul autorității Tezaur BNCF 9915 · LCCN (EN) sh00006582 · GND (DE) 4003966-3 · BNF (FR) cb11947452q (dată) · NDL (EN, JA) 00.565.743