Transcriere asistată de computer

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Aceasta este o categorie specială de software care permite traducerea în timp real și clar a discursului înregistrat de o tastatură stenografică. În special, datele trimise de la tastatură sunt comparate cu cele conținute într-un dicționar electronic care asociază o înregistrare specifică, care poate fi un cuvânt, un acronim, un nume sau o comandă de formatare.

fundal

Deși au fost efectuate studii și aplicații pe această temă în diferite țări și pe diverse tastaturi de stenografie, experiența Statelor Unite - poate datorită difuzării considerabile a tastaturii „Stenotype” (concepută de Ward Stone Ireland în 1906 și brevetată în 1911) în „zona instanțelor judecătorești” - a avut o importanță primordială pentru evoluția industriei de transcriere a stenogramelor asistată de computer. Primele experiențe în acest domeniu datează de la începutul anilor 1960, când cea mai mare companie din sector, „Stenograph” american, a fost chemată de guvernul SUA pentru a-și oferi contribuția la dezvoltarea unui sistem de traducere computerizată pentru limbi străine, continuând o cercetare începută de armată și IBM încă din anii 1950. Proiectul a inclus dezvoltarea unei tastaturi stenografice pentru limba rusă și instruirea contabililor bilingvi pentru a copia documente în limba rusă. Cu acest sistem, notele de stenografie tipărite pe o fâșie normală de hârtie au fost citite de un scaner optic, care a produs date digitale procesate ulterior de un computer special. Calculatorul a tradus combinațiile steno în fonemele limbii ruse și apoi în fonemele limbii engleze; acestea din urmă au fost ulterior transcrise în engleză. Sistemul nu a fost impecabil, dar a fost de mare ajutor pentru guvernul și armata SUA. Din această aplicație a început să se dezvolte ideea transcrierii computerizate a notelor de stenografie. La mijlocul anilor șaizeci au sosit pe piață primele computere cu amintiri magnetice și Stenograph a decis să înceapă dezvoltarea primului sistem de transcriere asistată împreună cu IBM, proiectând o mașină de stenografiere care, la apăsarea fiecărei taste, pe lângă cea obișnuită notele de stenografie au fost, de asemenea, impresionate pe o fâșie de hârtie, au produs impulsuri electrice, care au fost înregistrate în formă digitală de un înregistrator magnetic pe o casetă compactă obișnuită. Abia în 1978, însă, vor fi comercializate primele sisteme de transcriere asistată de computer (CAT). Această inovație a crescut foarte mult productivitatea stenografilor judiciari și viteza cu care textele puteau fi procesate și livrate. Mai mult, succesul enorm al acestor sisteme este mărturisit de creșterea amețitoare a veniturilor companiilor din sector (de exemplu, Stenograph a înregistrat o cvadruplare a cifrei sale de afaceri anuale pentru următorii zece ani). De la mijlocul anilor 1980 au apărut primele computere personale și odată cu ele primul software de scurtătură capabil să ruleze pe astfel de sisteme; la sfârșitul anilor optzeci, a apărut apariția unor sisteme capabile să producă transcripții în timp real. Folosind această funcție inovatoare, pe parcursul anilor 1990, stenograma computerizată, părăsind sfera strict judiciară, a trecut peste noi frontiere; de exemplu, cel al subtitrării la televizor pentru surzi (așa-numita subtitrare apropiată ) și, ulterior, al scrierii de vorbire pe internet (trimiterea pe internet în timp real a discursurilor sau intervenții deosebit de importante). În același timp, unii producători, sesizând potențialul pieței, vor dezvolta versiuni internaționale ale software-ului lor capabile să se interfețe cu orice tastatură și în orice limbă. În prezent, sistemele CAT sunt utilizate de aproape toate tastaturile stenografice existente: Stenotype (SUA), Grandjean (Franța), Palantype (Franța-Marea Britanie) și Michela (Italia) (vezi Michela Machine .

Principiul de funcționare

Principiul de bază pe care se bazează toate software-urile CAT este aproape același: utilizarea unui dicționar, adică o listă care asociază o înregistrare specifică, care poate fi un cuvânt, la fiecare combinație de taste sau secvență de combinații de stenogramă. numele sau chiar o comandă pentru computer.

Combinațiile silabice tastate pe tastatura de stenogramă sunt transferate fără nicio prelucrare către software-ul de transcriere, care de fapt face toate lucrările de traducere și procesare. Fiecare combinație, începând de la prima primită, este comparată cu înregistrările dicționarului începând cu aceeași combinație, începând cu cea care conține o secvență de silabe mai lungă până la monosilabele unice. Dacă software-ul identifică o echivalență, silaba sau succesiunea silabelor vor fi traduse imediat (adică vor fi înlocuite cu înregistrarea din dicționar); în caz de rezultat negativ, programul va trece pentru a analiza următoarea silabă.

Este destul de ușor de înțeles că un astfel de proces, bazat rigid pe criteriul ierarhic „a celei mai lungi silabe”, deși este capabil să interpreteze corect majoritatea secvențelor silabice, nu este liber de posibile ambiguități. Astfel de ambiguități interpretative sunt denumite în mod obișnuit „conflicte”.

Conflictele posibile sunt de două categorii: „conflicte de traducere” și „conflicte de graniță”. Primele derivă din modalitățile prescurtate ale sistemului de stenografie utilizat; acestea din urmă sunt în schimb o consecință a aplicării principiului ierarhic.

Conflictele de interpretare apar ori de câte ori operatorul folosește aceeași abreviere sau secvență de stenogramă pentru a indica termeni diferiți. De exemplu, pentru sistemul American Stenotype: "MAID = made \ maid"; DAOE-VAOIS = dispozitiv \ devise "; SAOER-YAL = serial \ cereal".

Conflictele de frontieră, pe de altă parte, sunt mai strâns legate de principiul de funcționare al programului, adică cel al „celei mai lungi silabe”, care optează întotdeauna pentru înregistrarea care include cel mai mare număr de silabe, care, în unele cazuri, poate produce ambiguitate despre începutul și sfârșitul secvenței steno. De exemplu, din nou cu referire la sistemul de stenotip american: "A-LONG = along \ a long"; "DREKT / OR = director \ direct sau". În unele cazuri, prezența unei definiții a două sau mai multe silabe poate duce la o traducere incorectă a secvenței silabice, precum și a silabelor ulterioare (de exemplu, definiția „LAI-DI = doamnă”, dacă scrieți „ detalii laic ... "va produce traducerea incorectă" cozile doamnei ").

Pentru a elimina aceste probleme - a căror incidență și tipologie variază considerabil în funcție de teoria abreviată utilizată - sunt posibile două soluții: prima este modificarea unor criterii de abrevieri; al doilea implică utilizarea algoritmilor de rezoluție bazate pe reguli gramaticale. Prima cale a fost urmată la sfârșitul anilor '80, când, imediat după sosirea pe piața americană a sistemelor în timp real, datorită și puterii limitate de procesare și capacității reduse a amintirilor disponibile computerelor vremii, mai multe școli de stenogramă a început să propună așa-numitele teorii „fără conflicte” (de exemplu: StenEd), sugerând modificări mai mult sau mai puțin extinse ale teoriilor prescurtate utilizate până atunci pentru a diversifica cât mai mult posibil, chiar și cu secvențe silabice mai extinse, scrierea de cuvinte similare. În mai multe cazuri, teoriile propuse, deși inexcepționale din punctul de vedere al rezultatului final (texte perfecte, fără nicio ambiguitate), au ajuns să piardă din vedere obiectivul fundamental al oricărei forme de stenografie, scriere rapidă, transformându-l într-un fel de tastare rapidă. Din acest motiv, la mijlocul anilor nouăzeci a existat o anumită regândire și aceste teorii au fost abandonate treptat. A doua cale a început să se afirme odată cu venirea pe piață a mașinilor Pentium și a sistemelor de operare de ultimă generație, care au permis logici de rezoluție din ce în ce mai rafinate și avansate. În prezent, această cale pare a fi cea predominantă astăzi, deoarece conflictele în cauză sunt gestionate aproape în întregime de computer, mai degrabă decât de operator.