Recunoașterea vocală

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Recunoașterea vorbirii este procesul prin care limbajul oral uman este recunoscut și procesat ulterior printr-un computer sau mai precis printr-un sistem special de recunoaștere a vorbirii.

Sistemele de recunoaștere a vorbirii sunt utilizate pentru aplicații vocale automatizate în contextul aplicațiilor telefonice , de exemplu centre de apel automate, pentru sisteme de dictare , care vă permit să dictați vorbe către computer sau pentru sistemele de control ale sistemului de navigație prin satelit sau telefon din mașină prin comenzi vocale.

Istorie

Primul sistem de recunoaștere a vocii a văzut lumina în 1952: consta dintr-un dispozitiv pentru recunoașterea cifrelor vocale unice [1] , un alt dispozitiv din primii ani a fost IBM Shoebox , expus la Salonul Auto de la New York din 1964 [2] . În anii 1960, unii cercetători universitari în tehnologia de recunoaștere a unui singur cuvânt erau activi în Italia, precum Angelo Raffaele Meo din Torino și alții.

Cu toate acestea, în Italia, tehnologia de recunoaștere a vorbirii a fost studiată pe larg, în special de către un grup de cercetare al CSELT din Torino începând din 1979 [3] : din 1980 centrul a început studiul modelelor statistice, începând cu studiul difonilor limbii Italiană și alte limbi europene. În anii 1980, CSELT a coordonat mai multe proiecte europene în acest domeniu și în 1990 a publicat prima carte italiană despre stadiul tehnicii (din care există și o versiune în limba engleză, retipărită în 2013 de Springer). După privatizarea Telecom Italia, compania mamă a centrului, acest grup a devenit newco Loquendo SpA, cel mai mare jucător italian din sector și unul dintre principalii la nivel mondial.

La începutul anilor 1990, SIP a propus o versiune a serviciului de recunoaștere a vorbirii CSELT pentru serviciul 1412 (care a folosit și sinteza vorbirii CSELT pentru răspuns) [3] , în contextul unui sistem de dialog .

Potrivit experților din industrie, recunoașterea vorbirii (SR) la începutul anilor 1990 a fost prezentată ca un sistem de eliminare completă a transcripției, mai degrabă decât de eficientizare a procesului de transcriere, deci nu a fost acceptată imediat. [ nevoie de citare ] La aceasta s-a adăugat faptul că, la vremea respectivă, tehnologia era încă în deplină maturitate.

Cea mai mare limitare tehnică a transcrierii prin recunoașterea vorbirii este că natura dictării narative este uneori interpretativă și, prin urmare, poate necesita o judecată care poate fi furnizată de o ființă umană, dar nu încă de un sistem automat. O altă limitare a fost cantitatea mare de timp necesară de către utilizator și / sau furnizorul de sistem pentru a instrui software-ul de către utilizator: totuși, în ultimii ani, software-ul necesită o formare ieftină, consumatoare de timp sau deloc.

O distincție a sistemelor automate de recunoaștere a vorbirii se face adesea între:

  • „sisteme de sintaxă artificială”, care sunt de obicei specifice domeniului
  • „prelucrarea limbajului natural”, care este de obicei specifică limbii. [ Neclar ]

Prima aplicație din lume [ necesitate citare ] de telefonie mobilă apare în 2003 cu Nokia 6630 și este utilizat din ce în ce mai mult până când devine dominant în 2010 în diferite smartphone-uri sau prin implementări directe în telefonul mobil sau aplicații terțe.

Software

Aceste programe funcționează cu algoritmi adaptivi de tip statistic inferențial, care reconstruiesc limbajul pe baza frecvenței asocierilor dintre cuvinte. Au, de asemenea, un vocabular fonetic cu pronunțiile de bază ale numeroaselor cuvinte în limba selectată, recunoscând astfel și timbrul vocii vorbitorului.

Cealaltă mare familie de sisteme de analiză a limbajului folosește un vocabular de domeniu construit de producători și de utilizator, de exemplu prin ontologii . Programul de recunoaștere a vorbirii nu trebuie să „înțeleagă”, ci să transcrie ceea ce s-a spus. Cu toate acestea, deținerea unui vocabular nu numai de cuvinte unice, ci de asocierile lor tipice, introduse de om sau reconstituite prin mijloace statistice, este de un ajutor considerabil în îmbunătățirea calității recunoașterii.

Hardware

Începând cu mijlocul anilor 1980 , unele industrii au început să producă microprocesoare specializate în recunoașterea vorbirii. În 1986, centrul de cercetare italian CSELT al grupului STET a prezentat la conferința Eusipco 86, din Olanda, un microprocesor VLSI pentru recunoașterea vorbirii independent de vorbitor pentru vorbirea continuă în sectorul telefonic: RIPAC (Recognition of Connected PArlato) [4 ] . Acest circuit a fost proiectat cu Elsag și fabricat de SGS .

Scrierea vocală

Programele vă permit să dictați documente în orice editor de text, cum ar fi Notepad, Word, OpenOffice sau caseta de text a programului dvs. de e-mail. De asemenea, vă permit să creați macrocomenzi vocale care comandă săgeata mouse-ului pentru a reporni computerul, deschide și închide fișiere și programe, accesa meniuri sau un anumit site de internet etc.

Instalarea necesită citirea unei melodii în fața microfonului, pentru a obișnui programul să recunoască vocea, care este înregistrată și analizată pentru a construi ( regla ) o bibliotecă de fișiere vocale. Antrenarea programului cu privire la vocea cititorului reduce drastic erorile legate de recunoașterea vorbirii.

Mai târziu, programul solicită o listă de documente Word sau alte formate scrise de vorbitor, pentru a-și stoca vocabularul.

Antrenamentul poate continua atunci când programul nu recunoaște pronunția unui cuvânt, tastând textul și înregistrând pronunția corespunzătoare, astfel încât programul să creeze un fișier vocal (care combină sunetul și ortografia cuvântului dorit). Alternativ, cuvântul poate fi combinat cu o succesiune de simboluri din alfabetul fonetic.

Alte aplicații

Recunoașterea vorbirii, care implică traducerea intrării vorbirii umane în intrarea de colectare a datelor și a ieșirii datelor în ieșirea vorbirii, este, de asemenea, utilizată în optimizarea proceselor legate de lanțul de aprovizionare. Atunci când este integrat cu laptopuri și rețele LAN fără fir pentru aplicații logistice, recunoașterea vorbirii crește dramatic productivitatea și viteza de achiziție a datelor pentru soluțiile mobile de muncă.

Multe aplicații sunt candidații ideali pentru soluții de recunoaștere a vorbirii: operațiuni de depozitare / distribuție, gestionarea stocurilor , controlul calității, servicii de teren, lumină de citire , apă, gaz, asistență medicală etc.

Recunoașterea vorbirii permite multi-tasking care, la rândul său, are ca rezultat o creștere semnificativă a productivității acestor aplicații în comparație cu soluțiile pe suport de hârtie sau angajarea manuală. Cu sistemele scrise sau cu cele care se angajează, utilizatorii alternează „lucrează” sau „comunică”. Acest proces întârzie munca operatorilor și provoacă pierderi de timp.

Soluțiile vocale, pe de altă parte, vă permit să comunicați în timp ce manipulați produsele. Ca urmare, aceeași cantitate de muncă poate fi finalizată în mai puțin timp.

Recunoașterea vorbirii are ca rezultat îmbunătățiri semnificative atât în ​​productivitate, cât și în precizia datelor pentru operațiuni precum alegerea produselor în depozit (care reprezintă mai mult de 40% din costurile forței de muncă și mai mult de 45% din erorile din operațiunile din depozit).

Standardizare

W3C are standarde definite pentru tehnologiile de vorbire, care sunt VoiceXML (începând din decembrie 2007, versiunea 2.1) și CCXML . Pentru specificarea gramaticilor vocale, a introdus Speech Recognition Grammar Specification , pentru sinteza vocală SSML 1.0 ( Speech Synthesis Markup Language ), pentru pronunția PLS 1.0 ( Pronunție Lexicon Specification ), pentru interpretarea semantică a rezultatelor SISR 1.0 ( Semantic Interpretation pentru recunoașterea vorbirii ).

Notă

  1. ^ Davies, KH, Biddulph, R. și Balashek, S. (1952) Recunoașterea automată a vorbirii cifrelor vorbite , J. Acoust. Soc. Am. 24 (6) pp. 637 - 642
  2. ^ IBM Shoebox
  3. ^ a b Billi, R., Canavesio, F., Ciaramella, A. și Nebbia, L. (1994, septembrie). Tehnologie vocală interactivă la locul de muncă: experiența CSELT. În Tehnologia vocală interactivă pentru aplicații de telecomunicații, 1994. Al doilea atelier IEEE pe (pp. 43-48). IEEE.
  4. ^ "A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition" de R. Cecinati, A. Ciaramella, G. Venuti, C. Vincenzi, CSELT Technical Reports, Vol. 15. N.1., Februarie 1987 - Reeditare a procedurilor lui Eusipco 86 - Haga - septembrie 1986

Bibliografie

  • Pirani, Giancarlo, ed. Algoritmi și arhitecturi avansate pentru înțelegerea vorbirii. Vol. 1. Springer Science & Business Media, 2013.

Elemente conexe

linkuri externe

Controlul autorității LCCN (EN) sh85010109 · NDL (EN, JA) 00.575.465
Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT