VoiceXML

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Acronimul VoiceXML ( VXML ) pentru V oice și X tensible M arkup L anguage, definit de World Wide Web Consortium (W3C), reprezintă standardul în format XML pentru crearea dialogurilor interactive între o persoană și un computer.

Platforma VoiceXML funcționează într-un mod similar cu un browser HTML : documentele VoiceXML sunt descărcate de pe un server web și interpretate și transformate în voce de un Gateway Voice care se află pe computerul utilizatorului final.

Aplicații

VoiceXML este un limbaj conceput pentru a crea sisteme de prezentare și interacțiune vocală , denumit Voice User Interface (VUI, în interfața de voce vocală italiană), utilizând linia telefonică pentru accesul la date.

VoiceXML permite crearea de logici de dialog om-mașină în limbaj natural prin integrarea cu diferite tehnologii, inclusiv:

Limbajul VoiceXML este conceput în mod expres pentru operațiuni și aplicații orientate pe web: acest lucru permite ca documentele VoiceXML să fie produse dinamic și interactiv cu utilizatorul, prin limbaje ale serverului (ASP, ASP.NET, JSP, PHP etc.), ca se întâmplă pentru paginile web.

Caracteristici

Unele dintre caracteristicile limbajului VoiceXML sunt:

  • Limbaj de marcare conceput pentru crearea de aplicații de vorbire : VoiceXML a fost conceput special pentru crearea de aplicații de vorbire, gestionarea dialogurilor și integrarea cu funcțiile de recunoaștere și de sinteză a vorbirii.
  • Separarea codului pentru interacțiunile utilizatorilor de codul aplicației : separarea logicii de programare de cele de prezentare este o cerință fundamentală, atât pentru verticalizarea aplicațiilor existente, cât și pentru dezvoltarea aplicațiilor vocale în echipe.
  • Structura modulară : însăși structura limbajului permite crearea de dialoguri, gramatici și logici de interacțiune care pot fi făcute modulare. Aceste elemente pot fi stocate separat și reutilizate în alte aplicații.
  • Portabilitate și ușurință în dezvoltare : VoiceXML a fost creat pentru a fi utilizat independent de platforme și pentru a ascunde logica de nivel inferior de la programator. De fapt, dezvoltatorul de aplicații de vorbire nu va trebui să-și facă griji cu privire la gestionarea motoarelor de recunoaștere sau de sinteză a vorbirii, ci se va putea concentra pe crearea interfeței cu utilizatorul.

Cum functioneazã

Utilizatorul se conectează prin telefon (fără a fi nevoie să utilizeze un anumit browser sau plugin) la un Gateway vocal prin rețeaua telefonică obișnuită .

Archi3 wiki.jpg

Voice Gateway îndeplinește următoarele funcții:

  • interpretează documentul VoiceXML;
  • produce un mesaj vocal prin sinteza vocală;
  • primește și interpretează comenzi de la utilizator (prin tastatura tonului, prin DTMF sau prin comenzi vocale, prin recunoaștere vocală);
  • comunică cu serverul web prin protocolul HTTP .

Odată ce solicitările de la Voice Gateway au fost primite, serverul web pune documentele VoiceXML la dispoziția utilizatorilor pentru interpretarea și conversia lor în voce.

Exemplu

Exemplu de document VoiceXML:

 <? xml version = "1.0" encoding = "UTF-8"?>
<vxml version = "2.0" xmlns = "http://www.w3.org/2001/vxml" >
  <form id = "primo_form" >
    <bloca>
      <prompt>
        Salut Lume!
      </prompt>
    </block>
  </form>
</vxml>

Interpretarea de către Voice Gateway a acestei pagini VoiceXML face ca cuvintele „ Hello World! ” Să fie pronunțate printr-un sistem integrat de sinteză a vorbirii.

Exemple de posibile aplicații sunt: ​​e-mail, informații de utilitate publică (vreme, trafic ...), cotații de stoc, centre de apel, gestionarea stocurilor, servicii de agrement (horoscop etc.).

Istoria limbajului

Un limbaj de markup timpuriu pentru interacțiunile vocale prin telefon, Phone Markup Language (PML) a fost dezvoltat de Laboratoarele Bell ale AT&T. Dezvoltarea a continuat chiar și atunci când Laboratoarele Bell au fost scoase din AT&T și integrate în Lucent Technology .

Între timp, IBM și Motorola și-au dezvoltat propriile limbaje de marcare a vorbirii, denumite SpeechML și respectiv VoxML.

În martie 1999 , IBM, AT&T, Lucent și Motorola au decis să unifice evoluțiile pe o bază comună, dând naștere Forumului VoiceXML, care în august 1999 a început specificarea limbajului VoiceXML, publicând versiunea 1.0 în martie 2000 . Noul limbaj de marcare, datorită și similitudinilor cu HTML, a fost imediat răspândit. Principalul actor italian în activitățile forumului a fost CSELT .

În martie 2004 , versiunea 2.0 a VoiceXML a devenit o recomandare oficială a W3C [1] care se ocupă de evoluțiile și evoluțiile sale.

În iunie 2007 , W3C a lansat versiunea 2.1 a VoiceXML [2] , care prezintă o serie de extensii care asigură compatibilitatea cu versiunea anterioară.

În iunie 2009 , W3C a lansat a doua versiune preliminară a ediției 3.0 a VoiceXML [3] , care include extensii suplimentare, inclusiv identificarea și verificarea vocii și captarea și redarea video.

Standarde legate

Ca parte a activităților legate de aplicațiile vocale, W3C a separat controlul interfețelor vocale prin definirea diferitelor limbaje de marcare, fiecare orientat către aspecte specifice.

SRGS și SISR

Speech Recognition Grammar Specification (SRGS) este limba utilizată pentru a scrie gramaticile (seturi de reguli) folosite de recunoașterea vorbirii pentru a recunoaște intrările utilizatorilor.

Interpretarea semantică pentru recunoașterea vorbirii (SISR) este utilizată pentru a controla interpretarea semantică, prin inserarea instrucțiunilor corespunzătoare în gramatici, pentru a manipula rezultatele obținute prin recunoașterea vorbirii în funcție de contextul aplicației.

PLS

Specificația lexicală de pronunție (PLS) este utilizată atât de recunoașterea vorbirii, cât și de sintetizator pentru a verifica pronunția corectă a unui cuvânt, în special în aplicațiile multilingve.

SSML

Speech Synthesis Markup Language ( SSML ) este utilizat pentru a îmbunătăți prosodia frazelor prin controlul unor aspecte precum accentul, timbrul vocal, intensitatea și viteza de citire.

CCXML

Controlul apelurilor eXensible Markup Language (CCXML) este utilizat pentru gestionarea apelurilor telefonice. Vă permite să acceptați un apel primit, să efectuați un apel de ieșire, să terminați un apel și să conectați mai multe apeluri de conferință.

Notă

  1. ^(EN) Language Extensible Markup Language (VoiceXML) Recomandarea W3C versiunea 2.0 , 16 martie 2004
  2. ^(EN) Language Extensible Markup Language (VoiceXML) 2.1 Recomandarea W3C, 19 iunie 2007
  3. ^(RO) Limbaj de marcare extensibil vocal (VoiceXML) 3.0 Proiect de lucru W3C, 2 iunie 2009
Controlul autorității LCCN ( EN ) sh2001001711
Internet Portal internet : accesați intrările Wikipedia care se ocupă de internet