sinteza vorbirii

Exemplu de sinteză vocală realizată cu Vocoder (propoziție Undeva într - un viitor)

Exemplu de vorbire utilizate pentru acces: Festivalul de voce sintetizatorului de la en: wikipedia convertit în audio prin intermediul programului txt2audio

Sinteza vorbirii (sinteza vorbirii în limba engleză) este tehnica pentru reproducerea artificială a vocii umane . Un sistem utilizat în acest scop , se numește un sintetizator de voce și poate fi realizat prin intermediul software - ului sau prin intermediul hardware - ului . Sistemele de vorbire de sinteză sunt de asemenea cunoscute ca sisteme (TTS) Text-to-speech (în limba italiană: de la text la voce) pentru capacitatea lor de a converti textul de vorbire. Există , de asemenea , sisteme care pot transforma simboluri fonetice în vorbire ^[1] .

Sinteza vorbirii se poate realiza prin concatenarea inregistrari de voce stocate într - o bază de date . Sistemele Diferitele sintetizatorului diferă în funcție de mărimea eșantioanelor vocale stocate: un sistem care stochează un singur foneme sau foneme duble permite obținerea numărului maxim de combinații în detrimentul clarității globale, în timp ce în alte sisteme proiectate pentru o utilizare specifică ea este folosit pentru înregistrarea cuvinte întregi sau propoziții întregi pentru a obține un rezultat de înaltă calitate. In mod alternativ, un sintetizator poate încorpora un model al tractului vocal și alte caracteristici de voce umană pentru a crea un sistem complet sintetic ^[2] .

Calitatea unui sintetizator de vorbire este evaluată pe baza atât a similitudinii sale cu vocea umană și nivelul său de inteligibilitate. Un program de conversie de la text la voce cu un randament bun poate juca un rol important în accesibilitate, de exemplu , care permite persoanelor cu deficiențe de vedere sau de dislexie pentru a asculta documente scrise pe computer. Pentru acest tip de aplicare încă de la începutul anilor optzeci multe sisteme de operare includ funcții de vorbire.

mecanismul de bază

Un sistem de vorbire sau motorul este alcătuit din două părți: un front-end și back-end.

Partea frontală oferte de ultimă generație cu conversia textului în simboluri fonetice , în timp ce back-end interpretează simbolurile fonetice și „citește“ ei, transformându - le astfel în voce artificială.

Schematică a unui sistem de sinteză de vorbire generic

Front-end are două funcții principale: în primul rând, o analiză a textului scris este efectuat pentru a converti toate numerele, acronime și abrevieri în cuvinte pline ( de exemplu , textul „2“ este convertit în „doi“). Această pre-procesare este definit ca normalizare sau clasificare a textului (în limba engleză: tokenizarea). A doua funcție este de a converti fiecare cuvânt în care îi corespunde în simboluri fonetice și efectuarea unei analize lingvistice a textului revizuit, împărțind - o în unități prozodice, adică în propoziții, fraze și propoziții. Procesul de atribuire ortografia fonetică a cuvintelor se numește conversia de la text la fonem sau grapheme la fonem (în limba engleză text-to-fonem, TTP) ^[3] .

Transcrierea fonetică a informațiilor și metrica combinate împreună alcătuiesc reprezentarea lingvistică simbolică care este utilizată de back-end pentru conversia la sunete de astfel de informații , care este pentru procesul de sinteză reală.

Istorie

dispozitive mecanice

mașină vocal acustic-mecanic von Kempelen lui (desene din textul lui 1791)

Cercetatorii au încercat să mașini construi pentru a reproduce vocea umană mult timp înainte de a fi fost inventat procesarea electronică modernă a semnalelor (anii IT ): Primele dispozitive au fost construite de Gerbert de Aurillac , Albertus Magnus și Roger Bacon , între X și secolul XIII .

În 1779 , omul de știință danez Christian Kratzenstein , care lucra la " Academia Rusă de Științe , construit modele umane vocale ale tractului , care ar putea juca cinci sunete lungi vocale ( de exemplu , sunete [A] , [E] , [i] , [O ] și [u] în conformitate cu " alfabetul fonetic internațional ) ^[4] . În aceste dispozitive a urmat mașină-voce mecanică acustic, un mecanism de burduf realizate de vienezul Wolfgang von Kempelen și descrise într - una din lucrarea sa din 1791 ^[5] . Această mașină a adăugat un model al buzelor și limbii, permițând astfel să sintetizeze consoane în plus față de vocalele. În 1837 Charles Wheatstone a produs o „mașină vorbind“ bazată pe proiect von Kempelen, iar în 1846 Joseph Faber a construit „Euphonia, poate juca , printre altele , imnul național engleză. Proiectul Wheatstone a fost apoi preluat , la rândul său , în 1923 de către Paget. ^[6]

În treizeci de ani , a Labs Bell (Bell Laboratories) a dezvoltat vocoderulîntr - , o tastatură și analizor de vorbire electronice sintetizator controlat cu un rezultat clar inteligibil. Homer Dudley perfecționat acest echipament creând în continuare VODER, care a fost dat o demonstrație în 1939 în timpul Târgul lumii în New York , ^[7] .

Cercetătorul Franklin S. Cooper si colegii sai de la Haskins Laboratories realizat la sfarsitul patruzeci de ani jucătorul secvențe, finalizat în 1950 . Mai multe versiuni ale acestui aparat au fost realizate, din care doar unul a supraviețuit până în ziua de azi. Dispozitivul convertește imaginile sonore ale spectrului acustic al vocii, și a fost prin acest mecanism , care Alvin Liberman si colegii sai au descoperit caracteristicile acustice la baza percepției segmentelor fonetice (consoane si vocalelor).

Dispozitive electronice

Primele sintetizatoare de vorbire electronice recreat o voce foarte metalic și au fost de multe ori de neînțeles; De atunci, cu toate acestea, calitatea a crescut în mod constant și vocea produsă de sistemele moderne de sinteză de vorbire este uneori imposibil de distins de vocea umană reală.

În primul-to-speech sisteme informatice au fost create la sfârșitul anilor cincizeci și primul-to-speech de text-to-speech (voce din plin) text a fost lansat în 1968 ^[8] . In 1961 fizicienii John Larry Kelly, Jr. și Louis Gertsman ^[9] a folosit un calculator IBM 704 pentru a sintetiza vorbire. Acest experiment a reprezentat unul dintre cele mai importante ale activităților Bell Labs : vocoder Kelly reprodus piesa Daisy Bell, cu acompaniament muzical de Max Mathews. Scriitorul Arthur C. Clarke va aleatoriu la Bell Labs a fost vizita prietenul și colegul său John Pierce chiar în momentul acestei demonstrații ^[10] și a fost impresionat suficient pentru a înregistra scena intr - unul din momentele cruciale ale romanului lui 2001: Odiseea spațială ^[11] , realizând același cântec la computer HAL 9000 și este dezactivat de astronaut Dave Bowman ^[12] , o scenă care mai târziu a fost reprodus cu fidelitate de regizorul Stanley Kubrick în omonimă filmul .

Primul aparat de exprimare în limba italiană, MUSA, sa născut în 1975 în laboratoarele CSELT (Group STET ) ^[13] ; prototipul a fost capabil să citească un text care servește în 1978, distinctiv voce „ de metal“ , și chiar să cânte melodia Fra Martino Campanaro ^[14] . În 1978 grupul de cercetare CSELT privind tehnologiile de vorbire (în 2001 , a devenit spin-off Loquendo ) a fost singura companie industrială din lume, precum AT & T , pentru a avea o tehnologie de sinteză de voce de interes industrial ^[15] .

În ciuda succeselor obținute cu sintetizatoare electronice, cercetarea privind sintetizatoare de vorbire mecanice nu a fost abandonată, în special în vederea unei posibile utilizări a unor astfel de sisteme pentru roboți de tip umanoid. ^[16]

tehnologii de sinteza

Cele mai importante calitati ale unui sinteza vorbirii este naturalețea și „inteligibilitatea.

Naturalețea exprimă cât de aproape vocea sintetizată este cea umană în timp ce inteligibilitatea reprezintă ușurința înțelegerii vocii sintetizate. Un sintetizator ideal este în același timp natural și inteligibil, în realitate, sistemele sintetizatorului aproxima acest comportament prin încercarea de a optimiza ambele caracteristici.

Cele două tehnologii principale pentru sinteza vorbirii sunt sinteza concatenative și de sinteză bazate pe reguli. Fiecare tehnologie are puncte forte și puncte slabe: alegerea pe care să o utilizeze în mod obișnuit depinde de tipul de utilizare finală a sintezei vorbirii.

sinteza Concatenative

Rezumat Concatenative, după cum sugerează și numele, se bazează pe concatenarea , care este o combinație de fragmente de voce înregistrate. În general , această metodologie produce rezultatul sintezei mai natural, cu toate acestea, diferența dintre variația naturală a vocii umane și tehnicile de fragmentare automată a formelor de undă poate genera uneori mic zgomot audibil. Există trei sub-tipuri principale de sinteză concatenative.

Sinteză pentru probele unitare

Probele unitare de sinteză se bazează pe mari baze de date de voci înregistrate. În timp ce crearea de fiecare bază de date de emisie înregistrată este împărțit în una sau mai multe dintre aceste segmente: izolate sunete, silabe , morfeme , cuvinte , fraze și perioade complet. În mod normal , fragmentare folosește un limbaj Recognizer special modificat pentru a efectua o „aliniere forțată“ , urmată de intervenții de corecție manuale bazate pe reprezentări vizuale ale sunetului ca forme de undă și spectrogramelor . ^[17] Probele de sunet sunt indexate în baza de date pe baza de segmentare și parametri acustici precum frecvența fundamentală ( tonuri muzicale ), durata, poziția în silaba și sunetele adiacente. In timpul in timp real sinteza a producției finale este generată pe baza unui algoritm al unui arbore de decizie ponderată care identifică „ cea mai bună ordine“ printre candidații selectați probe din baza de date.

Acest tip de sinteză produce rezultatele mai mare naturalețe , deoarece minimizează operațiile digitale de procesare (procesare desemnal digital , DSP) pe mostrele înregistrate. De fapt, de multe ori de procesare digitală alterează redarea sunetului sintetizat făcându-l mai puțin naturale: unele sisteme folosesc tehnici DSP numai pentru a atenua tranzițiile dintre probele de sunet fiind legat. Cele mai bune sisteme de sinteză articulatorii produce un rezultat care este adesea imposibil de distins de o voce umană reală, în special în acele contexte în care conversia de text-to-speech a fost optimizat pentru un anumit scop. În schimb, o naturalețe maximă necesită de obicei utilizarea de dimensiuni considerabile, care , în unele cazuri , baze de date pot obține ordinea de gigabytes , echivalentul a câteva zeci de ore de înregistrări vocale. ^[18] În plus, sa constatat că algoritmii de selecție a eșantioanelor pot alege segmente care produc o sinteză non-ideale (de exemplu, cu un pronunțat neclar de cuvinte minore) chiar și atunci când baza de date este prezentă o alegere mai bună ^[19] .

Sinteză pentru diphones

Sinteza prin diphones utilizând o bază de date minimă de sunet de dimensiuni care conține toate diphones (tranziții între diferite sunete) tipice unui anumit limbaj. Numărul de diphones depinde de caracteristicile fonetice ale limbii: de exemplu, spaniolă are aproximativ 800 diphones în timp ce germană are aproximativ 2500. Această tehnică este stocată în baza de date o singură probă pentru fiecare diphone. În timpul procesării în timp real, la diphones selectate este suprapus pe prozodiei propoziției să fie sintetizate folosind tehnici DSP (semnal digital deprocesare , cum ar fi de codificare lineară de predicție), PSOLA ^[20] (Pitch-Synchronous Suprapuneri și Adăugare) sau MBROLA . ^[21] rezultată Calitatea vocii este în general mai mică decât cea obținută pentru sinteza articulatory, dar sună mai natural decât cea obținută cu sinteza pe baza regulilor.

Defectele de sinteză pentru diphones constau din mici găuri între sunete, tipice mecanismului concatenare, și într-un efect de voce metalic, ca în sinteza bazat pe reguli. Comparativ cu aceste tehnici, sinteza pentru diphones nu are avantaje semnificative, în afară de dimensiunea redusă a bazei de date de sprijin. Din acest motiv, utilizarea acestei tehnici pentru aplicații comerciale este în declin , deoarece continuă să fie utilizat în cercetare , datorită numeroaselor implementări software disponibile gratuit.

Prima aplicație comercială a vorbirii în limba italiană, Eloquens ^[22] , proiectat CSELT și comercializat de către Telecom Italia din 1993, sa bazat pe diphones. Este încă foarte răspândită, disponibil ca un software gratuit (numai pentru sistemele de operare Windows) ^[23] .

Sinteza pentru aplicații specifice

Sinteza pentru aplicații specifice se bazează pe concatenarea de cuvinte și fraze pre-înregistrate pentru a crea emisii complet. Acesta este folosit în principal pentru aplicații în cazul în care textele care urmează să fie sintetizate este limitată la nevoile unui anumit sector, cum ar fi anunțuri de cale ferată și de aeroport sau rapoarte meteorologice ^[24] . Tehnologia este simplu de implementat și a fost utilizat de ceva timp în aplicații comerciale și dispozitive, cum ar fi vorbitul ceasuri de alarmă sau calculatoare de voce. Naturalețea acestor sisteme este mulțumită foarte mare la faptul că numărul de fraze de componente este limitată și foarte fidel reproduce prozodiei și intonația înregistrărilor originale.

Pe de altă parte, aceste sisteme sunt limitate la reproducerea cuvinte și expresii conținute în baza de date și pot sintetiza combinații predefinite numai, astfel încât acestea nu pot fi extinse pentru uz general. Mai mult decât atât, ligatura cuvintelor tipice limbajului natural poate provoca unele probleme dacă nu se iau în considerare toate variantele posibile. De exemplu, în limba franceză multe consoane finale sunt prost , dar în cazul în care cuvântul următor începe cu o vocală , atunci acesta trebuie să fie pronunțată ( de legătură). Aceste variații de pronunție nu pot fi reproduse printr - o simpla concatenare a sistemului de cuvinte și este necesar să se mărească complexitatea pentru a putea face adaptabil la context.

De sinteză bazate pe reguli

Ilustrarea 1846 reproducător l „Euphonia, mecanică mașină de sinteză vocală făcută de Joseph Faber

Sinteza bazată pe regulile nu utilizează probe ale vocii umane , dar recreează vocea procesului de prelucrare bazată pe un model acustic și din acest motiv , este , de asemenea , cunoscut sub numele de sinteză pentru formarea . Această tehnică constă în generarea formelor de undă care modulează unii parametri acustici , cum ar fi frecvența fundamentală, tonurile și nivelurile de zgomot . Multe sisteme de sinteză concatenative folosesc, de asemenea, unele componente ale acestui tip.

Multe sisteme de sinteză bazate pe reguli generează o voce artificială și sondare foarte metalic, care nu poate fi confundat cu o voce umană. Cu toate acestea, această tehnică de sinteză nu are ca scop naturalețe maximă și are o serie de avantaje față de sinteza concatenative. Rezumatul bazat pe regulile este destul de inteligibilă la viteze mari, nu îndeplinesc sunetul tipic mici să iasă dintr - o privire concatenative: sisteme de mare viteză de sinteză este utilizat pe scară largă pentru sistemele de citire a ecranului pentru utilizarea calculatoarelor de către persoanele cu deficiențe de vedere sau persoanelor cu dislexie . În plus, sistemele de sinteză bazate pe reguli sunt gestionate de programe mai mici, deoarece acestea nu trebuie să utilizeze o bază de date de mostre vocale. Această caracteristică permite utilizarea lor în sisteme integrate , în cazul în care capacitatea memoriei și a puterii de calcul a microprocesorului poate fi limitată. În cele din urmă, sistemele de sinteză bazate pe reguli pot controla toate aspectele limbajului vocal, generând o mare varietate de metrica și intonație și astfel de transport nu numai conținutul textului , ci , de asemenea , efecte emoționale și tonuri de voce.

Exemple de reguli bazate pe sintetice , cu un control foarte precis al intonația, deși nu în timp real, sunt lucrările efectuate la sfârșitul șaptezeci de ani pentru jocul Speak & Spell produs de Texas Instruments și pentru consola de jocuri video produs de SEGA începând de optzeci de ani . ^[25] Pentru aceste proiecte generatoare de intonație corespunzătoare a reprezentat o provocare tehnologică reală, rezultatele care nu au fost încă egalată de nici un sistem de vorbire în timp real. ^[26]

sinteza articulatorii

Sinteza articulatorii utilizează tehnici de calcul bazate pe modele biomecanice ale tractului vocal uman și procesele lor de articulare. Primul sintetizator articulară de tipul utilizat în mod regulat pentru experimente de laborator a fost dezvoltat la mijlocul anilor șaptezeci de către Philip Rubin , Tom Baer, și Paul Mermelstein Haskins Laboratories. Acest sintetizator, de asemenea , cunoscut sub numele de ASY, sa bazat pe modele tractului vocal dezvoltat de Paul Mermelstein, Cecil Coker și pe alții în anii șaizeci și șaptezeci de către Laboratoarele Bell .

Până de curând, modele de sinteză articulatorii nu au fost utilizate pentru sistemele de sinteză comerciale. O excepție importantă este sistemul bazat pe NeXT dezvoltat și comercializat de Trillium Sound Research, o companie legată de " Universitatea din Calgary , unde a făcut cele mai multe cercetări originale. În urma soarta multora dintre aplicațiile derivate din NeXT (care a fost creat de Steve Jobs la sfârșitul anilor 1980 și apoi a fuzionat cu mere în 1997 ), software - ul Trillium a fost disponibil sub GNU GPL și continuă să evolueze în proiectul gnuspeech. . Acest sistem, în primul rând comercializat în 1994 , pune în aplicare un sistem complet articulară de conversie de text-to-speech printr - un ghid de undă sau o linie de transport care emulează nazală umană și tracturi orale controlate de „model de regiune distinctă“ Carré..

sinteza Markov

Sinteza Markovian este o metodă bazată pe modelul Markov ascuns (HMM, Hidden Markov model). In aceasta tehnica spectrul de frecvență (utilizate pentru tractul vocal), frecvența fundamentală (utilizată pentru sursa de voce) și durata de emisie vocală (folosit pentru metrica ) sunt modelate simultan , folosind modele Markov ascunse. Aceleași modele Markov ascunse genera forme de undă de voce pe baza unui criteriu de risc maxim . ^[27]

sinteza sinusoidale

Sinteza sinusoidale este o tehnică în care vocea este sintetizat prin înlocuirea formanților cu frecvențe pure generate de undă sinusoidală.

Primul program de sinteză sinusoidal a fost dezvoltat de Philip Rubin de Haskins Laboratories în 1970 pentru a crea stimuli artificiale în experimente de percepție. Acest program a fost ulterior folosit de Robert Remez, Philip Rubin, David Pisoni și alții pentru a demonstra că un ascultător poate percepe ca discurs continuu, chiar și în absența unor vârfuri tipice vocale. ^[28]

Probleme

normalizare Text

Procesul de normalizare a unui text este rareori unic. În textele acestea sunt adesea prezente omografiile , numere și abrevieri , care trebuie să fie traduse în reprezentarea fonetică corectă. În cazul omografiile, cuvinte care au aceeași reprezentare textuală necesită o pronunție diferite în funcție de sensul și , astfel , contextul, cum ar fi în fraza „Eu încă aruncat ancora,“ în cazul în care omograf de ancorare trebuie să fie pronunțată în două moduri diferite cu două sensuri diferite (am aruncat din nou ancora).

Cele mai multe sisteme de conversie text-to-speech nu sunt în măsură să genereze o reprezentare semantică a textului, deoarece procesele care pot fi utilizate pentru acest lucru nu sunt suficient de fiabile, nu a fost încă pe deplin înțeles sau computațional ineficiente. Ea apare mai degrabă de tip tehnici euristice pentru a identifica modul corect de ambiguități rezolva, cum ar fi , de exemplu , prin intermediul examinării cuvintelor din jur și frecvența statisticilor de utilizare.

Alegerea modului de a sintetiza un număr este, de asemenea, o problemă. Dintr-un punct de vedere de programare, conversia unui număr în text, cum ar fi „1325“ la „1,325“, este o operație simplă. Cu toate acestea, atunci când trebuie să contextualizeze corect un număr pe care din nou se confruntă cu o ambiguitate. „1325“ poate fi convertit ca „1,325“ dacă este un an sau o cantitate, sau ca „unul de trei doi cinci“ dacă este un cod numeric. Din nou, un sistem de conversie de vorbire pot face alegeri bazate pe cuvinte și semne de punctuație înconjurătoare; unele sisteme, de asemenea, vă permit să specificați un context pentru a rezolva ambiguități.

De asemenea, abrevierile pot fi, de asemenea, ambiguu. De exemplu, abrevierea „are“ pe hectar este să se facă distincția între „el“, Have verbul. Există cazuri chiar mai complexe: „S.Marco“, „S.Antonio“, „S.Rita“ și „S.Stefano“ orice utilizare aceeași abrevierea „S.“ care, cu toate acestea, trebuie să fie redat, respectiv cu „San“, „Sant„“,«Moș Crăciun»și«Santo». Sistemele de conversie cu front-end inteligente sunt în măsură să ambiguități soluționați problema pe baza învățării, dar și alte sisteme mai puțin sofisticate folosesc ori de câte ori o singură alegere, cu rezultate care pot fi , uneori , lipsite de sens sau chiar comic.

Extragere de foneme din text

Sisteme de text-to-speech utilizează două abordări de bază pentru determinarea modului în care un cuvânt este pronunțat din ortografia sa, un proces , de asemenea , cunoscut sub numele de text-to-fonem sau grafem-to-fonem conversie (lingviști utilizează termenul fonem pentru a descrie sunete distincte în contextul unei anumite limbi).

Cea mai simplă abordare este bazată pe dicționarul de conversie, în care magazinele de program o mare dicționar care conține toate cuvintele unei limbi și pronunție lor: pronunția corectă a fiecărui cuvânt este obținut prin identificarea - l în dicționar și înlocuirea acestuia cu pronuntia memorat Acolo.

A doua abordare este de conversie bazat pe reguli, în cazul în care regulile de ortografie pe baza ortografiei lor sunt aplicate cuvinte. Această abordare este similară cu metoda de învățare lectură bazată pe „sunet“ ( fono sintetic ).

Fiecare dintre cele două abordări are argumente pro și contra. Abordarea bazată pe dicționar este rapid și precis, dar nu poate oferi nici un rezultat dacă un cuvânt nu este prezent în dicționar; în plus, deoarece dimensiunea dicționarului crește, cantitatea de memorie necesară sistemului de sinteză, de asemenea, crește. Pe de altă parte, abordarea bazată pe reguli este capabil de a lucra cu orice text de intrare, dar complexitatea sa, de asemenea, crește în mod considerabil ca sistemul, de asemenea, ia în considerare nereguli în normele de ortografie sau pronunției. Doar ia în considerare cazuri , cum ar fi numele latin „Cn“, în cazul în care gruparea este pronunțată gn gn, cu gutural g, în loc ca un singur nazal ca în miel. Ca rezultat, aproape toate sistemele de vorbire de sinteză, în practică, pentru a alege să adopte o combinație a celor două abordări.

În unele limbi, cum ar fi , în cazul Spaniei sau a limbii italiene , corespondența dintre modul în care scrie un cuvânt și pronunție ei este foarte mare pentru care este simplificată determinarea pronunțarea corectă din scrisul de mână; în aceste cazuri, sistemele sintetizatorului folosesc aproape exclusiv metoda bazată pe reguli, limitând utilizarea dicționarului la acea minoritate de cuvinte, cum ar fi nume de origine străină, a cărei pronunție nu este evidentă pornind de la ortografia. Dimpotrivă, pentru limbile care au o corespondență foarte scăzută între ortografia unui cuvânt și pronunției sale, ca de exemplu , în limba engleză , sisteme de vorbire de sinteză se bazează în mod esențial pe dicționare, limitând utilizarea metodelor bazate pe reguli numai pentru cuvinte mai puțin frecvente sau nu cuvinte din dicționar.

evaluare calitativă

Este foarte dificil de evaluat în mod constant sistemele de vorbire de sinteză deoarece nu există criterii universale de referință. Calitatea unui sistem de sinteză de vorbire depinde în mod semnificativ de calitatea nu doar a tehnicii utilizate pentru producția (care pot utiliza analogice sau înregistrări digitale) , ci și pe instrumentele și contextul reproducerii, diferențele dintre care pot compromite adesea rezultatul. Evaluare .

Unii cercetători au început să utilizeze ca referință pentru evaluarea setului de date comun discursul dezvoltat ca un proiect open source de la Universitatea Carnegie Mellon ^[29] .

Redarea conținutului de emoțional

Un studiu realizat de Amy Drahota si alti cercetatori de la " Universitatea din Portsmouth , Marea Britanie , publicat in revista Speech Communication, a constatat că ascultătorul este în măsură să determine doar prin voce, cu un grad ridicat de precizie, în cazul în care vorbitorul este zambitoare sau nu ^[30] . Acest lucru a sugerat ca identificarea trasaturi vocale care transporta conținut emoțional ar putea fi utile în a face rezultatul unei sinteze de vorbire mai natural.

hardware dedicat

Un kit pentru discurs electronic de sinteză produs de Bell System

Votrax
- SC-01A (analog formant)
- SC-02 / SSI-263 / "Arctic 263"
General Instruments SP0256-AL2 (CTS256A-AL2, MEA8000)
National Semiconductor DT1050 Digitalker (Mozer)
Silicon Systems SSI 263 (analog formant)
Texas Instruments
- TMS5110A (LPC)
- TMS5200
OKI Semiconductor
- MSM5205
- MSM5218RS (ADPCM)
Toshiba T6721A
Philips PCF8200

Sisteme de operare și dispozitive echipate cu sinteza vorbirii

Apple a Mac OS și Mac OS X

Apple a fost primul care a integra sinteza de voce în sistemul de operare al computerelor lor, cu software - ul MacinTalk , produse la domiciliu în 1984 și disponibil pe modelele Macintosh . La începutul nouăzeci de ani care Apple a extins funcționalitatea prin extinderea conversiei vorbire de text la întregul sistem.

Odată cu introducerea de procesoare mai rapide PowerPC, mostre de voce de înaltă calitate au fost incluse, împreună cu un sistem de recunoaștere a vorbirii, ceea ce a permis pentru un control comandă buna. Mai târziu, Apple a adăugat, de asemenea voci diferite, bazate pe probe. Deși a fost început ca o curiozitate, sistemul de sinteză a vorbirii calculatoarelor Macintosh a ajuns să evolueze un program de foraj, PlainTalk , pentru suport complet pentru persoanele cu probleme de vedere.

Conversie automată a textului în vorbire, numit VoiceOver Utility , a fost inclus ca un instrument de accesibilitate standard , în Mac OS X Tiger sistemul de operare și a îmbunătățit în mai târziu Mac OS X Leopard , care susține o voce numit „Alex“ , care include , de asemenea, sinteza realistă a respirației intermediare între pronunțarea sentințelor, precum și o inteligibilitate îmbunătățită pentru citire la o viteză mai mare.

Sempre nell'ambito dei prodotti Apple, la tecnologia VoiceOver è stata integrata nell' iPod shuffle , che è in grado di "leggere" a voce alta le informazioni relative al brano in riproduzione a partire dalla terza generazione del prodotto.

AmigaOS

Il secondo sistema operativo a incorporare funzioni di sintesi vocale fu AmigaOS , introdotto nel 1985 da Commodore International che ne ottenne la licenza da una software house indipendente, la Don't Ask Software, ora Softvoice, Inc. Il programma realizzava un sistema completo di emulazione vocale, con voci maschili e femminili e meccanismi di enfatizzazione, resi possibili dalle caratteristiche avanzate della componentistica audio prodotta da Amiga . ^[31] Il sistema era suddiviso in un dispositivo parlante (narrator.device) e una libreria di traduzione (translator.library): un ulteriore software di Amiga, Speak Handler implementava un convertitore da testo a voce. AmigaOS gestiva il sistema di sintesi vocale come periferica hardware virtuale, di modo che un utente poteva ridirigervi anche l'uscita della console. Alcuni programmi prodotti da Amiga, come i suoi word processor, utilizzavano in modo massiccio questo sistema di sintesi vocale.

Microsoft Windows

I sistemi Windows impiegano una sintesi vocale basata su SAPI4 e SAPI5 che prevede anche un modulo di riconoscimento vocale (SRE, Speech Recognition Engine ).

Nelle versioni di sistema operativo Windows 95 e Windows 98 SAPI 4.0 era disponibile come componente aggiuntivo di produzione esterna. Fu con Windows 2000 che venne aggiunto il programma Microsoft Narrator , un sistema di sintesi vocale disponibile direttamente per tutti gli utenti di un computer: una volta installato, tutti i programmi compatibili con Windows ne potevano utilizzare le funzionalità di sintesi vocale tramite menu appositi.

In Windows Vista , Windows 7 e Windows 8 , lo strumento di sintesi vocale integrato è chiamato Assistente vocale .

Microsoft Speech Server è un pacchetto completo per la sintesi e il riconoscimento vocali, sviluppato per applicazioni di carattere commerciale come per esempio i call center .

Linux

Esistono varie applicazioni di sintesi vocale per computer basati su sistemi operativi open source come GNU/Linux , fra i quali programmi a loro volta open-source come Festival Speech Synthesis System ^[32] , che sfrutta la sintesi per difoni e può utilizzare un numero ridotto di voci; il progetto MBROLA ; l'applicazione eSpeak ^[33] ; gnuspeech , di Free Software Foundation , che usa la sintesi articolatoria ^[34] .

Per i sistemi GNU/Linux esistono inoltre altri programmi commerciali di sintesi vocale.

L' ambiente desktop KDE dispone di tre programmi integrati tra loro e con il desktop : Ksayt, interfaccia di configurazione della piattaforma vocale, Kmouth che opera una sintesi vocale a partire da un testo scritto e Kttsmgr, gestore della pronuncia.

Internet

Allo stato attuale esistono parecchi applicativi e plugin per client di posta o navigatori internet in grado di leggere direttamente i messaggi di e-mail e le pagine web.

Alcuni software specializzati sono in grado anche di leggere i feed RSS . I lettori di RSS on line da un lato semplificano l'accesso all'informazione, consentendo agli utenti di ascoltare le loro sorgenti preferite e di convertirle in podcast , dall'altro sono disponibili praticamente per quasi tutti i PC collegati a Internet. Gli utenti possono scaricare i file audio così generati su dispositivi portatili, per esempio sotto forma di podcast e ascoltarli così a passeggio, praticando sport o andando al lavoro.

Un campo di applicazione che si sta estendendo è l'impiego della sintesi vocale per l'accessibilità tramite web, con i cosiddetti Talklet sviluppati dall'azienda inglese Textic. Con questi strumenti non è necessario scaricare un software apposito ma chiunque, per qualsiasi scopo, può accedere a funzioni di sintesi vocali direttamente via Internet usando un qualsiasi browser . Come in tutte le applicazioni basate sul web, i tempi di risposta dipendono essenzialmente dalle caratteristiche del collegamento Internet dell'utente finale ^[35] ma la facilità di accesso resta indubbiamente un punto di forza di questo approccio.

Altri

Gli home computer TI-99/4 e TI-99/4A prodotti da Texas Instruments nel 1979 e 1981 erano in grado di generare fonemi da testo o di recitare intere parole o frasi tramite una periferica di sintesi vocale molto diffusa. TI utilizzava un codec proprietario per inglobare intere frasi all'interno delle sue applicazioni come ad esempio i videogiochi . ^[36]
Il sistema IBM OS/2 Warp 4 incorporava di serie VoiceType, precursore del successivo sviluppo ViaVoice.
Diverse compagnie, tra cui AT&T , Loquendo e Nuance Communications , hanno realizzato sistemi di sintesi vocale commerciali di tipo dedicato.
Sistemi di sintesi vocale sono stati sviluppati in passato anche da altre compagnie non più esistenti.

Linguaggi di markup

Sono stati definiti alcuni linguaggi di markup per la resa del parlato utilizzando un formato di descrizione di tipo XML . Il più recente è l' SSML ( Speech Synthesis Markup Language ) che dal 2004 è una raccomandazione del W3C , arrivato alla versione 1.1 nel 2010 ^[37] e integrato nel 2008 dal linguaggio PLS ( Pronunciation Lexicon Specification ) usato per specificare in modo formale le regole di pronuncia ^[38] . Tra i linguaggi di markup più vecchi rientrano tra gli altri JSML ( Java Speech Markup Language ) e SABLE : nonostante fossero stati entrambi proposti come base per uno standard, nessuno di essi ha avuto in realtà un'ampia diffusione.

I linguaggi di markup per la sintesi vocale non vanno confusi con i linguaggi di markup per i dialoghi: per esempio, VoiceXML oltre al markup per la conversione vocale prevede anche dei tag relativi al riconoscimento vocale, alla gestione dei dialoghi e alla composizione di numeri telefonici su comando vocale.

Applicazioni

Accessibilità

La sintesi vocale è da lungo tempo uno strumento di assistenza tecnologica di importanza vitale e la sua applicazione in questo campo è significativa e largamente diffusa in quanto elimina barriere ambientali per un'ampia gamma di problematiche. L'applicazione più longeva è quella dei lettori di schermo per persone con problemi alla vista ma la sintesi vocale si usa oggi anche per aiutare persone affette da dislessia o da altri problemi di lettura e per i bambini in età prescolare. Questi sistemi si usano anche a sostegno di persone con gravi problemi vocali o di fonazione, di solito in accoppiata con dispositivi dedicati per la comunicazione vocale (VOCA, "Voice Output Communication Aid").

Google e il suo programma Google Traduttore presentano una funzione di sintetizzatore vocale.

Trasporti

Nei luoghi come gli aeroporti e le stazioni ferroviarie la sintesi vocale viene usata per effettuare le comunicazioni di servizio ai passeggeri.

Nei navigatori GPS, la sintesi vocale viene usata per dare le indicazioni di guida al conducente.

Notiziari

Alcuni siti di notizie come Ananova utilizzano la sintesi vocale per convertire i bollettini informativi in audio per applicazioni di tipo mobile.

Tempo libero

Le tecniche di sintesi vocale trovano impiego anche nell'industria del tempo libero, in particolare nella produzione di videogiochi, anime , manga e simili. Nel 2007 Animo Limited ha annunciato lo sviluppo di un pacchetto applicativo basato sul suo programma di sintesi vocale FineSpeech, concepito specificamente per le industrie produttrici di videogiochi e anime in grado di generare racconti e dialoghi secondo le specifiche dell'utente. ^[39] Il pacchetto ha trovato applicazione nel 2008, quando Biglobe , controllata di NEC, ha annunciato la disponibilità di un servizio web che consente agli utenti di creare frasi usando le voci dei personaggi di Code Geass: Lelouch of the Rebellion R2 . ^[40]

Esistono anche programmi per la produzione musicale, come per esempio Vocaloid , in grado di generare voci cantanti a partire da testi e melodia. Questo è anche l'ambito del progetto Singing Computer che usa il software open-source GPL Lilypond e il sistema di sintesi vocale Festival, con lo scopo di aiutare le persone non vedenti nella creazione e stesura di testi di canzoni. ^[41]

Note

^ ( EN ) Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, From Text to Speech: The MITalk system . Cambridge University Press: 1987. ISBN 0-521-30641-8
^ ( EN ) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America , 70, 321-328.
^ ( EN ) PH Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, Progress in Speech Synthesis . Springer: 1997. ISBN 0-387-94701-9
^ ( EN ) History and Development of Speech Synthesis , Helsinki University of Technology, 4 novembre 2006
^ ( DE ) Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), JB Degen, Vienna
^ ( EN ) Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton , L'Aja, pp. 2451-2487, 1974.
^ ( EN ) Fotografie del VODER alla Fiera Mondiale del 1939 Archiviato il 15 maggio 2008 in Internet Archive .
^ IEEE: Chip Hall of Fame: Texas Instruments TMC0281 Speech Synthesizer - The world's first speech synthesizer on chip—and accidental supporting star of ET
^ ( EN ) NY Times annuncio funebre di Louis Gerstman .
^ ( EN ) Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis Archiviato il 25 marzo 2016 in Internet Archive .
^ ( EN ) Arthur C. Clarke, Biografia on line Archiviato l'11 dicembre 1997 in Internet Archive .
^ ( EN ) Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website) Archiviato il 7 aprile 2000 in Internet Archive .
^ Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1995). Interactive voice technology at work: The CSELT experience. Speech communication, 17(3-4), 263-271.
^ Gabriele Falciasecca, Storia delle telecomunicazioni , a cura di V. Cantoni e Giuseppe Pelosi, vol. 1, Firenze, Firenze University Press, 2011, p. 393, ISBN 978-88-6453-243-1 .
^ Il Sole 24 ore, Le voci di Loquendo , 22 gennaio 2012
^ ( EN ) Anthropomorphic Talking Robot Waseda-Talker Series Archiviato il 17 luglio 2007 in Internet Archive .
^ ( EN ) Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario IEEE su TTS, 2002 . ( http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html )
^ ( EN ) John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
^ ( EN ) Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, https://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.
^ ( EN ) Sintesi basata su PSOLA Archiviato il 22 febbraio 2007 in Internet Archive .
^ ( EN ) T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings , 1996.
^ Datasheet archive: Eloquens , su datasheetarchive.com . URL consultato il 3 marzo 2017 (archiviato dall' url originale il 27 febbraio 2017) .
^ Softonic: Eloquens
^ ( EN ) LF Lamel, JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology , Sept 1993
^ Tra gli esempi: Astro Blaster , Space Fury , il videogioco di Star Trek .
^ ( EN ) John Holmes e Wendy Holmes. Speech Synthesis and Recognition, 2nd Edition . CRC: 2001. ISBN 0-7484-0856-8 .
^ ( EN ) The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/
^ ( EN ) Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Speech perception without traditional speech cues. Science , 1981, 212, 947-950.
^ ( EN ) Blizzard Challenge http://festvox.org/blizzard
^ ( EN ) The Sound of Smiling Archiviato il 17 maggio 2008 in Internet Archive .
^ ( EN ) Miner, Jay et al (1991). Amiga Hardware Reference Manual: Third Edition . Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8 .
^ Festival
^ eSpeak: Speech Synthesizer
^ ( EN ) gnuspeech
^ ( EN ) Tempi di risposta "real time" misurati da Textic
^ ( EN ) Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002 Archiviato il 3 ottobre 2013 in Internet Archive .
^ ( EN ) Speech Synthesis Markup Language (SSML) Version 1.1 W3C Recommendation 7 September 2010
^ ( EN ) Pronunciation Lexicon Specification (PLS) Version 1.0 W3C Recommendation 14 October 2008
^ ( EN ) Speech Synthesis Software for Anime Announced
^ ( EN ) Code Geass Speech Synthesizer Service Offered in Japan
^ ( EN ) Free(b)soft Singing Computer

Bibliografia

Billi Roberto (a cura di), Tecnologie vocali per l'interazione uomo-macchina: Nuovi servizi a portata di voce , Ed. CSELT, 1995
La voce e il computer ( JPG ), in MCmicrocomputer , n. 85, Roma, Technimedia, maggio 1989, pp. 114-119, ISSN 1123-2714 ( WC · ACNP ) .

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su sintesi vocale

Collegamenti esterni

( EN ) Speech synthesis / Speech synthesizer , su Enciclopedia Britannica , Encyclopædia Britannica, Inc.

Controllo di autorità	NDL ( EN , JA ) 00575464

Portale Informatica : accedi alle voci di Wikipedia che trattano di informatica

[1] ( EN ) Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, From Text to Speech: The MITalk system . Cambridge University Press: 1987. ISBN 0-521-30641-8

[2] ( EN ) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America , 70, 321-328.

[3] ( EN ) PH Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, Progress in Speech Synthesis . Springer: 1997. ISBN 0-387-94701-9

[Helsinki-4] ( EN ) History and Development of Speech Synthesis , Helsinki University of Technology, 4 novembre 2006

[5] ( DE ) Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), JB Degen, Vienna

[6] ( EN ) Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton , L'Aja, pp. 2451-2487, 1974.

[7] ( EN ) Fotografie del VODER alla Fiera Mondiale del 1939 Archiviato il 15 maggio 2008 in Internet Archive .

[8] IEEE: Chip Hall of Fame: Texas Instruments TMC0281 Speech Synthesizer - The world's first speech synthesizer on chip—and accidental supporting star of ET

[9] ( EN ) NY Times annuncio funebre di Louis Gerstman .

[10] ( EN ) Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis Archiviato il 25 marzo 2016 in Internet Archive .

[Arthur_C_Clarke-11] ( EN ) Arthur C. Clarke, Biografia on line Archiviato l'11 dicembre 1997 in Internet Archive .

[bell_labs_hal-12] ( EN ) Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website) Archiviato il 7 aprile 2000 in Internet Archive .

[13] Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1995). Interactive voice technology at work: The CSELT experience. Speech communication, 17(3-4), 263-271.

[14] Gabriele Falciasecca, Storia delle telecomunicazioni , a cura di V. Cantoni e Giuseppe Pelosi, vol. 1, Firenze, Firenze University Press, 2011, p. 393, ISBN 978-88-6453-243-1 .

[15] Il Sole 24 ore, Le voci di Loquendo , 22 gennaio 2012

[16] ( EN ) Anthropomorphic Talking Robot Waseda-Talker Series Archiviato il 17 luglio 2007 in Internet Archive .

[17] ( EN ) Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario IEEE su TTS, 2002 . ( http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html )

[18] ( EN ) John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.

[19] ( EN ) Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, https://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.

[20] ( EN ) Sintesi basata su PSOLA Archiviato il 22 febbraio 2007 in Internet Archive .

[21] ( EN ) T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings , 1996.

[22] Datasheet archive: Eloquens , su datasheetarchive.com . URL consultato il 3 marzo 2017 (archiviato dall' url originale il 27 febbraio 2017) .

[23] Softonic: Eloquens

[24] ( EN ) LF Lamel, JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology , Sept 1993

[25] Tra gli esempi: Astro Blaster , Space Fury , il videogioco di Star Trek .

[26] ( EN ) John Holmes e Wendy Holmes. Speech Synthesis and Recognition, 2nd Edition . CRC: 2001. ISBN 0-7484-0856-8 .

[27] ( EN ) The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/

[28] ( EN ) Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Speech perception without traditional speech cues. Science , 1981, 212, 947-950.

[29] ( EN ) Blizzard Challenge http://festvox.org/blizzard

[30] ( EN ) The Sound of Smiling Archiviato il 17 maggio 2008 in Internet Archive .

[31] ( EN ) Miner, Jay et al (1991). Amiga Hardware Reference Manual: Third Edition . Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8 .

[32] Festival

[33] Speak: Speech Synthesizer

[34] ( EN ) gnuspeech

[35] ( EN ) Tempi di risposta "real time" misurati da Textic

[36] ( EN ) Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002 Archiviato il 3 ottobre 2013 in Internet Archive .

[37] ( EN ) Speech Synthesis Markup Language (SSML) Version 1.1 W3C Recommendation 7 September 2010

[38] ( EN ) Pronunciation Lexicon Specification (PLS) Version 1.0 W3C Recommendation 14 October 2008

[39] ( EN ) Speech Synthesis Software for Anime Announced

[40] ( EN ) Code Geass Speech Synthesizer Service Offered in Japan

[41] ( EN ) Free(b)soft Singing Computer

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]