Sinteza vorbirii

Exemplu de sinteză vocală creat cu Vocoder ( Undeva într-o frază viitoare )

Exemplu de sinteză de vorbire utilizată pentru accesibilitate: vocea de sinteză de vorbire a festivalului de la en: wikipedia convertită în audio prin intermediul programului txt2audio

Sinteza vorbirii (English speech synthesis) este tehnica de reproducere artificială a vocii umane . Un sistem utilizat în acest scop se numește sintetizator de vorbire și poate fi implementat prin software sau hardware . Sistemele de sinteză a vorbirii sunt, de asemenea, cunoscute sub numele de sisteme text-to-speech (TTS) (în italiană: text-to-speech ) datorită capacității lor de a converti textul în vorbire. Există, de asemenea, sisteme capabile să convertească simbolurile fonetice în vorbire ^[1] .

Sinteza vorbirii poate fi realizată prin concatenarea înregistrărilor părților vocale stocate într-o bază de date . Diferitele sisteme de sinteză a vorbirii diferă în funcție de dimensiunea eșantioanelor de vorbire stocate: un sistem care stochează foneme unice sau foneme duble permite obținerea numărului maxim de combinații în detrimentul clarității generale, în timp ce în alte sisteme concepute pentru o utilizare specifică, este folosit înregistrând cuvinte întregi sau propoziții întregi pentru a obține un rezultat de înaltă calitate. Alternativ, un sintetizator poate încorpora un model de trăsături vocale și alte caracteristici umane pentru a crea o voce complet sintetică ^[2] .

Calitatea unui sintetizator de vorbire este evaluată atât pe baza asemănării sale cu vocea umană, cât și a nivelului său de inteligibilitate. Un program bun de conversie text-vorbire poate juca un rol important în accesibilitate, de exemplu, permițând persoanelor cu deficiențe de vedere sau dislexie să asculte documente scrise pe computer. Pentru acest tip de aplicație de la începutul anilor 1980, multe sisteme de operare au inclus funcții de sinteză vocală.

Mecanism de bază

Un sistem de sinteză a vorbirii sau un motor constă din două părți: un front-end și un back-end .

Partea front-end tratează conversia textului în simboluri fonetice, în timp ce back-end-ul interpretează simbolurile fonetice și le „citește”, transformându-le astfel într-o voce artificială.

Schema unui sistem generic de sinteză a vorbirii

Front-end-ul are două funcții cheie: în primul rând, se efectuează o analiză a textului scris pentru a converti toate numerele, acronimele și abrevierile în cuvinte complete (de exemplu, textul „2” este convertit în „două”). Acest pas de preprocesare este denumit normalizare sau clasificare a textului (în engleză: tokenization ). A doua funcție constă în convertirea fiecărui cuvânt în simbolurile sale fonetice corespunzătoare și în efectuarea analizei lingvistice a textului refăcut, împărțindu-l în unități prosodice, adică în propoziții, propoziții și puncte. Procesul de atribuire transcriere fonetică a cuvintelor se numește text la- foneme sau grapheme- la- foneme de conversie (text-to-fonem, TTP) ^[3] .

Transcrierea fonetică și informațiile de prozodie combinate împreună constituie reprezentarea lingvistică simbolică care este utilizată de back-end pentru conversia acestor informații în sunete, adică pentru procesul de sinteză propriu-zis.

Istorie

Dispozitive mecanice

Mașina vocală acustico-mecanică a lui Von Kempelen (desene din textul său din 1791)

Cercetătorii au încercat să construiască mașini pentru a reproduce vocea umană cu mult înainte de inventarea procesării electronice moderne a semnalului ( informatică ): primul echipament a fost construit de Gerbert din Aurillac , Albertus Magnus și Roger Bacon , între secolele X și XIII .

În 1779 , omul de știință danez Christian Kratzenstein , care lucra la Academia Rusă de Științe , a construit modele ale aparatului de vorbire uman care putea reproduce cele cinci sunete vocale lungi (adică sunetele [aː] , [eː] , [iː] , [oː] și [uː] conform alfabetului fonetic internațional ) ^[4] . Aceste dispozitive au fost urmate de aparatul vocal acustico-mecanic , un mecanism cu burduf creat de vienezul Wolfgang von Kempelen și descris într-o lucrare a sa din 1791 ^[5] . Această mașină a adăugat un model de buze și limbă, permițând astfel sintetizarea consoanelor în plus față de vocale. În 1837 Charles Wheatstone a produs o „mașină de vorbit” bazată pe designul lui von Kempelen, iar în 1846 Joseph Faber a construit Eufonia , capabilă să reproducă printre altele imnul național englez. Proiectul Wheatstone a fost reluat apoi în 1923 de Paget. ^[6]

În anii 1930 , Bell Labs (Bell Laboratories) a dezvoltat Vocoder , un analizor și sintetizator electronic de voce controlat de tastatură cu un rezultat clar inteligibil. Homer Dudley a perfecționat în continuare acest aparat prin crearea VODER , care a fost demonstrat în 1939 în timpul târgului mondial din New York ^[7] .

Cercetătorul Franklin S. Cooper și colegii săi de la Laboratoarele Haskins au construit jucătorul de secvență la sfârșitul anilor 1940 , finalizat în 1950 . Au fost realizate mai multe versiuni ale acestui dispozitiv, dintre care doar una a supraviețuit până în prezent. Dispozitivul convertește imaginile spectrului acustic al vocii în sunet și datorită acestui mecanism, Alvin Liberman și colegii săi au descoperit caracteristicile acustice care stau la baza percepției segmentelor fonetice (consoane și vocale).

Dispozitive electronice

Primele sintetizatoare de vorbire electronice au recreat o voce foarte metalică și au fost adesea de neînțeles; De atunci, însă, calitatea a crescut constant, iar vocea produsă de sistemele moderne de sinteză a vorbirii este uneori indistinctă de vocea umană reală.

Primele sisteme de sinteză a vorbirii pe computer au fost create la sfârșitul anilor 1950 și primul sistem cuprinzător de sinteză a vorbirii text-vorbire a fost implementat în 1968 ^[8] . În 1961, fizicienii John Larry Kelly, Jr și Louis Gertsman ^{[9] au} folosit un computer IBM 704 pentru a sintetiza vorbirea. Acest experiment a fost unul dintre punctele culminante ale activității Bell Labs : vocoderul lui Kelly a cântat piesa Daisy Bell , cu acompaniament muzical de Max Mathews. Scriitorul Arthur C. Clarke se afla la Bell Labs în vizită la prietenul și colegul său John Pierce chiar în momentul acestei demonstrații ^[10] și a fost impresionat până la punctul de a relua scena într-unul dintre momentele esențiale ale romanului său din 2001: A Space Odyssey ^[11] , făcând ca computerul HAL 9000 să redea aceeași melodie în timp ce este dezactivat de astronautul Dave Bowman ^[12] , scenă care a fost apoi reprodusă fidel de regizorul Stanley Kubrick în filmul cu același nume .

Primul dispozitiv de sinteză a vorbirii în italiană, MUSA, s-a născut în 1975 la laboratoarele CSELT (Grupul STET ) ^[13] ; prototipul a reușit să citească un text, cu o voce caracteristică „metalică” și, în 1978, să cânte și piesa Fra Martino Campanaro ^[14] . În 1978, grupul de cercetare CSELT privind tehnologiile vorbirii (în 2001 a devenit spin-off Loquendo ) a fost singura companie industrială din lume, pe lângă AT&T , care a avut o tehnologie de sinteză a vorbirii de interes industrial ^[15] .

În ciuda succeselor obținute cu sintetizatoarele electronice, cercetările privind sintetizatoarele mecanice de vorbire nu au fost abandonate, mai ales având în vedere o posibilă utilizare a unor astfel de sisteme pentru roboții de tip umanoid. ^[16]

Tehnologii de sinteză

Cele mai importante calități ale unei sinteze de vorbire sunt naturalețea și inteligibilitatea .

Naturalitatea exprimă cât de aproape este vocea sintetizată de cea umană, în timp ce inteligibilitatea reprezintă ușurința înțelegerii vocii sintetizate. Un sintetizator ideal este în același timp natural și inteligibil, în realitate sistemele de sinteză a vorbirii aproximând acest comportament încercând să optimizeze ambele caracteristici.

Cele două tehnologii principale pentru sinteza vorbirii sunt sinteza concatenativă și sinteza bazată pe reguli . Fiecare tehnologie are punctele forte și punctele sale slabe: alegerea pe care o utilizați depinde de obicei de tipul de utilizare finală a sintezei vorbirii.

Sinteza concatenativă

Sinteza concatenativă , după cum sugerează și numele, se bazează pe concatenare, adică combinația de fragmente de voce înregistrate. În general, această metodologie produce cel mai natural rezultat de sinteză, totuși diferența dintre variațiile naturale ale vocii umane și tehnicile de fragmentare automată a formelor de undă pot genera uneori mici perturbări sonore. Există trei subtipuri principale de sinteză concatenativă.

Sinteza pentru probe unitare

Sinteza prin eșantioane unitare se bazează pe baze de date mari de articole înregistrate. La crearea fiecărei baze de date de emisii înregistrate este împărțit în unul sau mai multe dintre aceste segmente: sunete izolate, silabe , morfeme , cuvinte , fraze și perioade complete. În mod normal, fragmentarea folosește un identificator de limbaj special modificat pentru a efectua o "aliniere forțată", urmată de corecții manuale bazate pe reprezentări vizuale ale sunetului, cum ar fi formele de undă și spectrogramele . ^[17] Probele de sunet sunt indexate în baza de date pe baza fragmentării și a parametrilor acustici, cum ar fi frecvența fundamentală ( ton muzical ), durata, poziția în silabă și sunetele adiacente. În timpul sintezei în timp real, emisia finală este generată pe baza unui algoritm de decizie arborescent ponderat care identifică „cea mai bună secvență” dintre eșantioanele candidate alese din baza de date.

Acest tip de sinteză produce cele mai naturale rezultate deoarece reduce la minimum operațiunile deprocesare a semnalului digital (DSP) pe probele înregistrate. De fapt, procesarea digitală modifică adesea redarea sunetului sintetizat, făcându-l mai puțin natural: unele sisteme folosesc tehnici DSP doar pentru a înmuia tranzițiile dintre probele de sunet înlănțuite. Cele mai bune sisteme de sinteză articulatorie produc un rezultat care este adesea indistinguibil de o voce umană reală, în special în acele contexte în care conversia text-vorbire a fost optimizată pentru un scop specific. Pe de altă parte, naturalețea maximă necesită în mod normal utilizarea bazelor de date de dimensiuni considerabile, care, în unele cazuri, pot ajunge la ordinea gigaocteților , echivalent cu câteva zeci de ore de înregistrări vocale. ^[18] Mai mult, s-a constatat că algoritmii de selecție a eșantioanelor pot alege segmente care produc o sinteză non-ideală (de exemplu, cu pronunție neclară a cuvintelor minore) chiar și atunci când o bază de date este mai bună în baza de date ^[19] .

Sinteza pentru diphones

Sinteza pentru diphones utilizează o bază de date cu sunete de dimensiuni minime conținând toate diphone - urile (tranziții între diferite sunete) tipice unui limbaj dat. Numărul de telefoane depinde de caracteristicile fonetice ale limbii: de exemplu, limba spaniolă include aproximativ 800 de telefoane, în timp ce limba germană are aproximativ 2500. Cu această tehnică, un singur eșantion pentru fiecare diphone este stocat în baza de date. În timpul procesării în timp real, prozodia propoziției care urmează a fi sintetizată se suprapune asupra diphone-urilor selectate utilizând tehnici DSP (procesare digitală a semnalului ), cum ar fi codarea liniară predictivă, PSOLA ^[20] ( Pitch-Synchronous Overlap and Add ) sau MBROLA . ^[21] Calitatea vocii rezultate este, în general, mai mică decât cea obținută prin sinteza articulatorie, dar sună mai natural decât cea obținută prin sinteza bazată pe reguli.

Defectele sintezei pentru diphone constau în mici decalaje între sunete, tipice mecanismului de concatenare și într-un efect de voce metalică, ca în sinteza bazată pe reguli. Comparativ cu aceste tehnici, sinteza pentru diphone-uri nu are avantaje semnificative, în afară de dimensiunea redusă a bazei de date suport. Din acest motiv, utilizarea acestei tehnici pentru aplicații comerciale este în declin, deoarece continuă să fie utilizată în cercetare datorită numeroaselor implementări de software gratuit disponibile.

Prima aplicație comercială a sintezei vorbirii în limba italiană, Eloquens ^[22] , proiectată în CSELT și comercializată de Telecom Italia din 1993, s-a bazat tocmai pe diphone-uri. Este încă răspândit, disponibil ca software gratuit (numai pentru sistemele de operare Windows) ^[23] .

Sinteza pentru aplicații specifice

Sinteza specifică aplicației se bazează pe concatenarea de cuvinte și fraze preînregistrate pentru a genera emisii complete. Este utilizat în principal pentru aplicații în care textul care trebuie rezumat este limitat la nevoile unui anumit sector, cum ar fi anunțurile feroviare sau aeroportuare sau prognozele meteo ^[24] . Tehnologia este ușor de implementat și este utilizată de ceva timp în aplicații și dispozitive comerciale, cum ar fi ceasurile cu alarmă vorbitoare sau calculatoarele vocale. Naturalitatea acestor sisteme este foarte mare datorită faptului că numărul de fraze componente este limitat și reproduce foarte fidel prozodia și intonația înregistrărilor originale.

Pe de altă parte, aceste sisteme se limitează la reproducerea cuvintelor și frazelor conținute în baza lor de date și pot sintetiza doar combinații predefinite, deci nu pot fi extinse pentru uz general. În plus, legătura cuvintelor tipice limbajului natural poate provoca unele probleme, cu excepția cazului în care sunt luate în considerare toate variantele posibile. De exemplu, în limba franceză multe consoane finale sunt tăcute, dar dacă cuvântul următor începe cu o vocală, atunci acestea trebuie pronunțate ( legătură ). Aceste variații de pronunție nu pot fi reproduse printr-un sistem simplu de concatenare a cuvintelor și este necesar să-i creștem complexitatea pentru a-l face adaptabil la context.

Sinteza bazată pe reguli

Ilustrația din 1846 care reproduce Euphonia , o mașină mecanică de sinteză a vorbirii creată de Joseph Faber

Sinteza bazată pe reguli nu folosește eșantioane de voce umană, ci recreează vocea pentru procesare pe baza unui model acustic și din acest motiv este numită și sinteză formantă . Această tehnică constă în generarea de forme de undă ale căror parametri acustici sunt modulați, cum ar fi frecvența fundamentală, tonurile și nivelurile de zgomot . Multe sisteme de sinteză concatenativă utilizează, de asemenea, unele componente de acest tip.

Multe sisteme de sinteză bazate pe reguli generează o voce artificială și foarte metalică care nu poate fi confundată cu o voce umană. Cu toate acestea, această tehnică de sinteză nu vizează o naturalitate maximă și are o serie de avantaje față de sinteza concatenativă. De fapt, sinteza bazată pe reguli este cu siguranță inteligibilă chiar și la viteze mari, deoarece nu prezintă mici pauze acustice tipice sistemelor de sinteză concatenative: sinteza de mare viteză este utilizată pe scară largă pentru sistemele de citire a ecranului pentru utilizarea computerelor de către persoanele cu deficiențe de vedere. persoane sau persoane cu dislexie . În plus, sistemele de sinteză bazate pe reguli sunt gestionate de programe mai mici, deoarece nu trebuie să utilizeze o bază de date cu probe vocale. Această caracteristică permite utilizarea sa în sistemele încorporate , unde capacitatea memoriei și puterea de calcul a microprocesorului pot fi limitate. În cele din urmă, sistemele de sinteză bazate pe reguli pot controla toate aspectele limbajului vocal, generând o mare varietate de prozodii și intonații și astfel transmitând nu numai conținutul textului, ci și efectele emoționale și tonurile vocii.

Exemple de sinteză bazată pe reguli cu un control al tonului foarte precis, deși nu în timp real, sunt lucrările efectuate la sfârșitul anilor șaptezeci pentru jocul Speak & Spell produs de Texas Instruments și pentru consolele de jocuri video. Produs de SEGA la începutul anilor 1980 . ^[25] Pentru aceste proiecte, generarea intonației corecte a reprezentat o adevărată provocare tehnologică ale cărei rezultate nu au fost încă potrivite de niciun sistem de sinteză a vorbirii în timp real. ^[26]

Sinteza articulatorie

Sinteza articulativă utilizează tehnici de calcul bazate pe modele biomecanice ale trăsăturilor vorbirii umane și proceselor lor de articulare. Primul sintetizator de tip articulator folosit în mod regulat pentru experimentele de laborator a fost dezvoltat la mijlocul anilor 1970 de Philip Rubin , Tom Baer și Paul Mermelstein de la Laboratoarele Haskins. Acest sintetizator, cunoscut și sub numele de ASY, s-a bazat pe modele de trăsături vocale dezvoltate de Paul Mermelstein, Cecil Coker și alții în anii 1960 și 1970 de către Laboratoarele Bell .

Până nu demult, modelele de sinteză articulatorie nu fuseseră utilizate pentru sistemele comerciale de sinteză. O excepție notabilă este sistemul bazat pe NeXT realizat și comercializat de Trillium Sound Research, o companie afiliată la Universitatea din Calgary unde a avut loc o mare parte din cercetările inițiale. După soarta multor aplicații derivate din NeXT (care a fost creată de Steve Jobs la sfârșitul anilor 1980 și apoi fuzionată cu Apple în 1997 ), software-ul Trillium a fost pus la dispoziție sub GNU GPL și continuă să evolueze către proiectul gnuspeech. . Acest sistem, comercializat pentru prima dată în 1994 , implementează o conversie text-vorbire complet articulativă printr-un ghid de undă sau linie de transmisie care emulează tracturile nazale și orale umane controlate de „modelul de regiune distinctiv” al lui Carré.

Sinteza Markov

Markov sinteza este o metodă bazată pe Markov Modelul Ascuns (HMM). În această tehnică, spectrul de frecvență (utilizat pentru tractul vocal), frecvența fundamentală (utilizată pentru sursa vocală) și durata emisiei vocale (folosită pentru prozodie ) sunt modelate simultan folosind modele ascunse Markov. Aceleași modele ascunse Markov generează formele de undă vocale pe baza unui criteriu de maximă probabilitate . ^[27]

Sinteza sinusoidală

Sinteza sinusoidală este o tehnică în care vocea este sintetizată prin înlocuirea formanților cu frecvențe pure generate de formele de undă sinusoidală.

Primul program de sinteză sinusoidală a fost dezvoltat de Philip Rubin de la Laboratoarele Haskins în anii 1970 pentru a crea stimuli artificiali în experimentele de percepție. Acest program a fost folosit ulterior de Robert Remez, Philip Rubin, David Pisoni și alții pentru a demonstra că un ascultător poate percepe vorbirea ca fiind continuă chiar și în absența vârfurilor vocale tipice. ^[28]

Probleme

Normalizarea textului

Procesul de normalizare a unui text este rareori unic. În texte există adesea omografe , numere și abrevieri care trebuie traduse într-o reprezentare fonetică corectă. În cazul omografiile, cuvinte care au aceeași reprezentare textuală necesită o pronunție diferite în funcție de sensul și , prin urmare , contextul, ca , de exemplu , în propoziția „Am aruncat ancora“, în cazul în care omograf nu a fost încă pronunțat în două moduri diferite cu două semnificații diferite ( am aruncat din nou ancora ).

Majoritatea sistemelor de conversie text-vorbire nu pot genera o reprezentare semantică a textului, deoarece procesele care pot fi utilizate pentru aceasta nu sunt suficient de fiabile, nu sunt încă pe deplin înțelese sau sunt ineficiente din punct de vedere al calculului. Mai degrabă, tehnicile euristice sunt folosite pentru a identifica modalitatea corectă de a rezolva ambiguitățile, cum ar fi examinarea cuvintelor înconjurătoare și utilizarea statisticilor de frecvență.

Alegerea modului de sintetizare a unui număr este, de asemenea, o problemă. Din punct de vedere al programării, convertirea unui număr în text, cum ar fi „1325” în „o mie trei sute douăzeci și cinci”, este o operație simplă. Cu toate acestea, atunci când trebuie să contextualizați corect un număr, vă confruntați din nou cu o ambiguitate. „1325” poate fi convertit ca „o mie trei sute douăzeci și cinci” dacă este un an sau o cantitate sau ca „unul trei doi cinci” dacă este un cod numeric. Din nou, un sistem de conversie a vorbirii poate face alegeri pe baza cuvintelor din jur și a punctuației; unele sisteme vă permit, de asemenea, să specificați un context pentru a rezolva ambiguitățile.

La fel, abrevierile pot fi, de asemenea, ambigue. De exemplu, abrevierea „ha” pentru hectar trebuie distinsă de „ha”, cuvântul a avea . Există cazuri și mai complexe: „S.Marco”, „S.Antonio”, „S.Rita” și „S.Stefano” folosesc toate aceeași abreviere „S.” care, totuși, trebuie redate respectiv cu „San”, „Sant '”, „Moș Crăciun” și „Sfânt”. Sistemele de conversie cu front-end-uri inteligente sunt capabile să rezolve ambiguitățile pe baza învățării, dar alte sisteme mai puțin sofisticate folosesc o singură alegere peste tot, cu rezultate care uneori pot fi lipsite de sens sau chiar comice.

Redarea fonemelor din text

Sistemele text-vorbire utilizează două abordări de bază pentru a determina modul în care un cuvânt este pronunțat din ortografia sa, un proces cunoscut și sub numele de conversie text-la-fonem sau grafem-la-fonem (lingviștii folosesc termenul fonem pentru a descrie sunete distinctive în contextul unui anumit limbaj).

Cea mai simplă abordare este conversia bazată pe dicționar, în care programul stochează un dicționar mare care conține toate cuvintele unei limbi și pronunția lor: pronunția corectă a fiecărui cuvânt se obține prin identificarea acestuia în dicționar și înlocuirea acestuia cu pronunția stocată Acolo.

A doua abordare este conversia bazată pe reguli, unde regulile de pronunție bazate pe ortografia lor se aplică cuvintelor. Această abordare este similară cu metoda de învățare „solidă” a citirii ( vorbirea sintetică ).

Fiecare dintre cele două abordări are argumentele pro și contra. Abordarea bazată pe dicționar este rapidă și precisă, dar nu poate oferi niciun rezultat dacă un cuvânt nu este prezent în dicționar; mai mult, pe măsură ce crește dimensiunea dicționarului, crește și cantitatea de memorie necesară de sistemul de sinteză. Pe de altă parte, abordarea bazată pe reguli este capabilă să funcționeze cu orice text introdus, dar complexitatea sa crește considerabil, deoarece sistemul ia în considerare și neregulile în regulile de ortografie sau pronunție. Este suficient să luăm în considerare cazuri precum cel al denumirii latine „Gneo”, unde grupul gn se pronunță gn , cu g gutural, în loc de un singur nazal ca la miel . Ca rezultat, aproape toate sistemele de sinteză a vorbirii în practică aleg să adopte o combinație a celor două abordări.

În unele limbi, ca și în cazul limbii spaniole sau italiene , corespondența dintre modul în care este scris un cuvânt și pronunția acestuia este foarte mare, astfel încât determinarea pronunției corecte pornind de la ortografie este simplificată; în aceste cazuri, sistemele de sinteză a vorbirii folosesc aproape exclusiv metoda bazată pe reguli, limitând utilizarea dicționarului la acea minoritate de cuvinte, cum ar fi numele de origine străină, a căror pronunție nu este evidentă pornind de la ortografie. Dimpotrivă, pentru limbile care au o corespondență foarte scăzută între ortografia unui cuvânt și pronunția acestuia, ca de exemplu în limba engleză , sistemele de sinteză a vorbirii se bazează esențial pe dicționare, limitând utilizarea metodelor bazate pe reguli numai pentru cuvinte neobișnuite sau cuvinte care nu sunt în dicționar.

Evaluarea calitativă

Este foarte dificil să evaluezi sistemele de sinteză a vorbirii, deoarece nu există criterii universale de referință. Calitatea unui sistem de sinteză a vorbirii depinde în mod semnificativ de calitatea nu numai a tehnicii utilizate pentru producție (care poate utiliza înregistrări analogice sau digitale), ci și de instrumentele și contextul de reproducere, ale căror diferențe pot compromite adesea rezultatul. .

Unii cercetători au început să utilizeze setul de date de vorbire comun dezvoltat ca proiect open source de Universitatea Carnegie Mellon ca referință pentru evaluare ^[29] .

Redarea conținutului emoțional

Un studiu realizat de Amy Drahota și alți cercetători de la Universitatea din Portsmouth , Marea Britanie , publicat în revista Speech Communication , a arătat că ascultătorul este capabil să determine doar prin voce, cu un grad ridicat de acuratețe, dacă vorbitorul vorbește. zâmbind sau nu ^[30] . Acest lucru a sugerat că identificarea trăsăturilor vocale care poartă conținut emoțional ar putea fi utilă pentru a face rezultatul unei sinteze a vorbirii mai natural.

Hardware dedicat

Un kit pentru sinteza electronică a vorbirii produs de Bell System

Votrax
- SC-01A (formant analogic)
- SC-02 / SSI-263 / "Arctic 263"
General Instruments SP0256-AL2 (CTS256A-AL2, MEA8000)
National Semiconductor DT1050 Digitalker (Mozer)
Silicon Systems SSI 263 (formant analogic)
Texas Instruments
- TMS5110A (LPC)
- TMS5200
Oki Semiconductor
- MSM5205
- MSM5218RS (ADPCM)
Toshiba T6721A
Philips PCF8200

Sisteme de operare și dispozitive echipate cu sinteză vocală

Apple Mac OS și Mac OS X

Apple a fost primul care a integrat sinteza vocală în sistemul de operare al computerelor sale, cu software-ul MacIntalk , produs în casă în 1984 și disponibil pe modele Macintosh . La începutul anilor 1990, Apple și-a extins funcționalitatea extinzând vorbirea la text la întregul sistem.

Odată cu introducerea procesorelor PowerPC mai rapide, au fost incluse eșantioane vocale de înaltă calitate, împreună cu un sistem de recunoaștere a vorbirii, care a permis un control lin al comenzilor. În timpurile ulterioare, Apple a adăugat, de asemenea, voci diferite, bazate pe mostre. Deși a început ca o curiozitate, sistemul de sinteză a vorbirii computerelor Macintosh a ajuns să evolueze către un program emblematic, PlainTalk , pentru sprijin complet pentru persoanele cu deficiențe de vedere.

Conversia automată text-vorbire, numită utilitarul VoiceOver , a fost inclusă ca instrument de accesibilitate standard în sistemul de operare Mac OS X Tiger și îmbunătățită în versiunea ulterioară Mac OS X Leopard , care acceptă o voce numită „Alex” care include și sinteza realistă a respirației intermediare între pronunția propozițiilor, precum și o inteligibilitate îmbunătățită pentru citirea la o viteză mai mare.

Sempre nell'ambito dei prodotti Apple, la tecnologia VoiceOver è stata integrata nell' iPod shuffle , che è in grado di "leggere" a voce alta le informazioni relative al brano in riproduzione a partire dalla terza generazione del prodotto.

AmigaOS

Il secondo sistema operativo a incorporare funzioni di sintesi vocale fu AmigaOS , introdotto nel 1985 da Commodore International che ne ottenne la licenza da una software house indipendente, la Don't Ask Software, ora Softvoice, Inc. Il programma realizzava un sistema completo di emulazione vocale, con voci maschili e femminili e meccanismi di enfatizzazione, resi possibili dalle caratteristiche avanzate della componentistica audio prodotta da Amiga . ^[31] Il sistema era suddiviso in un dispositivo parlante (narrator.device) e una libreria di traduzione (translator.library): un ulteriore software di Amiga, Speak Handler implementava un convertitore da testo a voce. AmigaOS gestiva il sistema di sintesi vocale come periferica hardware virtuale, di modo che un utente poteva ridirigervi anche l'uscita della console. Alcuni programmi prodotti da Amiga, come i suoi word processor, utilizzavano in modo massiccio questo sistema di sintesi vocale.

Microsoft Windows

I sistemi Windows impiegano una sintesi vocale basata su SAPI4 e SAPI5 che prevede anche un modulo di riconoscimento vocale (SRE, Speech Recognition Engine ).

Nelle versioni di sistema operativo Windows 95 e Windows 98 SAPI 4.0 era disponibile come componente aggiuntivo di produzione esterna. Fu con Windows 2000 che venne aggiunto il programma Microsoft Narrator , un sistema di sintesi vocale disponibile direttamente per tutti gli utenti di un computer: una volta installato, tutti i programmi compatibili con Windows ne potevano utilizzare le funzionalità di sintesi vocale tramite menu appositi.

In Windows Vista , Windows 7 e Windows 8 , lo strumento di sintesi vocale integrato è chiamato Assistente vocale .

Microsoft Speech Server è un pacchetto completo per la sintesi e il riconoscimento vocali, sviluppato per applicazioni di carattere commerciale come per esempio i call center .

Linux

Esistono varie applicazioni di sintesi vocale per computer basati su sistemi operativi open source come GNU/Linux , fra i quali programmi a loro volta open-source come Festival Speech Synthesis System ^[32] , che sfrutta la sintesi per difoni e può utilizzare un numero ridotto di voci; il progetto MBROLA ; l'applicazione eSpeak ^[33] ; gnuspeech , di Free Software Foundation , che usa la sintesi articolatoria ^[34] .

Per i sistemi GNU/Linux esistono inoltre altri programmi commerciali di sintesi vocale.

L' ambiente desktop KDE dispone di tre programmi integrati tra loro e con il desktop : Ksayt, interfaccia di configurazione della piattaforma vocale, Kmouth che opera una sintesi vocale a partire da un testo scritto e Kttsmgr, gestore della pronuncia.

Internet

Allo stato attuale esistono parecchi applicativi e plugin per client di posta o navigatori internet in grado di leggere direttamente i messaggi di e-mail e le pagine web.

Alcuni software specializzati sono in grado anche di leggere i feed RSS . I lettori di RSS on line da un lato semplificano l'accesso all'informazione, consentendo agli utenti di ascoltare le loro sorgenti preferite e di convertirle in podcast , dall'altro sono disponibili praticamente per quasi tutti i PC collegati a Internet. Gli utenti possono scaricare i file audio così generati su dispositivi portatili, per esempio sotto forma di podcast e ascoltarli così a passeggio, praticando sport o andando al lavoro.

Un campo di applicazione che si sta estendendo è l'impiego della sintesi vocale per l'accessibilità tramite web, con i cosiddetti Talklet sviluppati dall'azienda inglese Textic. Con questi strumenti non è necessario scaricare un software apposito ma chiunque, per qualsiasi scopo, può accedere a funzioni di sintesi vocali direttamente via Internet usando un qualsiasi browser . Come in tutte le applicazioni basate sul web, i tempi di risposta dipendono essenzialmente dalle caratteristiche del collegamento Internet dell'utente finale ^[35] ma la facilità di accesso resta indubbiamente un punto di forza di questo approccio.

Altri

Gli home computer TI-99/4 e TI-99/4A prodotti da Texas Instruments nel 1979 e 1981 erano in grado di generare fonemi da testo o di recitare intere parole o frasi tramite una periferica di sintesi vocale molto diffusa. TI utilizzava un codec proprietario per inglobare intere frasi all'interno delle sue applicazioni come ad esempio i videogiochi . ^[36]
Il sistema IBM OS/2 Warp 4 incorporava di serie VoiceType, precursore del successivo sviluppo ViaVoice.
Diverse compagnie, tra cui AT&T , Loquendo e Nuance Communications , hanno realizzato sistemi di sintesi vocale commerciali di tipo dedicato.
Sistemi di sintesi vocale sono stati sviluppati in passato anche da altre compagnie non più esistenti.

Linguaggi di markup

Sono stati definiti alcuni linguaggi di markup per la resa del parlato utilizzando un formato di descrizione di tipo XML . Il più recente è l' SSML ( Speech Synthesis Markup Language ) che dal 2004 è una raccomandazione del W3C , arrivato alla versione 1.1 nel 2010 ^[37] e integrato nel 2008 dal linguaggio PLS ( Pronunciation Lexicon Specification ) usato per specificare in modo formale le regole di pronuncia ^[38] . Tra i linguaggi di markup più vecchi rientrano tra gli altri JSML ( Java Speech Markup Language ) e SABLE : nonostante fossero stati entrambi proposti come base per uno standard, nessuno di essi ha avuto in realtà un'ampia diffusione.

I linguaggi di markup per la sintesi vocale non vanno confusi con i linguaggi di markup per i dialoghi: per esempio, VoiceXML oltre al markup per la conversione vocale prevede anche dei tag relativi al riconoscimento vocale, alla gestione dei dialoghi e alla composizione di numeri telefonici su comando vocale.

Applicazioni

Accessibilità

La sintesi vocale è da lungo tempo uno strumento di assistenza tecnologica di importanza vitale e la sua applicazione in questo campo è significativa e largamente diffusa in quanto elimina barriere ambientali per un'ampia gamma di problematiche. L'applicazione più longeva è quella dei lettori di schermo per persone con problemi alla vista ma la sintesi vocale si usa oggi anche per aiutare persone affette da dislessia o da altri problemi di lettura e per i bambini in età prescolare. Questi sistemi si usano anche a sostegno di persone con gravi problemi vocali o di fonazione, di solito in accoppiata con dispositivi dedicati per la comunicazione vocale (VOCA, "Voice Output Communication Aid").

Google e il suo programma Google Traduttore presentano una funzione di sintetizzatore vocale.

Trasporti

Nei luoghi come gli aeroporti e le stazioni ferroviarie la sintesi vocale viene usata per effettuare le comunicazioni di servizio ai passeggeri.

Nei navigatori GPS, la sintesi vocale viene usata per dare le indicazioni di guida al conducente.

Notiziari

Alcuni siti di notizie come Ananova utilizzano la sintesi vocale per convertire i bollettini informativi in audio per applicazioni di tipo mobile.

Tempo libero

Le tecniche di sintesi vocale trovano impiego anche nell'industria del tempo libero, in particolare nella produzione di videogiochi, anime , manga e simili. Nel 2007 Animo Limited ha annunciato lo sviluppo di un pacchetto applicativo basato sul suo programma di sintesi vocale FineSpeech, concepito specificamente per le industrie produttrici di videogiochi e anime in grado di generare racconti e dialoghi secondo le specifiche dell'utente. ^[39] Il pacchetto ha trovato applicazione nel 2008, quando Biglobe , controllata di NEC, ha annunciato la disponibilità di un servizio web che consente agli utenti di creare frasi usando le voci dei personaggi di Code Geass: Lelouch of the Rebellion R2 . ^[40]

Esistono anche programmi per la produzione musicale, come per esempio Vocaloid , in grado di generare voci cantanti a partire da testi e melodia. Questo è anche l'ambito del progetto Singing Computer che usa il software open-source GPL Lilypond e il sistema di sintesi vocale Festival, con lo scopo di aiutare le persone non vedenti nella creazione e stesura di testi di canzoni. ^[41]

Note

^ ( EN ) Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, From Text to Speech: The MITalk system . Cambridge University Press: 1987. ISBN 0-521-30641-8
^ ( EN ) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America , 70, 321-328.
^ ( EN ) PH Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, Progress in Speech Synthesis . Springer: 1997. ISBN 0-387-94701-9
^ ( EN ) History and Development of Speech Synthesis , Helsinki University of Technology, 4 novembre 2006
^ ( DE ) Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), JB Degen, Vienna
^ ( EN ) Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton , L'Aja, pp. 2451-2487, 1974.
^ ( EN ) Fotografie del VODER alla Fiera Mondiale del 1939 Archiviato il 15 maggio 2008 in Internet Archive .
^ IEEE: Chip Hall of Fame: Texas Instruments TMC0281 Speech Synthesizer - The world's first speech synthesizer on chip—and accidental supporting star of ET
^ ( EN ) NY Times annuncio funebre di Louis Gerstman .
^ ( EN ) Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis Archiviato il 25 marzo 2016 in Internet Archive .
^ ( EN ) Arthur C. Clarke, Biografia on line Archiviato l'11 dicembre 1997 in Internet Archive .
^ ( EN ) Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website) Archiviato il 7 aprile 2000 in Internet Archive .
^ Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1995). Interactive voice technology at work: The CSELT experience. Speech communication, 17(3-4), 263-271.
^ Gabriele Falciasecca, Storia delle telecomunicazioni , a cura di V. Cantoni e Giuseppe Pelosi, vol. 1, Firenze, Firenze University Press, 2011, p. 393, ISBN 978-88-6453-243-1 .
^ Il Sole 24 ore, Le voci di Loquendo , 22 gennaio 2012
^ ( EN ) Anthropomorphic Talking Robot Waseda-Talker Series Archiviato il 17 luglio 2007 in Internet Archive .
^ ( EN ) Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario IEEE su TTS, 2002 . ( http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html )
^ ( EN ) John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
^ ( EN ) Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, https://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.
^ ( EN ) Sintesi basata su PSOLA Archiviato il 22 febbraio 2007 in Internet Archive .
^ ( EN ) T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings , 1996.
^ Datasheet archive: Eloquens , su datasheetarchive.com . URL consultato il 3 marzo 2017 (archiviato dall' url originale il 27 febbraio 2017) .
^ Softonic: Eloquens
^ ( EN ) LF Lamel, JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology , Sept 1993
^ Tra gli esempi: Astro Blaster , Space Fury , il videogioco di Star Trek .
^ ( EN ) John Holmes e Wendy Holmes. Speech Synthesis and Recognition, 2nd Edition . CRC: 2001. ISBN 0-7484-0856-8 .
^ ( EN ) The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/
^ ( EN ) Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Speech perception without traditional speech cues. Science , 1981, 212, 947-950.
^ ( EN ) Blizzard Challenge http://festvox.org/blizzard
^ ( EN ) The Sound of Smiling Archiviato il 17 maggio 2008 in Internet Archive .
^ ( EN ) Miner, Jay et al (1991). Amiga Hardware Reference Manual: Third Edition . Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8 .
^ Festival
^ eSpeak: Speech Synthesizer
^ ( EN ) gnuspeech
^ ( EN ) Tempi di risposta "real time" misurati da Textic
^ ( EN ) Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002 Archiviato il 3 ottobre 2013 in Internet Archive .
^ ( EN ) Speech Synthesis Markup Language (SSML) Version 1.1 W3C Recommendation 7 September 2010
^ ( EN ) Pronunciation Lexicon Specification (PLS) Version 1.0 W3C Recommendation 14 October 2008
^ ( EN ) Speech Synthesis Software for Anime Announced
^ ( EN ) Code Geass Speech Synthesizer Service Offered in Japan
^ ( EN ) Free(b)soft Singing Computer

Bibliografia

Billi Roberto (a cura di), Tecnologie vocali per l'interazione uomo-macchina: Nuovi servizi a portata di voce , Ed. CSELT, 1995
La voce e il computer ( JPG ), in MCmicrocomputer , n. 85, Roma, Technimedia, maggio 1989, pp. 114-119, ISSN 1123-2714 ( WC · ACNP ) .

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su sintesi vocale

Collegamenti esterni

( EN ) Speech synthesis / Speech synthesizer , su Enciclopedia Britannica , Encyclopædia Britannica, Inc.

Controllo di autorità	NDL ( EN , JA ) 00575464

Portale Informatica : accedi alle voci di Wikipedia che trattano di informatica

[1] ( EN ) Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, From Text to Speech: The MITalk system . Cambridge University Press: 1987. ISBN 0-521-30641-8

[2] ( EN ) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America , 70, 321-328.

[3] ( EN ) PH Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg, Progress in Speech Synthesis . Springer: 1997. ISBN 0-387-94701-9

[Helsinki-4] ( EN ) History and Development of Speech Synthesis , Helsinki University of Technology, 4 novembre 2006

[5] ( DE ) Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Meccanismo della voce umana a confronto con la descrizione della sua macchina parlante"), JB Degen, Vienna

[6] ( EN ) Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton , L'Aja, pp. 2451-2487, 1974.

[7] ( EN ) Fotografie del VODER alla Fiera Mondiale del 1939 Archiviato il 15 maggio 2008 in Internet Archive .

[8] IEEE: Chip Hall of Fame: Texas Instruments TMC0281 Speech Synthesizer - The world's first speech synthesizer on chip—and accidental supporting star of ET

[9] ( EN ) NY Times annuncio funebre di Louis Gerstman .

[10] ( EN ) Alcatel-Lucent Bell Labs: Text-to-Speech Synthesis Archiviato il 25 marzo 2016 in Internet Archive .

[Arthur_C_Clarke-11] ( EN ) Arthur C. Clarke, Biografia on line Archiviato l'11 dicembre 1997 in Internet Archive .

[bell_labs_hal-12] ( EN ) Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website) Archiviato il 7 aprile 2000 in Internet Archive .

[13] Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1995). Interactive voice technology at work: The CSELT experience. Speech communication, 17(3-4), 263-271.

[14] Gabriele Falciasecca, Storia delle telecomunicazioni , a cura di V. Cantoni e Giuseppe Pelosi, vol. 1, Firenze, Firenze University Press, 2011, p. 393, ISBN 978-88-6453-243-1 .

[15] Il Sole 24 ore, Le voci di Loquendo , 22 gennaio 2012

[16] ( EN ) Anthropomorphic Talking Robot Waseda-Talker Series Archiviato il 17 luglio 2007 in Internet Archive .

[17] ( EN ) Alan W. Black, Perfect synthesis for all of the people all of the time. Seminario IEEE su TTS, 2002 . ( http://www.cs.cmu.edu/~awb/papers/IEEE2002/allthetime/allthetime.html )

[18] ( EN ) John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.

[19] ( EN ) Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, https://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Section 5.6 on page 54.

[20] ( EN ) Sintesi basata su PSOLA Archiviato il 22 febbraio 2007 in Internet Archive .

[21] ( EN ) T. Dutoit, V. Pagel, N. Pierret, F. Bataiile, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings , 1996.

[22] Datasheet archive: Eloquens , su datasheetarchive.com . URL consultato il 3 marzo 2017 (archiviato dall' url originale il 27 febbraio 2017) .

[23] Softonic: Eloquens

[24] ( EN ) LF Lamel, JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology , Sept 1993

[25] Tra gli esempi: Astro Blaster , Space Fury , il videogioco di Star Trek .

[26] ( EN ) John Holmes e Wendy Holmes. Speech Synthesis and Recognition, 2nd Edition . CRC: 2001. ISBN 0-7484-0856-8 .

[27] ( EN ) The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/

[28] ( EN ) Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Speech perception without traditional speech cues. Science , 1981, 212, 947-950.

[29] ( EN ) Blizzard Challenge http://festvox.org/blizzard

[30] ( EN ) The Sound of Smiling Archiviato il 17 maggio 2008 in Internet Archive .

[31] ( EN ) Miner, Jay et al (1991). Amiga Hardware Reference Manual: Third Edition . Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8 .

[32] Festival

[33] Speak: Speech Synthesizer

[34] ( EN ) gnuspeech

[35] ( EN ) Tempi di risposta "real time" misurati da Textic

[36] ( EN ) Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002 Archiviato il 3 ottobre 2013 in Internet Archive .

[37] ( EN ) Speech Synthesis Markup Language (SSML) Version 1.1 W3C Recommendation 7 September 2010

[38] ( EN ) Pronunciation Lexicon Specification (PLS) Version 1.0 W3C Recommendation 14 October 2008

[39] ( EN ) Speech Synthesis Software for Anime Announced

[40] ( EN ) Code Geass Speech Synthesizer Service Offered in Japan

[41] ( EN ) Free(b)soft Singing Computer

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9] au

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]