Sinteza vorbirii chinezești

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Sinteza vorbirii chinezești este aplicarea tehnicilor de sinteză a vorbirii în limba chineză sau, mai corect, în mandarina standard .

Comparativ cu sinteza vorbirii altor limbi, aplicarea la limba chineză implică o serie de dificultăți suplimentare legate de determinarea pronunției corecte a caracterelor chinezești, care depinde în mare măsură de context; complexitatea prozodiei , esențială pentru a transmite sensul corect; și în unele cazuri și la lipsa unei referințe clare chiar și în rândul vorbitorilor nativi cu privire la pronunția corectă a unor foneme .

Caracteristicile limbii chineze, de fapt, datorită dependenței foarte puternice de context, prezintă o serie de ambiguități care fac ca operațiunea de identificare a redării corecte a unui caracter scris să fie foarte complexă, fie că începe de la scrierea ideografică, fie de la o transliterare forma ca de exemplu pinyin . De exemplu, caracterul 凉 poate fi pronunțat atât liáng ( cool ), cât și liàng ( cool ), iar alegerea corectă depinde doar de contextul semantic . Și mai mari sunt dificultățile unei sinteze care începe de la pinyin, deoarece aproape întotdeauna aceeași transliterare poate corespunde multor semnificații diferite, de asemenea, în acest caz strict dependente doar de context. La aceasta trebuie adăugate variantele de pronunție referitoare la poziția cuvântului în contextul propoziției și la ligatura eufonică dintre cuvinte sau silabe, care nu găsește expresie explicită în forma scrisă.

Proiecte de sinteză

Proiecte de sinteză bazate pe corpus

Compania iFLYTEK (fostă Ifly Info Tech) a publicat în 2005 un document ca parte a W3C în care începând de la Speech Synthesis Markup Language este un dialect derivat numit Chinese Speech Synthesis Markup Language (CSSML) care oferă marcajul specific pentru a formaliza pronunția personaje și adăugați câteva informații despre prosodie [1] . Sintetizatorul realizat cu această metodă utilizează tehnica de sinteză bazată pe un corpus de eșantioane preînregistrate (cuvinte, secvențe de caractere, fragmente de propoziții), care permite o redare foarte naturală în majoritatea cazurilor, dar care prezintă unele lacune în cazul propozițiilor cu neobișnuite sau conținut neobișnuit care nu se potrivește cu mostrele bazei de date. iflytek nu a dezvăluit niciodată cantitatea de date utilizate, dar analiza produselor comerciale care exploatează tehnologia sa permite efectuarea unor estimări. De exemplu, sintetizatorul SpeechPlus de la Bider are o dimensiune de descărcare de 1,3 Gigabytes, din care 1,2 Gigabytes sunt folosiți pentru date vocale chinezești unice, stocate în compresie ridicată.

Sistemul de sinteză iflytek vă permite, de asemenea, să sintetizați texte mixte care conțin părți atât în engleză, cât și în chineză (de exemplu, propoziții chinezești care conțin cuvinte în limba engleză), cu o calitate de sinteză engleză pe care iflytek însuși o definește „medie”.

De asemenea, acest sistem pare să depindă strict de caracterele chineze și nu este capabil să obțină o sinteză pornind doar de la pinyin , chiar dacă CSSML vă permite să combinați pinyin cu caractere pentru a încerca să rezolvați ambiguitățile pronunției, cu rezultate care nu sunt întotdeauna garantate.

Programul de predare Gradint include un utilitar care încearcă să convertească un pinyin arbitrar într-un CSSML care ar trebui pronunțat corect de SpeechPlus, selectând caracterele chinezești care redau cel mai bine pronunția, luând în considerare și specificitățile SpeechPlus. Cu toate acestea, avertismentele referitoare la acest utilitar recomandă, de asemenea, să verificați în mod sistematic toate propozițiile sintetizate și să utilizați un sintetizator alternativ dacă pronunția nu este corectă: de fapt este posibil ca sunetul rezultat să conțină silabe complet diferite sau neașteptate în comparație cu pinyinul utilizat în intrare.

Proiectul de sintetizator experimental dezvoltat de Universitatea Tsinghua, SinoSonic, se bazează, de asemenea, pe un corpus , cu o cantitate de date egală cu 800 Megabytes pentru vocea Harbin. Acest proiect nu a fost niciodată disponibil pentru descărcare.

Proiecte de sinteză pentru eșantioane unitare

Software-ul KeyTip Putonghua Reader, produs de CJKware, adoptă o abordare mai simplă, bazată pe înregistrarea a 10.000 de termeni de vocabular multisilabă plus înregistrări mono-silabice în șase prozodii diferite (cele patru tonuri tipice ale pinyinului plus un ton neutru și o variantă a celui de-al treilea ton la folosiți pentru propoziția finală). Cu această abordare, cantitatea totală de date utilizate este redusă la 120 Megabytes. Probele pot fi înlănțuite liber în orice combinație, dar vorbirea rezultată sună forțat, așa cum este tipic pentru sinteza unității de probă, cu un efect negativ asupra prodoziei generale, iar viteza și expresia sunt, de asemenea, fixate. Cu toate acestea, pe baza eșantioanelor elementare de pronunție, sistemul este capabil să redea propoziții și expresii și mai puțin obișnuite sau deosebit de complexe într-un mod acceptabil.

Intrările „Lily” și „Wang” ale software-ului de sinteză SAPI5 produs de NeoSpeech utilizează o sinteză concatenativă bazată pe aproximativ 500 MB de date înregistrate în combinație cu alte tehnici nedocumentate [2] . Software-ul este capabil, în majoritatea cazurilor, să sintetizeze în mod fiabil chiar și fraze neobișnuite, atâta timp cât sunt adăugate în dicționar într-un mod adecvat [3] și nu are efectele rigidității și combinației mecanice a sunetelor tipice sistemelor de sinteză concatenative simple.

Elementul „MeiLing” al software-ului RealSpeak produs de Nuance (anterior ScanSoft) [4] are proprietăți similare, dar are o dimensiune de descărcare mult mai mică (42,7 MB). Cu toate acestea, din cauza unor erori în program, este foarte dificil să obțineți un rezumat fiabil din textul pinyin sau zhuyin [5] .

Dintre aceste două soluții, cea mai fiabilă pentru sinteza unor propoziții deosebit de complexe sau neobișnuite pare a fi vocea Lily, deși nu este în totalitate perfectă. De fapt, unele propoziții sunt sintetizate corect dacă pornești de la caractere chinezești, dar nu dacă pornești de la pinyin. De exemplu, 用 出来 este redat corect ca yong4-chu5-lai5 dacă începe de la caractere, dar se pronunță yong4-chu1-lai5 (termen mai frecvent utilizat) dacă începe de la pinyin. În mod similar, se întâmplă pentru 转 来 转 去 ( zhuan3-lai2-zhuan3-qu4 ) care, dacă pornim de la pinyin, face primul 转 ca zhuai în loc de zhuan , în timp ce pornind de la caractere pronunția este complet corectă. Acest comportament este similar cu cel al unor sisteme de sinteză a vorbirii pentru limba engleză, care au o calitate mai scăzută atunci când sinteza are loc mai degrabă din informații de pronunție decât dintr-un text. Acest lucru ar putea indica faptul că informațiile de pronunție acceptate ca sursă nu coincid cu formatul de pronunție intern utilizat efectiv [6] . Acest aspect nu este deloc neglijabil, dat fiind că nu este întotdeauna convenabil să se utilizeze ca sursă doar personajele a căror pronunție diferită trebuie adesea specificată.

Aceste intrări au și alte inexactități care nu sunt legate de formatul de intrare. De exemplu, atât vocea Lily, cât și vocea MeiLing fac o serie de greșeli frecvente (ceea ce ar putea indica faptul că, în ciuda diferenței macroscopice în cantitatea de date utilizate, ambele programe pot partaja tehnici complementare nedocumentate): 首都 ( shou3- du1 ) du1 este prea scăzută;邮编 ( you2-bian1 ) bian1 are un ton prea scăzut;天真 ( tian1-zhen1 ) cele două silabe se pronunță cu un efect tipic al celui de-al treilea ton în timp ce acestea ar trebui să aibă aceeași tonalitate;糖尿病 ( tang2-niao4-bing4 ) N este foarte neclar. Acest lucru se întâmplă atât cu un caracter chinezesc, cât și cu o intrare pinyin. Mai mult, primele trei erori nu apar atunci când cuvântul se află într-o propoziție mai lungă, ci numai atunci când este izolat (situație care apare de exemplu în exercițiile de învățare a limbilor străine [7] .

În unele cazuri, folosind Lily este posibil să se corecteze propozițiile generate incorect începând de la pinyin, separând termenii mai lungi în cuvinte distincte, dar această metodă nu funcționează în cazurile de eroare menționate.

Proiecte open-source

Ekho este un proiect open source de sinteză a vorbirii chinezești bazat pe concatenarea probelor silabice. În prezent, acceptă limba cantoneză , limba chineză standard și limba coreeană . Tonurile unor silabe pentru mandarina standard au fost normalizate pentru software-ul de sinteză Praat. Aplicația Gradint „sinteză din voci parțiale” folosește, de asemenea, o parte a acestui proiect.

Pe de altă parte, nu sunt planificate evoluții în contextul altor proiecte importante de sinteză a vorbirii open source, cum ar fi proiectul MBROLA . De asemenea, nu există proiecte cunoscute de sinteză a limbii chineze care să pornească de la trăsături vocale umane, echivalent cu GNU Speech.

Programe demonstrative pe web

Unele exemple demonstrative de programe chinezești de la text la vorbire, cu funcționalități limitate sau foarte limitate, sunt disponibile pe Internet.

NeoSpeech oferă o pagină pentru testarea diferitelor voci de sinteză, dar nu vă permite să utilizați pinyin pentru textul de testare [8] .

iFlyTek a furnizat o pagină demonstrativă pe site-ul global [9] , cu toate acestea programul este foarte des funcționat și nu permite introducerea variantelor de pronunție bazate pe CSSML. iFlyTek oferă și alte pagini demonstrative pe site-urile locale (filiala SUA [10] și cea chineză [11] ) care vă permit, de asemenea, să încercați CSSML pentru controlul pronunției ( Advanced Reading Mode Settings ), dar interfața cu utilizatorul nu este foarte accesibilă, deoarece nu include o tastă de intrare, dar leagă vocea femeii ( voce feminină ) sau vocea bărbatului (voce masculină) pentru a fi activată după introducerea textului de testare care urmează să fie sintetizat.

Până în 1997, Bell Labs a furnizat, de asemenea , o pagină web demonstrativă pentru sinteza standard a vorbirii în mandarină [12] . Pagina este încă accesibilă, dar rezumatul demo nu mai funcționează, deoarece linkurile și contactele listate pe site nu mai sunt active. Tehnica utilizată de Bell Labs este descrisă într-o monografie intitulată Multilingual Text-to-Speech Synthesis: The Bell Labs Approach [13] și informații suplimentare sunt disponibile de pe site-ul fostului lider de proiect Chilin Shih, angajat acum la Universitatea din Illinois [ 14] .

Sisteme de operare non-Windows

Toate produsele chinezești text-to-speech descrise sunt disponibile numai pentru platforma Windows . Cu toate acestea, programul de învățare dezvoltat de Gradint vă permite să exportați date KeyTIP și SpeechPlus către alte sisteme de operare, fie în mod nativ, fie prin emulare Windows prin WINE .

Textul în vorbire în limba chineză a fost disponibil pe computerele Apple care rulează Mac OS, până la versiunea 9 . Sistemul de operare macOS inițial nu mai suporta text-to-speech-ul chinezesc, care a fost reintrodus ca instrument de accesibilitate standard începând cu versiunea Mac OS X Leopard .

Notă

  1. ^ https://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf
  2. ^(EN) NeoSpeech SAPI5 TTS Voices for TextAloud, Kurzweil K3000, Jaws and Other Programs Voice Filed 23 iulie 2008 în Internet Archive .
  3. ^ ( RO ) NextUp.com: Forumuri de tip text to speech: Vizualizare subiect - Nu se poate face ca Neospeech Lily să citească pinyin (text fonetic)
  4. ^ Disponibil prin NextUp Arhivat 2 ianuarie 2010 la Internet Archive . dar este nevoie de o versiune înregistrată a TextAloud pentru ao putea instala
  5. ^ ( EN ) NextUp.com: Forumuri de software text în vorbire: Vizualizare subiect - Cum se personalizează pronunția în ScanSoft MeiLing?
  6. ^(EN) lexconvert: un convertor între formatele de lexicon ale diferitelor sintetizatoare de vorbire
  7. ^(EN) Exemplu de fișier care trebuie sintetizat în cuvinte izolate, destinate programelor de predare a limbilor străine
  8. ^ Pagina demo NeoSpeech
  9. ^ ( ZH ) Anhui Ustc Iflytek Co., Ltd, pagina demonstrativă Arhivat 8 iunie 2009 la Internet Archive .
  10. ^(RO) iFLYTEK SUA Depus la 6 iunie 2019 în Arhiva Internet .
  11. ^ iFlyTek China , pe ecl.iflytek.com . Adus la 6 mai 2019 (arhivat din original la 11 februarie 2012) .
  12. ^ Mandarin TTS de pe site-ul web Alcatel-Lucent Bell Labs
  13. ^ Publicat de Springer, 31 octombrie 1997, ISBN 978-0792380276
  14. ^(RO) site - ul personal al Chilin Shih Filed 22 iulie 2011 în Internet Archive .

Elemente conexe