PSOLA

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

PSOLA (acronim pentru Pitch-Synchronous Overlap and Add , suprapunere și adăugare la tonuri sincrone) este un algoritm utilizat în sinteza vorbirii .

PSOLA, la fel ca MBROLA , se bazează pe diphone-uri , care sunt unitățile elementare de vorbire care variază de la centrul unei regiuni sonore staționare până la centrul regiunii următoare, adică reprezintă tranziția de la un sunet la altul. Potrivit unor cercetători, clasificarea tranzițiilor între sunete ar fi elementul cheie pentru recunoașterea și înțelegerea segmentelor vorbirii vorbite.

PSOLA este o tehnică de domeniu temporal , adică procesează semnalul acționând asupra formei sale de undă native și nu asupra descompunerii frecvenței sale. Algoritmul de bază constă din trei pași de bază.

În primul rând, semnalul vocal este împărțit în semnale mai mici, de durată mai scurtă și suprapuse reciproc. Această subdiviziune se realizează prin marcarea vârfurilor de înălțime ale semnalului original și prin utilizarea acestor markeri pentru a segmenta semnalul. De fapt, mecanismul cheie al PSOLA este determinarea corectă a markerilor de ton: din punct de vedere al algoritmului ideal, acești markeri ar trebui să fie distanțați uniform într-un mod periodic, la intervale egale cu perioada fundamentală a semnalului și în același timp timpul coincide cu vârfurile semnalului în sine. În practică, aceste două condiții nu coincid adesea, mai ales datorită faptului că în vorbire perioada fundamentală a semnalului nu rămâne întotdeauna constantă. Dacă ne-am baza doar pe vârfuri, atunci markerii nu ar mai fi distribuiți periodic. Pe de altă parte, dacă semnalul ar fi marcat numai pe baza unei periodicități stricte, corespondența necesară între markeri și vârfuri ar putea fi pierdută, făcând astfel marcajul în sine inutil. În practică, pentru a aproxima mai bine condițiile ideale cerute de algoritm, semnalul este fragmentat în segmente care conțin de la două la patru vârfuri (perioade tonale): studiile matematice [1] au determinat, de fapt, că acesta este cel mai bun compromis.

În pasul următor, semnalele mai mici sunt modificate fie prin repetarea, fie prin eliminarea unor segmente de vorbire, în funcție de faptul dacă tonul final ar trebui să fie mai mare sau mai mic decât tonul sursă. Această operație modifică durata semnalului, modificându-și astfel și frecvența fundamentală .

În ultimul pas, segmentele rămase sunt recombinate prin suprapunere și adăugare, astfel încât markerii să fie distanțați uniform (sincronizați) conform cerințelor algoritmului. Rezultatul final este un semnal care are același spectru acustic ca cel original, dar o frecvență fundamentală diferită: aceasta are ca rezultat o schimbare a tonului vocii, lăsând în același timp ceilalți parametri vocali neschimbați.

Notă

  1. ^ Vladimir Goncharoff și Patrick Gries, Universitatea din Chicago, Illinois

linkuri externe