Recunoașterea vorbitorului

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Pentru recunoașterea vorbitorului ( recunoașterea vorbitorului de limba engleză ) înseamnă procesul de validare a identității pe care îl declară un utilizator, folosind funcțiile extrase din vocea sa .

Istorie

Recunoașterea vorbitorilor are o istorie de patru decenii și folosește caracteristicile acustice ale vorbirii care s-au dovedit a caracteriza cel mai bine diferiți indivizi (adică diferă mai mult pe măsură ce individul variază). Aceste caracteristici reflectă atât cele ale anatomiei (cum ar fi dimensiunea și forma gâtului și gurii ), cât și cele comportamentale (cum ar fi tonul vocii sau cadența vorbirii). Verificarea difuzoarelor a obținut titlul de măsurare biometrică pentru recunoașterea difuzoarelor. Organismul pionier din Italia pentru această disciplină a fost CSELT din Torino, care în 1983 a aplicat primul brevet internațional din Europa și unul dintre primele la nivel internațional [1] .

Diferența față de termeni similari

Există o diferență între recunoașterea vorbitorului (recunoașterea cine vorbește) și recunoașterea vorbirii (recunoașterea a ceea ce se spune). Aceste două concepte (și frazele corespunzătoare) sunt confundate frecvent. Există, de asemenea, o diferență între actul de autentificare a unui utilizator (denumit adesea „autentificare vorbitor”, „verificare vorbitor” sau, mai des, termenii englezi verificare vorbitor și autentificare vorbitor ) și cel de identificare a utilizatorului (de obicei menționat cu termenul „identificarea vorbitorului” sau cu identificarea vorbitorului de engleză). Există, de asemenea, adesea confuzie cu procesul de diarizare a vorbitorului (recunoașterea momentului în care intervine același vorbitor).

Verificare / identificare

Există două aplicații principale ale tehnologiilor și tehnicilor de recunoaștere a difuzoarelor:

  • Dacă un vorbitor susține că are o anumită identitate și vocea este utilizată pentru a valida această afirmație, procesul se numește verificare sau autentificare .
  • În schimb, identificarea este procesul de determinare a identității unui vorbitor necunoscut.

Cu alte cuvinte, verificarea vorbitorului este o comparație 1: 1, în care vocea unui vorbitor este comparată cu o singură imprimare vocală (sau „modelul vorbitorului”), în timp ce identificarea este o comparație 1: N în care vocea este comparată cu N distinct modele.

Din perspectiva securității, identificarea este diferită de verificare. De exemplu, prezentarea pașaportului la îmbarcarea într-un aeroport este un proces de verificare - personalul compară fața individului cu fotografia din document. În schimb, polițistul care compară identitatea unui criminal cu o bază de date arhivată anterior de criminali este un proces de identificare.

Verificarea difuzoarelor poate fi utilizată pentru accesul la sisteme securizate, în plus față de alte tehnici de acces. Aceste sisteme funcționează în general cu conștientizarea utilizatorului și necesită cooperarea lor. Sistemele de identificare a difuzoarelor sunt de obicei implementate fără a prevedea cooperarea vorbitorului.

În aplicațiile criminalistice este obișnuit să se efectueze mai întâi procesul de identificare, să se creeze o listă cu cei mai buni candidați și apoi o serie de procese de verificare pentru a determina rezultatul final.

Etape

Fiecare sistem de recunoaștere a difuzoarelor are două faze: o fază de înscriere și o fază de verificare.

În timpul fazei de colectare a datelor, vocea vorbitorului este înregistrată și o serie de caracteristici sunt extrase din aceasta pentru a forma o amprentă vocală sau un model. În faza de verificare, un eșantion de voce ( enunț ) este comparat cu imprimarea vocală creată anterior. Pentru sistemele de identificare, eșantioanele sunt comparate cu diferite tipăriri vocale pentru a găsi cele mai similare rezultate, în timp ce în sistemele de verificare, eșantioanele sunt comparate cu o singură amprentă vocală. Din acest motiv, verificarea este de obicei mai rapidă decât identificarea.

Variante de recunoaștere a vorbitorilor

Sistemele de recunoaștere a difuzoarelor sunt împărțite în două categorii: mesaj -dependent (sau dependent de text ) și mesaj -independent ( independent de text ), în funcție de faptul dacă mesajul pronunțat în timpul fazei de colectare a datelor trebuie să coincidă sau nu cu cel pronunțat. faza de verificare.

În sistemele dependente de mesaj mesajul poate fi comun tuturor difuzoarelor (de exemplu o parolă comună) sau unic. În plus, informațiile secrete partajate (sau secretele partajate , cum ar fi parolele sau codurile PIN) sau informațiile bazate pe cunoștințe pot fi utilizate pentru a crea scenarii de autentificare cu mai mulți factori .

În sistemele de identificare, sistemele independente de mesaje sunt mai des utilizate, deoarece nu necesită colaborarea vorbitorului. În acest caz, mesajul pronunțat în faza de identificare este diferit de cel utilizat în faza de colectare și ambele faze pot apărea fără conștientizarea vorbitorului, ca în cazul unor aplicații criminalistice.

Deoarece tehnologiile independente de mesaje nu pot compara direct ceea ce se spune în cele două faze ale colectării și verificării, aplicațiile de verificare care le folosesc adesea folosesc și sisteme de recunoaștere a vorbirii pentru a determina ceea ce se spune în timpul autentificării.

Tehnologii

Diferitele tehnologii utilizate pentru procesarea și stocarea tipăririlor vocale includ estimarea frecvenței, modelele ascunse Markov (HMM), modelele de amestec Gaussian (GMM), algoritmii de potrivire a modelelor , rețelele neuronale, matricile de reprezentare, cuantizarea vectorilor și arborii de decizie. Unele sisteme folosesc, de asemenea, tehnici „anti- vorbire ”, cum ar fi modelele de cohortă sau modelele de mediu.

Nivelul de zgomot ambiental poate fi astfel încât să împiedice înregistrarea probelor atât în ​​faza de colectare, cât și în faza de verificare. Algoritmii de reducere a zgomotului pot fi folosiți pentru a îmbunătăți precizia, dar aplicarea incorectă a acestor algoritmi poate avea efectul opus. Calitatea rezultatelor este influențată de condițiile de înregistrare și, în general, se degradează atunci când condițiile din faza de verificare nu coincid cu cele din faza de colectare. În acest context, condițiile includ condiții de mediu (zgomot, muzică de fundal etc.), comportamentul utilizatorului (cadență diferită, dispoziție etc.), dar și condițiile canalului de transmisie (schimbarea microfonului utilizat etc.). Schimbările normale de voce datorate vârstei pot afecta și buna funcționare a sistemului, astfel încât unele sisteme actualizează modelele de difuzoare după fiecare test de succes. Efectele asupra siguranței impuse de adaptarea automată sunt încă o chestiune de dezbatere.

Sondajele biometrice sunt considerate neinvazive: în general se utilizează microfoane existente și tehnologii de transmisie a vocii (cum ar fi sistemele normale de telefonie fixă ​​sau mobilă).

Identificarea difuzorului pentru aplicația criminalistică utilizează, în general, nu numai măsuri electronice, ci și abilități specifice de ascultare ale experților, necesare pentru ca identificarea să fie considerată corectă. [2]

Notă

  1. ^ Cavazza, Michele și Alberto Ciaramella. „Dispozitiv pentru verificarea vorbitorului”. Brevetul SUA nr. 4.752.958. 21 iun. 1988.
  2. ^ Audio & Video Forensics - Video Production Primeau [ link broken ]

Bibliografie

  • Elisabeth Zetterholm, Imitație vocală. Un studiu fonetic al iluziilor perceptive și al succesului acustic. Teză de doctorat, Universitatea Lund. (2003)
  • Federico A., Paoloni A., „Recunoașterea vorbitorului”, în Media Two Thousand 250 (2007), pp. 47–55.

Elemente conexe

linkuri externe

Controlul autorității LCCN ( EN ) sh85144234