Compresie audio digitală

În tehnologia informației , electronică și telecomunicații , compresia audio este o tehnică de procesare a datelor , implementată prin intermediul unui codec audio , care permite reducerea dimensiunii (chiar și cu mult) a unui fișier audio sau a lățimii de bandă necesare unei transmisii audio pe un canal de comunicare .

Descriere

Un fișier este o secvență de cifre binare (biți) utilizată ca vehicul pentru informații . A comprima înseamnă a reduce numărul de cifre care alcătuiesc secvența, păstrând în același timp informațiile nealterate sau în vecinătatea informațiilor originale (adică făcând ca informațiile noi să fie aproximative celei anterioare).

Motive

Motivele comprimării sunt:

ocupă mai puțin spațiu în timpul stocării, adică în memorie .
petreceți mai puțin timp în transmiterea datelor.

Costul de plată este creșterea timpilor de citire / scriere legată respectiv de timpii de decompresie / compresie. În cazul fișierelor audio, există și un cost în ceea ce privește calitatea audio.

Tipuri

Există două tipuri de compresie:

cu pierdere ( lossy ): atunci când informațiile conținute în fișierul comprimat sunt mai mici decât cele conținute în fișierul sursă
fără pierderi : atunci când informațiile conținute în fișierul comprimat sunt identice cu cele conținute în fișierul sursă

Primul permite o compresie mai mare, dar în detrimentul calității sunetului.

Folosind un algoritm de compresie fără pierderi , toate informațiile originale pot fi recuperate din rezultatul compresiei. În acest caz, reducerea maximă obținută în general, utilizând algoritmi proiectați special pentru audio, este de aproximativ 60%, dar numai cu unele tipuri de sunet. Puteți utiliza aceiași algoritmi de compresie generală (cum ar fi ZIP sau Gzip ), dar rezultatele în ceea ce privește reducerea sunt mai mici.

Exemplu: FLAC , APE , ALE

Compresie cu pierdere

Premisă

Din rezultatul compresiei audio cu pierderi nu mai este posibil să obțineți un sunet identic cu originalul, dar reducerea care poate fi obținută este foarte puternică: cu rapoarte de compresie de 10 la 1, rezultatul este aproape indistinct de original, dar puteți mergi și mai departe.în detrimentul calității.

Studiile psihoacustice au făcut posibilă constatarea faptului că oamenii nu sunt la fel de sensibili la toate frecvențele și că un sunet de înaltă intensitate maschează unul cu o frecvență apropiată, dar cu o intensitate mai mică. Prin exploatarea acestor considerații și a altor considerații, ne putem gândi la eliminarea informațiilor care oricum nu ar fi percepute și astfel se obține un raport de compresie bun.

Abordarea Timp / Frecvență

Principalii algoritmi de compresie cu pierderi ai semnalelor audio se bazează pe tehnici de timp / frecvență , prin care semnalul audio este descompus preliminar în ferestre de timp și procesat de o bancă de filtre digitale , pentru a-l reprezenta în mai multe sub-benzi în spectrul audio. Ulterior, fiecare sub-bandă este cuantificată luând în considerare atât puterea transmisă în ea (puterea mai mare corespunde, ca regulă generală, unei cuantificări mai mari), cât și sensibilitatea auzului uman, precum și efectele psihoacustice . Una dintre principalele limitări ale abordării timp / frecvență constă în posibilitatea ca proprietățile intrinseci ale semnalului audio de comprimat să nu fie staționare în fereastra de timp a analizei. În acest caz, zgomotul de cuantificare introdus în fiecare sub-bandă, răspândit pe întreaga fereastră de timp a analizei, poate induce efecte grave de distorsiune care deteriorează calitatea semnalului. Pentru a depăși această problemă, în multe dintre standardele utilizate în mod obișnuit, au fost adoptate tehnici pentru adaptarea dinamică a ferestrei de timp a analizei (în prezența semnalelor nestacionare, dimensiunea ferestrei de analiză este redusă) și pentru predicție în domeniul frecvenței .

Câteva exemple de codecuri cu pierderi

MP3 (MPEG-1 Layer III) a fost introdus în anii 1980 și este cel mai popular. Fiind cea mai veche, este și cea mai puțin eficientă și adesea cea mai proastă din punct de vedere al calității.
Windows Media Audio (WMA) este foarte popular pe sistemele Windows .
Ogg Vorbis este un codec mai eficient decât MP3 și este open source (adică distribuibil și editabil în mod liber).
AAC a fost popularizat de Apple. ITunes Music Store Apple folosește fișiere comprimate cu 128 Kbit / s CBR AAC și standardul video MPEG4 (precum și MPEG2) recomandă utilizarea audio AAC.
Dolby Digital (AC3) poate comprima până la 6 canale audio, inclusiv 5 la lățime de bandă completă și unul pentru efecte de frecvență joasă (LFE), până la 384 kbit / s. Este utilizat în DVD-uri , blurays și în sistemul american ATSC DTV.
MPC sau Musepack este un format open source cu o calitate mai înaltă decât mp3 la același bitrate.
Ogg Opus este un codec audio deschis și fără redevențe, a fost dezvoltat în 2012 cu rezultatul colaborării multor organizații, precum IETF , Mozilla , Microsoft (pentru Skype ), Xiph.Org , Octasic , Broadcom și Google . Are o întârziere algoritmică foarte scăzută în comparație cu formatele populare de muzică precum MP3 , Vorbis și HE-AAC și poate concura cu acestea în ceea ce privește raportul calitate și rata de biți.

Rată de biți

Fișierele multimedia sunt inerent conectate la trecerea timpului. Cu alte cuvinte, un anumit conținut informațional este asociat cu fiecare secundă și, prin urmare, o anumită subsecvență de cifre binare. Numărul de cifre binare care alcătuiesc aceste subsecvențe se numește bitrate. Cu alte cuvinte, rata de biți este numărul de cifre binare utilizate pentru a stoca o secundă de informații. Acest lucru poate fi constant de-a lungul vieții fișierului sau poate varia în interiorul acestuia. De exemplu, CD-urile muzicale sunt eșantionate (înregistrate) la o frecvență de 44.100 Hz . Din aceasta se poate deduce că în fiecare secundă există 44.100 de valori înregistrate de microfonul ipotetic care trebuie apoi înmulțit cu cele 2 canale ale sunetului stereo care la rândul lor trebuie înmulțite cu 2, deoarece înregistrarea are loc la 16 biți ( exact egal cu 2 octeți). Deci vom avea:

 44.100 x 2 x 2 x 60 (secunde) = ~ 10 MB în fiecare minut

Comprimarea, prin scăderea lungimii totale a fișierului, va reduce în consecință lungimea medie a subsecvențelor, adică va scădea rata de biți medie. Rata de biți medie devine, prin urmare, în aceste cazuri, indicele gradului de compresie. De exemplu, dacă fișierul sursă avea un bitrate de 1411 Kbit / s, dacă fișierul comprimat avea un bitrate mediu de 320 Kbit / s, atunci l-am fi redus cu un factor de aproximativ 4,5.

O compresie cu pierderi face un compromis între pierderea informației și dimensiunea fișierului final, în timp ce un fără pierderi trebuie să echilibreze dimensiunea fișierului final cu timpul de execuție al algoritmului.

Există, de asemenea, codecuri capabile să utilizeze o abordare hibridă, să utilizeze compresia cu pierderi și să genereze un bloc de corecție, pentru a reconstitui unda sonoră fără modificări calitative; în prezent codecurile capabile să adopte această strategie sunt WavPack, OptimFrog DualStream și MPEG-4 SLS.

Bibliografie

( EN ) Khalid Sayood, Introducere în compresia datelor , ediția a IV-a, Morgan Kaufmann, 2012, ISBN 978-0124157965 .
Pietro Valocchi și Daniele Sereno, Codare numerică a semnalului audio , SSGRR, 1996, ISBN 978-8885280557 .

Elemente conexe

Codec audio

Alte proiecte

Wikimedia Commons conține imagini sau alte fișiere cu compresie audio digitală

Portal muzical : accesați intrările Wikipedia care se ocupă de muzică