Prima teoremă a lui Shannon

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În teoria informației , prima teoremă a lui Shannon (sau teorema codării sursei ) stabilește limite la compresia maximă posibilă a unui set de date și definește semnificația operațională a entropiei .

Teorema stabilește că, pentru o serie de variabile aleatorii independente și distribuite identic (iid) de lungime care tinde spre infinit, nu este posibilă comprimarea datelor într-un mesaj mai scurt decât entropia totală fără pierderea informațiilor . Dimpotrivă, sunt posibile compresii în mod arbitrar apropiate de valoarea entropiei, cu probabilitatea pierderii informațiilor la fel de mică pe cât se dorește.

Teorema de codificare sursă pentru simbolurile de cod stabilește o limită inferioară și superioară la lungimea minimă așteptată a unei serii de cuvinte de cod, în funcție de entropia cuvântului de intrare (văzut ca o variabilă aleatorie ) și de dimensiunea alfabetului luat în considerare .

Codificare sursă

Codificarea sursă este o mapare de la o secvență de simboluri generate de o sursă la o secvență de simboluri ale unui alfabet (de obicei binar), astfel încât simbolurile sursă pot fi preluate exact din biți (codificare fără pierderi) sau recuperate cu o anumită distorsiune (pierderi) codificare). Acesta este conceptul din spatele compresiei datelor .

Cu alte cuvinte, se poate spune că este modalitatea cu care fiecare eveniment asociat unei surse discrete este codificat prin intermediul unei secvențe de simboluri.

Calitatea informațiilor

Codificarea sursă introduce conceptele de bază ale „calității informației”:

  • cantitatea de informații este dat de , unde este este probabilitatea informației. Prin urmare, se poate spune că între informația în sine și probabilitatea acesteia există o relație invers proporțională (o probabilitate mare duce la o cantitate redusă de informații și invers).

Dorind, acum, să stabilim o unitate de măsură, este adecvat să ne referim la cazul în care sunt necesare informațiile minime pentru a lua o decizie. Ignorând cazul extrem (când evenimentul este sigur) în care există un singur rezultat, cazul cu cea mai mică nevoie de informații este unul în care există două rezultate la fel de probabile la fel (de exemplu: aruncarea unei monede).

Bitul este definit ca cantitatea de informații necesară și suficientă pentru a discrimina și a decide între două evenimente la fel de probabile: , unde este este indicele de proporționalitate.

  • Informația mediată sau entropia este ponderată de contribuția informațiilor prin probabilitatea sa: [bit / simbol].
  • Viteza de modulație sau viteza de transmisie este viteza la care simbolurile sunt emise de sursă: , unde este este durata simbolului.
  • Viteza medie de transmisie a informațiilor despre sistem sau rata de biți se calculează cu: .

Alți parametri importanți pot fi rezumați după cum urmează:

  • Lungimea medie a simbolului (ni = lungimea codului)
  • Randamentul codului (η ia valori de la 0 la 1)
  • Redundanţă .

Teorema codării sursei

În teoria informației, teorema codării sursei ( Claude Shannon , 1948 ) afirmă că:

" iid variabile aleatorii, fiecare cu entropie poate fi comprimat în mai mult de biți cu o probabilitate de pierdere a informațiilor pe cât doriți, pentru a avea tendința la nesfârșit; dimpotrivă, dacă sunt comprimate în mai puțin de bit este practic sigur că unele informații vor fi pierdute. "

Teorema de codare sursă pentru simboluri de cod

Este o variabilă aleatorie cu valori într-un alfabet finit și fie un cod descifrabil (adică o funcție unică) din la , unde este . Fie S lungimea rezultată a cuvântului cod .

De sine este optim în sensul că are cea mai mică lungime așteptată pentru cuvântul cod , asa de

(Shannon 1948)

Dovadă: teorema codării sursei

Lasa-i sa fie o sursă de variabile iid e o serie de rezultate cu entropie în cazul discret și entropie diferențială egală în cazul continuu. Teorema de codificare sursă afirmă că pentru fiecare , este un suficient de mare și un codificator care necesită scoate iidul sursei și le mapează bit, astfel încât simbolurile sursă sunt recuperabile cu probabilitate de cel puțin .

Dovada accesibilității

Cineva este fix . Ansamblul tipic, , este definit ca

Proprietatea echipațiunii asimptotice (AEP) arată că pentru a suficient de mare, probabilitatea ca o secvență generată de sursă să cadă în setul tipic, , tinde la unul. În special pentru un suficient de mare, .

Definiția unui set tipic implică faptul că secvențele care se încadrează în setul tipic satisfac condiția

Rețineți că:

  • Probabilitatea ca o secvență de intră este mai mare decât
  • , având în vedere că probabilitatea setului este cel mult unul.
  • . Pentru dovadă este suficient să se utilizeze limita superioară a probabilității fiecărui termen din setul tipic și limita inferioară a probabilității setului set .

De cand biții sunt suficienți pentru a reprezenta fiecare șir ca întreg.

Algoritmul de codificare: codificatorul verifică dacă secvența de intrare se încadrează în ansamblul tipic; dacă da, scoate indexul secvenței de intrare în setul tipic; dacă nu, codificatorul produce un număr binar arbitrar . Dacă secvența se încadrează în setul tipic, acest lucru se întâmplă cu probabilitatea de cel puțin , codificatorul nu face greșeli. Prin urmare, probabilitatea erorii codificatorului este mai mică de .

Dovada reversului

Reversul se arată arătând că orice set de dimensiuni mai mic decât , ar avea probabilitate la limită cu siguranță mai mică de 1.

Dovadă: teorema codării sursei pentru simbolurile de cod

Este lungimea fiecărui cuvânt cod posibil ( ). Definit , unde este este astfel încât .

Atunci

unde a doua linie derivă din inegalitatea Gibbs și a patra din inegalitatea Kraft-McMillan : Așadar .

pentru a doua inegalitate pe care o putem impune

astfel încât

prin urmare

Și

și din inegalitatea Kraft, există un cod unic cu cuvinte cod care au acea lungime. Deci minimul satisface

Extindere la surse independente non-staționare

Codificare sursă fără pierderi cu rată fixă ​​pentru surse independente discrete și non-staționare

Să definim setul tipic ca

Apoi pentru un dat , Pentru o suficient de mare, Acum ne limităm la codificarea secvențelor din setul tipic, iar metoda obișnuită de codificare arată că cardinalitatea acestui set este mai mică de . Deci, în medie, bitn sunt suficiente pentru a codifica secvența cu o probabilitate de decodificare corectă mai mare de , unde este pot fi făcute cât de mici doriți prin creștere .

Bibliografie

  • Thomas Cover, Elements of Information Theory , ediția a II-a, Wiley and Sons, 2006.

Elemente conexe