Legea lui Zipf

Legea lui Zipf este o lege empirică care descrie frecvența unui eveniment $P_{i}$ ${\ displaystyle P_ {i}}$ $P_ {i}$ parte a unui întreg, în funcție de poziție $the$ ${\ displaystyle i}$ $the$ (numit rang ) în ordine descrescătoare în ceea ce privește frecvența evenimentului în sine.

f(P_{i})={\frac {c}{i}}

{\ displaystyle f (P_ {i}) = {\ frac {c} {i}}}

f (P_i) = \ frac {c} {i}

unde este:

$the$ ${\ displaystyle i}$ $the$ indică rangul
$P_{i}$ ${\ displaystyle P_ {i}}$ $P_ {i}$ indică evenimentul care ocupă rangul i (adică cel de-al doilea eveniment)
$f(P_{i})$ ${\ displaystyle f (P_ {i})}$ $f (P_i)$ este numărul de ori (frecvență) în care apare evenimentul $P_{i}$ ${\ displaystyle P_ {i}}$ $P_ {i}$
$c$ ${\ displaystyle c}$ $c$ este o constantă de normalizare, egală cu valoarea $f(P_{1})$ ${\ displaystyle f (P_ {1})}$ $f (P_1)$ .

Lingvistul George Kingsley Zipf a descris-o în 1949 în Comportamentul uman și principiul minimului efort .

Domenii de aplicabilitate

Domeniile de aplicabilitate ale legii lui Zipf sunt variate și au existat, de asemenea, tendințe de gândire care au propus-o chiar ca omologul distribuției gaussiene în științele sociale . În realitate, la fel cum distribuțiile în științele naturii nu urmează întotdeauna o tendință gaussiană, cu atât mai puțin distribuțiile științelor sociale sau ale evenimentelor legate de activitatea umană pot fi încadrate cu precizie în tendințele hiperbolice ale legii lui Zipf. Cu toate acestea, există cazuri în care rezultatele preconizate de legea Zipf sunt puternic verificate de datele observate; printre cei mai renumiți sunt, fără îndoială, cei care iau în considerare frecvențele cuvintelor din scrieri sau cei care analizează distribuția populației în diferitele orașe ale unui stat . Aceste ultime exemple au fost analizate și documentate temeinic de Zipf însuși în cele mai faimoase scrieri ale sale. În domeniul economic, legea Zipf este potrivită pentru a reprezenta situația productivității diferitelor companii care operează în același sector. Dacă reprezentăm productivitatea unei companii în funcție de poziția sa de clasament, obținem tendința hiperbolică a legii Zipf. Mai mult, acest fapt fusese deja observat la sfârșitul secolului al XIX-lea de economistul Vilfredo Pareto .

Mai general, legea Zipf poate fi reformulată ca:

f(P_{i})={\frac {c}{i^{(1-\theta )}}}

{\ displaystyle f (P_ {i}) = {\ frac {c} {i ^ {(1- \ theta)}}}}

f (P_i) = \ frac {c} {i ^ {(1- \ theta)}}

cu $\theta$ ${\ displaystyle \ theta}$ $\ theta$ constanta pozitiva aproape de 0 (pt $\theta =1$ ${\ displaystyle \ theta = 1}$ $\ theta = 1$ ar intra în distribuția aleatorie, adică echipabilitatea)

Aspecte teoretice

Legea Zipf și funcția zeta

Folosind termenul legea Zipf mai generală

\sum _{i=1}^{\infty }{\frac {1}{i^{a}}}

{\ displaystyle \ sum _ {i = 1} ^ {\ infty} {\ frac {1} {i ^ {a}}}}

\ sum_ {i = 1} ^ \ infty \ frac {1} {i ^ a}

este funcția zeta Riemann $\zeta (a)$ ${\ displaystyle \ zeta (a)}$ $\ zeta (a)$

Zipf, Mandelbrot și Shannon

Benoît Mandelbrot a demonstrat în anii 1950 că legi similare pot fi deduse din teoria informației a lui Claude Shannon .

Legea dinamică indică modul de maximizare a utilității unui canal prin maximizarea entropiei , de preferință folosind simbolurile cele mai puțin costisitoare. De exemplu, în codul morse , litera frecventă e este codificată cu un singur punct (.), În timp ce litera mai puțin frecventă x este reprezentată de o linie, un punct și o linie (-..-).
Codul lui Huffman aplică această lege dinamică.

Mandelbrot face ipoteza că costul utilizării este direct proporțional cu costul stocării, după ce l-a constatat pe toate dispozitivele pe care le-a observat, de la contabilitate la computere.

Eliminând costul dintre cele două ecuații, găsim o familie de ecuații care leagă frecvența unui cuvânt de rangul său, astfel încât canalul să fie utilizat într-un mod optim. Această generalizare suplimentară, numită și legea lui Mandelbrot, este dată de

n (p _i ) ( b + c i) ^a = cost pentru care legea simplă a lui Zipf este aceea în care a = 1, b = 0 și c = 1.

S-a observat că în majoritatea limbilor existente parametrul exponentului a este apropiat de 1.1 și 1.2, în timp ce în limba copiilor este aproape de 1.6.

Reprezentând legile lui Zipf și Mandelbrot într-un sistem cartezian cu coordonate log-log, apoi legea Zipf corespunde unei linii drepte , în timp ce legea lui Mandelbrot arată o cocoașă.

Legea lui Zipf și variabilele aleatorii

O interpretare a legii Zipf ca variabilă aleatorie este dată de variabila aleatorie Zeta , din acest motiv numită și variabila aleatoare a Zipf . Echivalentul continuu este variabila aleatorie Pareto .

Cazuri similare sunt considerate legea lui Bradford , variabila aleatorie a lui Yule și legea lui Benford .

Asemănări

Relația existentă între legile lui Zipf și legile lui Mandelbrot este similară cu cea existentă între legea lui Mariotte și legea lui van der Waals , considerând că în ambele cazuri un factor de corecție (parametrul a în cazul legii lui Mandelbrot) permite aproximarea datelor observate cu valorile teoretice , reprezentând ceva „incompresibil”.

Tipuri de colectări de date întreprinse în sprijinul legii

frecvența accesului la paginile de internet;
frecvența cuvintelor din anumite texte;
note în partituri muzicale;
dimensiunea zonelor construite, a orașelor;
repartizarea veniturilor;
distribuție de afaceri;
puterea cutremurelor;
transcrieri cu celule unice ^[1] .

Notă

^ (EN) Silvia Lazzardi, Filippo Valle și Andrea Mazzolini, Emerging Statistical Laws in single-cell transcriptomic date in bioRxiv, 17 iunie 2021, pp. 2021.06.16.448706, DOI : 10.1101 / 2021.06.16.448706 . Adus la 18 iunie 2021 .

Elemente conexe

Alte proiecte

Wikimedia Commons conține imagini sau alte fișiere în legea Zipf

linkuri externe

Legea lui Zipf , la nslij-genetics.org . Adus la 23 decembrie 2009 (arhivat din original la 3 iunie 2006) .
Legea Zipf și Internetul ( PDF ), pe hpl.hp.com .

Controlul autorității	GND ( DE ) 4190937-9

Portalul lingvistic

Portalul de matematică

[1] (EN) Silvia Lazzardi, Filippo Valle și Andrea Mazzolini, Emerging Statistical Laws in single-cell transcriptomic date in bioRxiv, 17 iunie 2021, pp. 2021.06.16.448706, DOI : 10.1101 / 2021.06.16.448706 . Adus la 18 iunie 2021 .

[1]