Legea lui Benford

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Prima cifră
n P (x = n)
1 30,1%
2 17,6%
3 12,5%
4 9,7%
5 7,9%
6 6,7%
7 5,8%
8 5,1%
9 4,6%
Primele două cifre
n P (x = n)
10 4,1%
11 3,8%
12 3,5%
13 3,2%
14 3,0%
... ...
etc. etc.
... ...
99 0,4%
Diagrama în piețe a distribuției primei cifre

Distribuția Benford , mai bine cunoscută sub numele de legea lui Benford , sau legea primelor cifre , descrie distribuția probabilității cu care apare prima cifră a numerelor în multe exemple de colecții reale de date (de exemplu, populația municipalităților, citate de acțiuni, constante fizice sau matematice, număr a drumurilor existente în localități). În cazul cifrei „1”, de exemplu, această variabilă discretă aleatorie ar trebui să fie prima cifră în 30,1% din cazuri. Funcția de probabilitate este dată de

Una dintre extensiile legii lui Benford ia în considerare perechea primelor două cifre (deci de la 10 la 99), lăsând formula neschimbată, dar modificând doar intervalul de valabilitate, de la [1,9] la [10,99] .

Intuiţie

O scurtă explicație intuitivă a motivului pentru care o astfel de diferență în distribuție apare în „natură” (cu numărul „1” care apare mai frecvent, apoi, după aceea, numărul 2 și așa mai departe) ia în considerare faptul că, în numărarea acestuia, începe de la numărul 1 până la 9. Dacă restrângem câmpul doar la numerele de la 1 la 9 este clar că probabilitatea ca o cifră să înceapă cu 1 sau 2 sau 3 sau 9 trebuie să fie întotdeauna aceeași. Cu toate acestea, acolo unde numerele de la 1 la 20 sunt deja luate în considerare, vor exista mult mai multe numere începând cu cifra 1 (10 la 19). Dacă luați cele de la 1 la 30, veți avea multe începând cu 1, dar și cu 2. După cum puteți vedea cu ușurință, pentru a avea, de exemplu, numere care încep cu 9, trebuie să mergeți foarte departe cu numerele. Același argument se poate face cu seturi de numere de mai multe cifre, pentru care într-o distribuție a numerelor legate de suprafețe, populații, probabilitatea de a avea numere începând cu 1, mai degrabă decât cu 9. Va fi mai mare. Singurul lucru este însă că Benford a reușit să arate că, pentru multe distribuții, probabilitatea ca un număr să înceapă cu o anumită cifră între 1 și 9 este întotdeauna aceeași (30,1% pentru cifra 1, 17,6% pentru cifra 2, 4,6% pentru cifra 9 ).

Istorie

Descoperiri, redescoperiri și perspective

Legea lui Benford pare să fi fost descoperită de matematicianul și astronomul Simon Newcomb și descrisă în „American Journal of Mathematics” în 1881 . Potrivit a ceea ce este doar o anecdotă, Newcomb a remarcat cum, în cărțile cu tabele de logaritmi, paginile cu tabele având „1” ca primă cifră erau mult mai murdare decât celelalte, poate pentru că erau folosite mai des. S-a argumentat contrar că în orice carte accesată secvențial, prima ar fi mai folosită decât cea din urmă.

Mai târziu, în 1938 , fizicianul Frank Benford a fost cel care a analizat colecții de numere din multe alte domenii de aplicare și acest lucru a făcut ca legea să fie atribuită numelui său.

În 1996 , Ted Hill a dovedit teorema distribuției mixte.

Datele prezentate de Benford în 1938

Titlu 1 2 3 4 5 6 7 8 9 Valori
Râuri, suprafețe 31.0 16.4 10.7 11.3 7.2 8.6 5.5 4.2 5.1 3.5
Populația 33.9 20.4 14.2 8.1 7.2 6.2 4.1 3.7 2.2 32.9
Constante 41.3 14.4 4.8 8.6 10.6 5.8 1.0 2.9 10.6 1.4
Presă 30.0 18.0 12.0 10.0 8.0 6.0 6.0 5.0 5.0 1.0
Căldura specifică 24.0 18.4 16.2 14.6 10.6 4.1 3.2 4.8 4.1 13.9
Presiuni 29.6 18.3 12.8 9.8 8.3 6.4 5.7 4.4 4.7 7.3
HP Lost 30.0 18.4 11.9 10.8 8.1 7.0 5.1 5.1 3.6 6.0
Greutate moleculară 26.7 25.2 15.4 10.8 6.7 5.1 4.1 2.8 3.2 18.0
Drenaj 27.1 23.9 13.8 12.6 8.2 5.0 5.0 2.5 1.9 1.9
Greutate atomica 47.2 18.7 5.5 4.4 6.6 4.4 3.3 4.4 5.5 91
1 / n, √n 25.7 20.3 9.7 6.8 6.6 6.8 7.2 8.0 8.9 50,0
Proiecta 26,8 14.8 14.3 7.5 8.3 8.4 7.0 7.3 5.6 5.0
Reader's Digest 33.4 18.5 12.4 7.5 7.1 6.5 5.5 4.9 4.2 3.8
Coaste 32.4 18.8 10.1 10.1 9.8 5.5 4.7 5.5 3.1 7.1
Volți cu raze X. 27.9 17.5 14.4 9.0 8.1 7.4 5.1 5.8 4.8 7.7
Liga americană 32.7 17.6 12.6 9.8 7.4 6.4 4.9 5.6 3.0 14.8
Blackbody 31.0 17.3 14.1 8.7 6.6 7.0 5.2 4.7 5.4 11.5
Adrese 28.9 19.2 12.6 8.8 8.5 6.4 5.6 5.0 5.0 3.2
n, n², n³,…, n! 25.3 16.0 12.0 10.0 8.5 8.8 6.8 7.1 5.5 9.0
Rata mortalitatii 27.0 18.6 15.7 9.4 6.7 6.5 7.2 4.8 4.1 4.8
In medie 30.6 18.5 12.4 9.4 8.0 6.4 5.1 4.9 4.7 10.1
Eroare probabilă ± 0,8 ± 0,4 ± 0,4 ± 0,3 ± 0,2 ± 0,2 ± 0,2 ± 0,3

Bibliografie istorică

  • 1881 - Simon Newcomb , „Notă privind frecvența de utilizare a diferitelor cifre în numerele naturale” în Jurnalul American de Matematică
  • 1938 - Frank Benford , „Legea numerelor anormale” în Proc. Amer. Phil. Soc.
  • 1961 - Roger Pinkham , „Despre distribuirea primelor cifre semnificative” în Ann. Matematica. Statistică.
  • 1972 - Hal R. Varian , „Legea lui Benford” în statisticianul american
  • 1976 - RA Raimi, „The first digit problem” în American Mathematical Monthly
  • 1992 - Mark Nigrini , „Detectarea evaziunii veniturilor printr-o analiză a distribuțiilor digitale”, teză de doctorat la Universitatea din Cincinnati
  • 1995 - TP Hill , „Invarianța de bază implică legea lui Benford” în Proc. Amer. Matematica. Soc.
  • 1996 - TP Hill , „Derivarea statistică a legii cifrei semnificative” în Știința statistică
  • 1996 - Mark Nigrini , „O aplicație de conformitate a legii Benford a contribuabililor” în Journal of the American Taxation Association

Exemple

Locuitori ai municipalităților italiene la recensământul din 2001

Prima cifră
n Uzual %
1 2547 31.0
2 1391 16.9
3 1057 12.9
4 791 9.6
5 632 7.7
6 544 6.6
7 484 5.9
8 406 4.9
9 365 4.4
Total 8217 100,0
Primele două cifre
n Uzual %
10 343 4.2
11 309 3.8
12 320 3.9
13 262 3.2
14 273 3.3
15 220 2.7
... ... ...
97 24 0,3
98 30 0,4
99 19 0,2

Domenii de aplicare și limite

În 1972 , Hal Varian a sugerat posibilitatea utilizării acestei legi pentru a detecta posibile falsificări în colecțiile de date folosite pentru a sprijini deciziile politice, pe baza ipotezei că cei care doresc să „îmblânzească” datele au o preferință pentru utilizarea numerelor cu cifre nedistribuite. „natural”. Comparând frecvența relativă a primelor cifre ale numerelor utilizate cu vc-ul lui Benford s-ar putea evidenția astfel rezultatele anormale. În mod similar, această variabilă aleatorie poate fi utilizată pentru a căuta falsificări în colecțiile de date referitoare la asigurări, costuri, venituri, înregistrări contabile ale companiei etc.

În 1992, Mark Nigrini a propus utilizarea acestei variabile aleatorii pentru a testa credibilitatea înregistrărilor contabile , după ce a testat-o ​​cu succes pe cazuri reale în care s-a constatat fraudă.

Cu toate acestea, este necesară o anumită precauție înainte de a aplica legea lui Benford, deoarece doar un set de numere alese la întâmplare dintr-o anumită variabilă aleatorie respectă această lege, în timp ce într-un set de date „real” în care unele limite (chiar și inconștient), pot, dar nu trebuie, urmați această lege . De exemplu, în timp ce distribuția primei cifre de statistici, cum ar fi „populația municipalităților italiene începând cu litera F” sau „prețul acțiunilor care au suferit o pierdere în ziua tranzacționării”, ar trebui să urmeze valorile reale ale lui Benford, acest lucru nu este probabil mai mult valabil dacă statistica este definită în diferite moduri ca „populație a municipalităților italiene cu 1000 până la 9999 de locuitori”.

Metodologie

Funcția de probabilitate

Funcția de probabilitate este

Valoarea așteptată este E (X) = μ = 3,44, varianța egală cu σ² = 6,06 și asimetria = 0,79, dacă x trebuie să fie între 1 și 9 (inclusiv).

Dincolo de explicațiile „comune”, vc-ul lui Benford poate fi construit folosind funcția zeta Riemann (vezi și variabila aleatorie Zeta ).

Teoreme și corolari

Invarianța la scară

Dacă un fenomen urmează legea lui Benford, atunci înmulțirea tuturor valorilor cu un număr predeterminat produce o nouă colecție de valori care, la rândul lor, urmează legea lui Benford.

Exemplu: dacă cotațiile exprimate în lire ale acțiunilor listate la bursă respectă legea lui Benford, atunci aceleași cotații exprimate în euro urmează și legea lui Benford.

Invarianța scării necesită acest lucru

Fiind necesar asta și și asta rezultă că forma trebuie să fie de tipul 1 / x. De fapt

pentru

este o distribuție continuă de probabilitate care produce valori aleatorii ale căror prime cifre respectă legea lui Benford.

Probabilitatea celei de-a doua cifre

a doua cifră
n P (y = n)
0 12,0%
1 11,4%
2 10,9%
3 10,4%
4 10,0%
5 9,7%
6 9,3%
7 9,0%
8 8,8%
9 8,5%

Probabilitatea ca a doua cifră să fie n este egală cu

pentru

Această formulă poate fi generalizată pentru a determina probabilitatea celei de-a treia, a patra cifră, care sunt distribuite din ce în ce mai „uniform” (adică diferența dintre prima și ultima tinde să scadă).

Generalizare la sisteme non-zecimale

Pentru orice sistem numeric bazat pe B, probabilitatea primei „cifre” devine

unde d reprezintă prima "cifră" și ln logaritmul de bază naturală e (adică ln = log e )

Elemente conexe

Alte proiecte

Controlul autorității GND ( DE ) 4959372-9
Matematica Portalul de matematică : accesați intrările Wikipedia care se ocupă de matematică