Legea lui Benford
Această intrare sau secțiune despre matematică nu citează sursele necesare sau cei prezenți sunt insuficienți . |
|
| ||||||||||||||||||||||||||||||||||||||||
Distribuția Benford , mai bine cunoscută sub numele de legea lui Benford , sau legea primelor cifre , descrie distribuția probabilității cu care apare prima cifră a numerelor în multe exemple de colecții reale de date (de exemplu, populația municipalităților, citate de acțiuni, constante fizice sau matematice, număr a drumurilor existente în localități). În cazul cifrei „1”, de exemplu, această variabilă discretă aleatorie ar trebui să fie prima cifră în 30,1% din cazuri. Funcția de probabilitate este dată de
Una dintre extensiile legii lui Benford ia în considerare perechea primelor două cifre (deci de la 10 la 99), lăsând formula neschimbată, dar modificând doar intervalul de valabilitate, de la [1,9] la [10,99] .
Intuiţie
O scurtă explicație intuitivă a motivului pentru care o astfel de diferență în distribuție apare în „natură” (cu numărul „1” care apare mai frecvent, apoi, după aceea, numărul 2 și așa mai departe) ia în considerare faptul că, în numărarea acestuia, începe de la numărul 1 până la 9. Dacă restrângem câmpul doar la numerele de la 1 la 9 este clar că probabilitatea ca o cifră să înceapă cu 1 sau 2 sau 3 sau 9 trebuie să fie întotdeauna aceeași. Cu toate acestea, acolo unde numerele de la 1 la 20 sunt deja luate în considerare, vor exista mult mai multe numere începând cu cifra 1 (10 la 19). Dacă luați cele de la 1 la 30, veți avea multe începând cu 1, dar și cu 2. După cum puteți vedea cu ușurință, pentru a avea, de exemplu, numere care încep cu 9, trebuie să mergeți foarte departe cu numerele. Același argument se poate face cu seturi de numere de mai multe cifre, pentru care într-o distribuție a numerelor legate de suprafețe, populații, probabilitatea de a avea numere începând cu 1, mai degrabă decât cu 9. Va fi mai mare. Singurul lucru este însă că Benford a reușit să arate că, pentru multe distribuții, probabilitatea ca un număr să înceapă cu o anumită cifră între 1 și 9 este întotdeauna aceeași (30,1% pentru cifra 1, 17,6% pentru cifra 2, 4,6% pentru cifra 9 ).
Istorie
Descoperiri, redescoperiri și perspective
Legea lui Benford pare să fi fost descoperită de matematicianul și astronomul Simon Newcomb și descrisă în „American Journal of Mathematics” în 1881 . Potrivit a ceea ce este doar o anecdotă, Newcomb a remarcat cum, în cărțile cu tabele de logaritmi, paginile cu tabele având „1” ca primă cifră erau mult mai murdare decât celelalte, poate pentru că erau folosite mai des. S-a argumentat contrar că, în orice carte accesată secvențial, prima ar fi mai folosită decât cea din urmă.
Mai târziu, în 1938 , fizicianul Frank Benford a fost cel care a analizat colecții de numere din multe alte domenii de aplicare și acest lucru a făcut ca legea să fie atribuită numelui său.
În 1996 , Ted Hill a dovedit teorema distribuției mixte.
Datele prezentate de Benford în 1938
Titlu | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | Valori |
---|---|---|---|---|---|---|---|---|---|---|
Râuri, suprafețe | 31.0 | 16.4 | 10.7 | 11.3 | 7.2 | 8.6 | 5.5 | 4.2 | 5.1 | 3.5 |
Populația | 33.9 | 20.4 | 14.2 | 8.1 | 7.2 | 6.2 | 4.1 | 3.7 | 2.2 | 32.9 |
Constante | 41.3 | 14.4 | 4.8 | 8.6 | 10.6 | 5.8 | 1.0 | 2.9 | 10.6 | 1.4 |
Presă | 30.0 | 18.0 | 12.0 | 10.0 | 8.0 | 6.0 | 6.0 | 5.0 | 5.0 | 1.0 |
Căldura specifică | 24.0 | 18.4 | 16.2 | 14.6 | 10.6 | 4.1 | 3.2 | 4.8 | 4.1 | 13.9 |
Presiuni | 29.6 | 18.3 | 12.8 | 9.8 | 8.3 | 6.4 | 5.7 | 4.4 | 4.7 | 7.3 |
HP Lost | 30.0 | 18.4 | 11.9 | 10.8 | 8.1 | 7.0 | 5.1 | 5.1 | 3.6 | 6.0 |
Greutate moleculară | 26.7 | 25.2 | 15.4 | 10.8 | 6.7 | 5.1 | 4.1 | 2.8 | 3.2 | 18.0 |
Drenaj | 27.1 | 23.9 | 13.8 | 12.6 | 8.2 | 5.0 | 5.0 | 2.5 | 1.9 | 1.9 |
Greutate atomica | 47.2 | 18.7 | 5.5 | 4.4 | 6.6 | 4.4 | 3.3 | 4.4 | 5.5 | 91 |
1 / n, √n | 25.7 | 20.3 | 9.7 | 6.8 | 6.6 | 6.8 | 7.2 | 8.0 | 8.9 | 50,0 |
Proiecta | 26,8 | 14.8 | 14.3 | 7.5 | 8.3 | 8.4 | 7.0 | 7.3 | 5.6 | 5.0 |
Reader's Digest | 33.4 | 18.5 | 12.4 | 7.5 | 7.1 | 6.5 | 5.5 | 4.9 | 4.2 | 3.8 |
Coaste | 32.4 | 18.8 | 10.1 | 10.1 | 9.8 | 5.5 | 4.7 | 5.5 | 3.1 | 7.1 |
Volți cu raze X. | 27.9 | 17.5 | 14.4 | 9.0 | 8.1 | 7.4 | 5.1 | 5.8 | 4.8 | 7.7 |
Liga americană | 32.7 | 17.6 | 12.6 | 9.8 | 7.4 | 6.4 | 4.9 | 5.6 | 3.0 | 14.8 |
Blackbody | 31.0 | 17.3 | 14.1 | 8.7 | 6.6 | 7.0 | 5.2 | 4.7 | 5.4 | 11.5 |
Adrese | 28.9 | 19.2 | 12.6 | 8.8 | 8.5 | 6.4 | 5.6 | 5.0 | 5.0 | 3.2 |
n, n², n³,…, n! | 25.3 | 16.0 | 12.0 | 10.0 | 8.5 | 8.8 | 6.8 | 7.1 | 5.5 | 9.0 |
Rata mortalitatii | 27.0 | 18.6 | 15.7 | 9.4 | 6.7 | 6.5 | 7.2 | 4.8 | 4.1 | 4.8 |
In medie | 30.6 | 18.5 | 12.4 | 9.4 | 8.0 | 6.4 | 5.1 | 4.9 | 4.7 | 10.1 |
Eroare probabilă | ± 0,8 | ± 0,4 | ± 0,4 | ± 0,3 | ± 0,2 | ± 0,2 | ± 0,2 | ± 0,3 |
Bibliografie istorică
- 1881 - Simon Newcomb , „Notă privind frecvența de utilizare a diferitelor cifre în numerele naturale” în Jurnalul American de Matematică
- 1938 - Frank Benford , „Legea numerelor anormale” în Proc. Amer. Phil. Soc.
- 1961 - Roger Pinkham , „Despre distribuirea primelor cifre semnificative” în Ann. Matematica. Statistică.
- 1972 - Hal R. Varian , „Legea lui Benford” în statisticianul american
- 1976 - RA Raimi, „The first digit problem” în American Mathematical Monthly
- 1992 - Mark Nigrini , „Detectarea evaziunii veniturilor printr-o analiză a distribuțiilor digitale”, teză de doctorat la Universitatea din Cincinnati
- 1995 - TP Hill , „Invarianța de bază implică legea lui Benford” în Proc. Amer. Matematica. Soc.
- 1996 - TP Hill , „Derivarea statistică a legii cifrei semnificative” în Știința statistică
- 1996 - Mark Nigrini , „O aplicație de conformitate a legii Benford a contribuabililor” în Journal of the American Taxation Association
Exemple
Locuitori ai municipalităților italiene la recensământul din 2001
|
|
Domenii de aplicare și limite
În 1972 , Hal Varian a sugerat posibilitatea utilizării acestei legi pentru a detecta posibile falsificări în colecțiile de date folosite pentru a sprijini deciziile politice, pe baza ipotezei că cei care doresc să „îmblânzească” datele au o preferință pentru utilizarea numerelor cu cifre nedistribuite. „natural”. Comparând frecvența relativă a primelor cifre ale numerelor utilizate cu vc-ul lui Benford s-ar putea evidenția astfel rezultatele anormale. În mod similar, această variabilă aleatorie poate fi utilizată pentru a căuta falsificări în colecțiile de date referitoare la asigurări, costuri, venituri, înregistrări contabile ale companiei etc.
În 1992, Mark Nigrini a propus utilizarea acestei variabile aleatorii pentru a testa credibilitatea înregistrărilor contabile , după ce a testat-o cu succes pe cazuri reale în care s-a constatat fraudă.
Cu toate acestea, este necesară o anumită precauție înainte de a aplica legea lui Benford, deoarece doar un set de numere alese la întâmplare dintr-o anumită variabilă aleatorie respectă această lege, în timp ce într-un set de date „real” în care unele limite (chiar și inconștient), pot, dar nu trebuie, urmați această lege . De exemplu, în timp ce distribuția primei cifre de statistici, cum ar fi „populația municipalităților italiene începând cu litera F” sau „prețul acțiunilor care au suferit o pierdere în ziua tranzacționării”, ar trebui să urmeze valoarea de profit a lui Benford, aceasta nu este probabil mai mare valabil dacă statistica este definită în diferite moduri ca „populație a municipalităților italiene cu 1000 până la 9999 de locuitori”.
Metodologie
Funcția de probabilitate
Funcția de probabilitate este
Valoarea așteptată este E (X) = μ = 3,44, varianța egală cu σ² = 6,06 și asimetria = 0,79, dacă x trebuie să fie între 1 și 9 (inclusiv).
Dincolo de explicațiile „comune”, vc-ul lui Benford poate fi construit folosind funcția zeta Riemann (vezi și variabila aleatorie Zeta ).
Teoreme și corolari
Invarianța la scară
Dacă un fenomen urmează legea lui Benford, atunci înmulțirea tuturor valorilor cu un număr predeterminat produce o nouă colecție de valori care, la rândul lor, urmează legea lui Benford.
Exemplu: dacă cotațiile exprimate în lire ale acțiunilor listate la bursă respectă legea lui Benford, atunci aceleași cotații exprimate în euro urmează și legea lui Benford.
Invarianța scării necesită acest lucru
Fiind necesar asta și și asta rezultă că forma trebuie să fie de tipul 1 / x. De fapt
- pentru
este o distribuție continuă de probabilitate care produce valori aleatorii ale căror prime cifre respectă legea lui Benford.
Probabilitatea celei de-a doua cifre
n | P (y = n) |
---|---|
0 | 12,0% |
1 | 11,4% |
2 | 10,9% |
3 | 10,4% |
4 | 10,0% |
5 | 9,7% |
6 | 9,3% |
7 | 9,0% |
8 | 8,8% |
9 | 8,5% |
Probabilitatea ca a doua cifră să fie n este egală cu
- pentru
Această formulă poate fi generalizată pentru a determina probabilitatea celei de-a treia, a patra cifră, care sunt distribuite din ce în ce mai „uniform” (adică diferența dintre prima și ultima tinde să scadă).
Generalizare la sisteme non-zecimale
Pentru orice sistem numeric bazat pe B, probabilitatea primei „cifre” devine
unde d reprezintă prima "cifră" și ln logaritmul de bază naturală e (adică ln = log e )
Elemente conexe
Alte proiecte
- Wikimedia Commons conține imagini sau alte fișiere despre legea lui Benford
Controlul autorității | GND ( DE ) 4959372-9 |
---|