Funcție obiectivă

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În optimizarea matematică și teoria deciziei , o funcție de obiectiv sau cost (numită și funcție de pierdere în engleză ) este o funcție care mapează un eveniment sau valori ale uneia sau mai multor variabile la un număr real care reprezintă intuitiv un „cost” asociat „la eveniment. O problemă de optimizare încearcă să minimizeze o funcție de cost. În alte contexte, este posibil să avem de-a face cu o funcție obiectivă sau cu funcția ei negată, care trebuie maximizată; atunci vorbim de funcție de întărire , funcție de utilitate , funcție de fitness etc.).

În statistici, o funcție obiectivă (adesea numită funcție de pierdere ) este de obicei utilizată pentru a estima parametrii și este o funcție a diferenței dintre valorile așteptate și cele reale pentru o instanță de date. Conceptul, la fel de vechi ca Laplace , a fost reintrodus în statistici de către Abraham Wald la mijlocul secolului al XX-lea. [1] În economie , de exemplu, este vorba în general de costuri sau regrete. În clasificarea statistică , reprezintă pedeapsa pentru clasificarea incorectă a datelor. În știința actuarială , este utilizat într-un context de asigurare pentru a modela beneficiile plătite pe prime ; se găsește în special în lucrările lui Harald Cramér din anii 1920 [2] . Într- un control optim , este pedeapsa pentru eșecul de a atinge valoarea dorită a costului funcțional. În gestionarea riscurilor financiare , funcția este asociată cu o pierdere monetară.

În statistica clasică (atât frecventistă, cât și bayesiană), o funcție de cost este în general utilizată ca un fel de convenție matematică subiacentă, deși critici precum W. Edwards Deming și Nassim Nicholas Taleb au susținut că funcția obiectivă ar trebui să reflecte o experiență empirică. fi folosit pentru a lua decizii reale.

Selectarea unei funcții obiective

O bună practică statistică necesită selectarea unei funcții de estimare în concordanță cu variația reală experimentată în contextul unei anumite aplicații. Prin urmare, în practică, selectarea metodei statistice care va fi utilizată pentru modelarea unei probleme aplicate depinde de cunoașterea costurilor care vor apărea din cauza circumstanțelor specifice problemei [3] .

Un exemplu obișnuit este estimarea „poziției”. Sub ipotezele statistice tipice, media este valoarea statistică utilizată pentru a estima acea poziție care minimizează eroarea cu o funcție obiectiv pătratică, în timp ce mediana este estimatorul care minimizează eroarea cu funcția obiectivă care calculează diferența absolută. Estimatorii sunt utilizați în alte circumstanțe mai puțin frecvente.

În economie, atunci când un agent este agnostic de risc, funcția obiectivă este exprimată pur și simplu ca valoarea așteptată a unei cantități monetare, cum ar fi profitul , venitul sau averea la sfârșitul unei perioade. Pentru agenții averse de risc (sau iubitori de risc ), pierderea este măsurată ca negarea unei funcții de utilitate , iar funcția obiectivă care trebuie optimizată este valoarea de utilitate așteptată.

Pentru majoritatea algoritmilor de optimizare , este de dorit să aveți o funcție de pierdere care să fie continuă la nivel global și diferențiată .

Două funcții obiective foarte utilizate sunt eroarea pătrată medie, și devianță , . Cu toate acestea, devianța (care folosește o valoare absolută ) are dezavantajul de a nu fi diferențiată în . O funcție pătratică are dezavantajul de a fi dominată de valori externe atunci când se adaugă la un set de valori (ca în ), suma finală tinde să fie valoarea unor date deosebit de mari ale mai degrabă decât expresia medie.

Alegerea unei funcții obiective nu este arbitrară și poate fi uneori constrânsă de proprietățile dorite care urmează a fi exploatate [4] . Printre principiile de alegere se numără, de exemplu, cerința de completitudine a clasei de statistici simetrice în cazul observațiilor iid , principiul informației complete și altele.

În învățarea automată , funcția obiectivă este centrală în procesul de învățare, deoarece reprezintă măsura cât de mult învață sistemul (de obicei o rețea neuronală ). În consecință, alegerea funcției obiective este strict legată de performanța algoritmilor, deoarece acestea sunt orientate pentru a obține cele mai bune valori posibile pentru funcție, modificând în consecință parametrii sistemului (de exemplu: greutățile rețelei) la abordează-le.

Eroare medie

O valoare foarte simplă pentru funcția obiectivă este dată de măsurarea neconcordanței dintre valorile așteptate și observate [5] . Această măsură se numește eroarea medie (în engleză: Mean Bias Error : MBE) și este dată de media erorilor absolute :

unde este reprezintă valorile observate față de valorile așteptate .

Această măsurare este foarte intuitivă și vă permite să identificați atât abateri pozitive, cât și abateri negative. Pe de altă parte, abaterile se pot anula reciproc, ceea ce implică o imprecizie generală a MBE.

Eroare absolută medie

Pentru a depăși problema valorilor de nulitate, a fost introdusă eroarea absolută medie (în engleză: Mean Absolute Error : MAE - numită și Loss L1 ) [6] . Aceasta este media valorii absolute a diferențelor dintre prognoze și măsuri:

Cu toate acestea, această funcție are un gradient mai complex de calculat datorită discontinuității sale.

Funcția obiectiv quadratică

Utilizarea unei funcții obiective pătratice este obișnuită (numită și Loss L2 ), de exemplu atunci când se utilizează tehnici de cel mai mic pătrat . Adesea, o funcție pătratică este mai matematic tratabilă datorită proprietăților varianțelor , precum și simetrică. Pe un set de elemente i , funcția obiectiv pătratică este de forma:

Multe metode statistice, inclusiv testul t , analiza de regresie , proiectarea experimentelor, etc., folosind metoda celor mai mici pătrate aplicate folosind teoria regresiei liniare , care se bazează pe o funcție obiectiv pătratică.

Funcția obiectivă 0-1

În statistică și teoria deciziei , o funcție obiectivă frecvent utilizată este funcția 0-1:

unde este este funcția indicator .

Funcția obiectiv logaritmică

Utilizată pe scară largă în clasificare , funcția logaritmică a obiectivului, numită și pierderea entropiei încrucișate sau pierderea jurnalului , măsoară performanța unui model de clasificare cu ieșiri între 0 și 1:

Costul așteptat

În unele contexte, valoarea funcției de cost în sine este o cantitate aleatorie, deoarece depinde de rezultatul unei variabile aleatoare X.

În statistici

Atât teoria statistică frecventistă, cât și cea bayesiană iau o decizie pe baza valorii așteptate a funcției de cost; cu toate acestea, această cantitate este definită diferit în cele două paradigme.

Frecventistul costului așteptat

Se obține luând valoarea așteptată în ceea ce privește distribuția probabilității, P θ , a datelor observate, X. Această valoare este numită și funcția de risc [7] [8] [9] [10] a unei reguli de decizie δ și parametrul θ . Aici regula deciziei depinde de rezultatul lui X. Funcția de risc este dată de:

Unde, θ este o stare de natură fixă, dar potențial necunoscută, X este un vector de observații extras stocastic dintr-o populație dată, este așteptarea pentru toate valorile populației de X , dP θ este o măsură de probabilitate pe spațiul de evenimente al lui X (parametrizat cu θ ) și integralul este evaluat pe tot suportul lui X

Cost Bayesian preconizat

Într-o abordare bayesiană, așteptarea este calculată utilizând distribuția posterioară π * a parametrului θ :

Apoi ar trebui să alegeți acțiunea a * care minimizează costul așteptat. În timp ce acest lucru implică alegerea aceleiași acțiuni ca alegerea utilizării riscului frecventist, accentul abordării bayesiene se concentrează pe interesul centrat în alegerea acțiunii optime pe baza datelor observate reale, în timp ce o problemă mult mai dificilă este cum se alege regula deciziei optime frecventiste. , care este o funcție a tuturor observațiilor posibile.

Exemple în statistici

  • Pentru un parametru scalar θ , o funcție de decizie a cărei ieșire este o estimare a lui θ și o funcție de cost pătratică
funcția de risc devine eroarea pătrată medie a estimării,
funcția de risc devine eroarea pătrată integrată medie

Alegeri economice în condiții de incertitudine

În economie, luarea deciziilor sub incertitudine este adesea modelată folosind funcția de utilitate von Neumann-Morgenstern în variabila incertă a interesului. Deoarece valoarea acestei variabile este incertă, la fel este și valoarea funcției utilitare; prin urmare, valoarea așteptată a utilității este maximizată.

Notă

  1. ^ A. Wald, Funcții de decizie statistică , Wiley, 1950.
  2. ^ H. Cramér, Despre teoria matematică a riscului , în Centraltryckeriet , 1930.
  3. ^ J. Pfanzagl, Teoria statistică parametrică , Berlin, Walter de Gruyter, 1994, ISBN 978-3-11-013863-4 .
  4. ^ B. Klebanov, Svetlozat T. Rachev și Frank J. Fabozzi, cap. 2 , în Modele robuste și non-robuste în statistici , New York, Nova Scientific Publishers, Inc., 2009.
  5. ^ (EN) Robert Gilmore Pontius, Olufunmilayo Thontteh și Hao Chen, Componente ale informațiilor pentru comparație cu rezoluție multiplă între hărți care împărtășesc o variabilă reală în Statisticile de mediu și ecologice, vol. 15, nr. 2, iunie 2008, pp. 111–142, DOI : 10.1007 / s10651-007-0043-y . Adus la 22 iulie 2019 .
  6. ^ (EN) Cj K Willmott și Matsuura, Avantajele erorii absolute medii (MAE) față de eroarea pătrată medie rădăcină (RMSE) în evaluarea performanței medii a modelului în Climate Research, vol. 30, 2005, pp. 79-82, DOI : 10.3354 / cr030079 . Adus la 22 iulie 2019 .
  7. ^ ( EN ) Riscul unei proceduri statistice , în Enciclopedia Matematicii , Springer și European Mathematical Society, 2002.
  8. ^ James O. Berger , Statistic decision theory and Bayesian Analysis , ediția a doua, New York, Springer-Verlag, 1985, ISBN 978-0-387-96098-2 .
  9. ^ Morris DeGroot , Optimal Statistical Decisions , Wiley Classics Library, 2004 [1970] , ISBN 978-0-471-68029-1 .
  10. ^ Christian P. Robert, The Bayesian Choice , în Springer Texts in Statistics , ediția a doua, New York, Springer, 2007, DOI : 10.1007 / 0-387-71599-1 , ISBN 978-0-387-95231-4 .

Elemente conexe