Model Logit

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Modelul logit este reprezentat în albastru.

În statistici , modelul logit , cunoscut și sub numele de model logistic sau regresie logistică , este un model de regresie neliniar utilizat atunci când variabila dependentă este dihotomică . Obiectivul modelului este de a stabili probabilitatea cu care o observație poate genera una sau cealaltă valoare a variabilei dependente; poate fi folosit și pentru clasificarea observațiilor, pe baza caracteristicilor acestora, în două categorii. [1]

Modelul logit face parte din clasa modelelor liniare generalizate , precum și modelul probit și modelul logliniar , de care diferă esențial în alegerea funcției . [1]

Alegerea funcției

Funcția logit. Inversul acestei funcții este utilizat în regresia logistică.

Un model de regresie în care variabila dependentă este dihotomică, adică o variabilă care poate avea 0 și 1 ca singure valori sau care le pot fi atribuite, calculează probabilitatea ca această variabilă să dobândească valoarea 1.

Deoarece probabilitățile sunt, prin definiție, limitate la un interval , utilizarea unui model de regresie liniară nu ar fi adecvată, de fapt ar returna valori aparținând întregului set . [2] De fapt, să presupunem următorul model liniar:

.

Derivatul

fiind constantă și egală cu parametrul , nu permite funcției să schimbe panta pe baza valorii lui și deci să poți avea ca codomain . Această caracteristică este în schimb posedată, de exemplu, de funcțiile de distribuție . [2] De fapt, utilizarea unei funcții neliniare permite să aibă o primă derivată dependentă de și, prin urmare, capabil să se schimbe pe măsură ce această variabilă variază. De fapt, dacă luăm în considerare următorul model:


unde derivatul este următorul

.

Se poate vedea cum panta curbei poate varia acum în funcție de variație , putând astfel să posede un codomain . Pentru modelul logit este folosit ca funcție funcția de distribuție a distribuției logistice standard. [1]

Definiție

Modelul de regresie logit pentru populație este: [1] [3]

unde este:

  • indică probabilitatea;
  • este variabila dependentă dihotomică cu o distribuție Bernoulli ;
  • este vectorul variabilelor independente sau regresorilor ;
  • este vectorul parametrilor ;
  • este funcția de distribuție a distribuției logistice standard;
  • este numărul lui Euler , aproximativ egal cu .

Varianța

Varianța variabilei dependente depinde de vectorul regresorilor . Intr-adevar

.

Efect marginal

Efectul asupra variabilei dependente dat de o schimbare într-un regresor , numit efect marginal, se calculează ca derivată a valorii așteptate a în comparație cu :

unde este este parametrul asociat cu regresorul . [1] Pentru calcularea derivatei, regresorul trebuie să fie continuu.

Ilustrația metodei

Pentru fiecare probă de observare ai o determinare și de determinări . Modelul caută o relație neliniară, utilizând funcția de distribuție logistică standard, între variabila dependentă și variabile independente, estimând valoarea coeficienților folosind metoda de maximă probabilitate. [1]

Estimarea modelului

Vectorul parametrilor se estimează de obicei cu metoda maximă probabilitate , cu care se obțin estimatori eficienți , consecvenți și distribuiți în mod normal dacă eșantionul statistic este suficient de mare. [4] Aceste proprietăți permit calcularea testului t pe un parametru, a testului F în cazul restricțiilor multiple și a intervalelor de încredere . [4] Estimarea parametrilor este urmată de estimarea probabilității .

Funcția de probabilitate

În modelul logit, variabila dependentă este dihotomic și cu distribuție . Luați în considerare un eșantion de observații unde fiecare dintre ele este identificat . Pentru definiția modelului, probabilitatea ca această variabilă să fie 1 pentru o observație dată Și

,

în timp ce probabilitatea ca acesta să fie 0 este

.

Distribuția condițională a probabilității pentru fiecare element poate fi scris ca

.

Acum luăm în considerare întregul eșantion și presupunem și pentru fiecare observație , sunt independente și distribuite identic . Astfel, rezultă că distribuția comună a probabilității este produsul probabilităților condiționale ale fiecărei observații:

.

Definiția modelului probit este acum preluată și înlocuită în locul , obținând astfel funcția de probabilitate [5]

.

Estimarea parametrilor

Pentru a calcula estimatorii parametrii este convenabil să calculați funcția log-probabilitate, deoarece în acest fel este posibilă eliminarea productivității. Logaritmul este apoi aplicat funcției de probabilitate:

.

Estimatorii calculați cu metoda de maximă probabilitate maximizează funcția anterioară rezolvând următoarea problemă:

. [6]

Pentru a simplifica scrierea să luăm în considerare un vector al parametrilor , derivatul de , aceasta este funcția densității probabilității distribuției logistice și numărul de observații din eșantion. Există două condiții pentru maximizare: prima ordine în care prima derivată în raport cu parametrii trebuie setată egală cu zero pentru a găsi extremele, a doua plasează în schimb a doua derivată, din nou în raport cu parametrii, mai mică decât zero la determinați concavitatea funcției și asigurați-vă astfel că cele găsite sunt doar puncte maxime .

De obicei soluțiile acestor condiții nu sunt ușor de determinat sau nu pot fi deloc găsite, dar pentru a depăși această problemă puteți utiliza programe statistice de computer care, prin intermediul unor algoritmi , își găsesc aproximările. [6]

Estimarea probabilității

Când s-a calculat vectorul , adică estimarea vectorului parametrilor , este posibil să se estimeze probabilitatea . Prin definiția modelului, această probabilitate este, de asemenea, valoarea așteptată a .

.

Notă

  1. ^ a b c d e f ( EN ) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable , în Introduction to Econometrics , ediția a 3-a, Pearson, 2015, pp. 442-443, ISBN 978-1-292-07131-2 .
  2. ^ A b (EN) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable, în Introduction to Econometrics, ediția a 3-a, Pearson, 2015, p. 437, ISBN 978-1-292-07131-2 .
  3. ^ Valoarea așteptată
  4. ^ A b (EN) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable, în Introduction to Econometrics, ediția a 3-a, Pearson, 2015, pp. 441-442, ISBN 978-1-292-07131-2 .
  5. ^ Întreaga derivare a funcției de probabilitate poate fi consultată pe paginile raportate aici. ( EN ) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable , în Introduction to Econometrics , ediția a 3-a, Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2 .
  6. ^ A b (EN) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable, în Introduction to Econometrics, ediția a 3-a, Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2 .

Bibliografie

  • ( EN ) Alan Agresti, Analiza datelor categorice , Wiley, 2003, ISBN 978-0-471-36093-3 .
  • ( EN ) William H. Greene, Analiza econometrică , ediția a IV-a, Prentice Hall, 1999 [1993] , ISBN 978-0-130-13297-0 .
  • ( EN ) James H. Stock și Mark W. Watson, Regression with a Binary Dependent Variable , în Introduction to Econometrics , ediția a 3-a, Pearson, 2015, ISBN 978-1-292-07131-2 .
  • ( EN ) P. McCullagh și John A. Nelder, Generalized Linear Models , ediția a II-a, Chapman și Hall / CRC, 1989, ISBN 978-0-412-31760-6 .

Elemente conexe

Alte proiecte

Controlul autorității LCCN (EN) sh85078131 · GND (DE) 4230396-5 · BNF (FR) cb13737339z (data)