Analiza regresiei

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Notă despre dezambiguizare.svg Dezambiguizare - "Regresie" se referă aici. Dacă căutați alte semnificații, consultați Regresie (dezambiguizare) .

Analiza de regresie este o tehnică utilizată pentru a analiza un set de date format dintr-o variabilă dependentă și una sau mai multe variabile independente . Scopul este de a estima orice relație funcțională între variabila dependentă și variabilele independente. Variabila dependentă din ecuația de regresie este o funcție a variabilelor independente plus un termen de eroare . Aceasta din urmă este o variabilă aleatorie și reprezintă o variație incontrolabilă și imprevizibilă a variabilei dependente. Parametrii sunt estimate pentru a descrie cel mai bine datele. Cea mai frecvent utilizată metodă de obținere a celor mai bune estimări este metoda „celor mai mici pătrate” (OLS) , dar sunt utilizate și alte metode.

Modelarea datelor poate fi utilizată fără nici o cunoaștere a proceselor care au generat datele; [1] în acest caz modelul este un model empiric. Mai mult, cunoștințele privind distribuția probabilității erorilor nu sunt necesare în modelare. Analiza de regresie necesită presupuneri cu privire la distribuția probabilității erorilor. Testele statistice se efectuează pe baza acestor ipoteze. În analiza de regresie, termenul „model” include atât funcția utilizată pentru modelarea datelor, cât și ipotezele referitoare la distribuția probabilității.

Analiza de regresie poate fi utilizată pentru a face predicții (de exemplu, pentru a prezice date viitoare într-o serie de timp), inferență statistică , pentru a testa ipoteze sau pentru a modela relații de dependență. Aceste utilizări ale regresiei depind în mare măsură de faptul dacă ipotezele de pornire sunt adevărate. Utilizarea analizei de regresie a fost criticată în mai multe cazuri în care ipotezele inițiale nu pot fi verificate. [1] [2] Un factor care contribuie la abuzul de regresie este acela că necesită mai multe abilități pentru a critica un model decât pentru a-l adapta. [3]

Istorie

Prima formă de regresie a fost metoda celor mai mici pătrate , publicată de Legendre în 1805, [4] și de Gauss în 1809. [5] Termenul „cele mai mici pătrate” derivă din cel folosit de Legendre: moindres carrés . Cu toate acestea, Gauss a susținut că a fost conștient de această metodă încă din 1795.

Legendre și Gauss au aplicat metoda problemei determinării orbitei planetelor din jurul Soarelui din observații astronomice. Euler a lucrat la aceeași problemă în jurul anului 1748, dar fără succes. [ citație necesară ] Gauss a publicat o dezvoltare ulterioară a teoriei celor mai mici pătrate în 1821, [6] incluzând o versiune a teoremei Gauss-Markov .

Termenul „regresie” a fost inventat în secolul al XIX-lea pentru a descrie un fenomen biologic, și anume că descendenții indivizilor excepționali tind, în general, să fie mai puțin excepționali decât părinții lor și mai mult ca strămoșii lor mai îndepărtați. Francis Galton , un văr al lui Charles Darwin , a studiat acest fenomen și a aplicat termenul vag înșelător „ regresie spre centru / regresie spre medie ”. Pentru Galton, regresia a avut doar această semnificație biologică, dar opera sa [7] a fost ulterior extinsă de Udny Yule și Karl Pearson într-un context statistic mai general. [8] Astăzi termenul „regresie” este adesea sinonim cu „curba de interceptare a celor mai mici pătrate”.

Ipoteze

Aceste condiții sunt suficiente (dar nu toate necesare) pentru ca estimatorul celor mai mici pătrate să se bucure de proprietăți bune. În special, aceste ipoteze implică faptul că estimatorul este nedistorsionat , consistent și eficient în clasa estimatorilor liniari nedistorsionați. Multe dintre aceste ipoteze pot fi relaxate în analize mai avansate.

Regresie liniara

Pictogramă lupă mgx2.svg Același subiect în detaliu: regresia liniară .

În regresie liniară, modelul presupune că variabila dependentă, este o combinație liniară a parametrilor (dar nu trebuie să fie liniară în variabila independentă ). De exemplu, în regresie liniară simplă cu observații există o variabilă independentă: și doi parametri, Și :

În regresia liniară multiplă, există mai multe variabile independente sau funcții ale variabilelor independente. De exemplu, adăugarea unui termen în la regresia anterioară obținem:

Este încă o regresie liniară: deși expresia din dreapta este pătratică în variabila independentă , este totuși liniar în parametri , Și

În ambele cazuri, este un termen de eroare și un index identifică o observație anume. Având în vedere un eșantion aleatoriu al populației, estimăm parametrii populației și obținem modelul de regresie liniară simplă:

Termenul este reziduul, . O metodă de estimare este cea a celor mai mici pătrate obișnuite . Această metodă obține estimări ale parametrilor care minimizează suma pătratelor reziduale , SSE:

Minimizarea acestei funcții se dovedește a fi un sistem de ecuații normale , un set de ecuații liniare simultane în parametri, care sunt rezolvate pentru a găsi estimările parametrilor, . A se vedea coeficienții de regresie pentru informații despre proprietățile statistice ale acestor estimatori.

Ilustrarea regresiei liniare pe un set de date (puncte roșii).

În cazul regresiei simple, formulele pentru estimările celor mai mici pătrate sunt

Și

unde este este media (medie) a valorilor Și este media valorilor . Presupunând că termenul de eroare a populației are o varianță constantă, estimarea acestei varianțe este dată de: Aceasta este eroarea pătrată medie a rădăcinii (RMSE) a regresiei. Erorile standard ale estimărilor parametrilor sunt date de

În ipoteza suplimentară că termenul de eroare a populației are o distribuție normală, cercetătorul poate utiliza aceste erori standard estimate pentru a crea intervale de încredere și a efectua teste de ipoteză pe parametrii populației.

Regresie multiplă

În modelul de regresie multiplă mai general, există variabile independente:

Se obțin estimări ale parametrilor celor mai mici pătrate din ecuații normale. Reziduul poate fi scris ca

Ecuațiile normale sunt

În notația matricială, ecuațiile normale sunt scrise ca

Analiza bunătății modelului

Odată ce a fost construit un model de regresie, este important să se confirme bunătatea potrivirii modelului și semnificația statistică a parametrilor estimate. Verificările bunătății de potrivire utilizate în mod obișnuit includ indicele R-pătrat , analiza reziduală și testarea ipotezelor. Semnificația statistică este verificată cu un test F de potrivire globală, urmat de un test t pentru fiecare parametru individual.

Interpretarea acestor teste depinde puternic de ipotezele despre model. Deși analiza reziduală este utilizată pentru a determina bunătatea unui model, rezultatele testelor T și ale testelor F sunt dificil de interpretat dacă ipotezele inițiale nu sunt satisfăcute. De exemplu, dacă distribuția erorilor nu este normală, se poate întâmpla ca în eșantioanele de dimensiuni mici estimările parametrilor să nu urmeze o distribuție normală, ceea ce complică inferența. Pentru eșantioane mari, teorema limită centrală permite testarea utilizând o aproximare asimptotică a distribuțiilor.

Regresie pentru variabile discrete: modele liniare generalizate

Variabila de răspuns poate fi necontinuă. Pentru variabilele binare (zero / una), putem continua cu un anumit tip de model de probabilitate liniară . Dacă se folosește un model neliniar, cele mai utilizate modele sunt modelul probit și modelul logit . Modelul probit multivariat permite estimarea în comun a relației dintre mai multe variabile dependente binare și unele variabile independente. Pentru variabilele categorice cu mai mult de două valori, se utilizează modelul logit multinomial . Pentru variabilele ordinale cu mai mult de două valori, se utilizează modelele cumulative logit și cumulative probit . O alternativă la astfel de proceduri este regresia liniară bazată pe corelații policorice sau poliseriale între variabilele categorice. Aceste proceduri diferă în ipotezele făcute cu privire la distribuția variabilelor în populație. Dacă variabila reprezintă o repetare a unui eveniment în timp, este pozitivă și cu puține realizări („evenimente rare”), pot fi utilizate modele binomiale Poisson sau negative .

Interpolare și extrapolare

Modelele de regresie prezic o variabilă plecând de la valorile altor variabile . Dacă valorile prognozate se încadrează în intervalul valorilor variabile folosit pentru construcția modelului se numește interpolare . Dacă valorile se situează în afara variabilelor explicative, vorbim de extrapolare . În acest caz, prognoza devine mai riscantă.

Regresie neliniară

Pictogramă lupă mgx2.svg Același subiect în detaliu: Regresia neliniară .

Când funcția modelului nu este liniară în parametri, suma pătratelor trebuie redusă la minimum printr-o procedură iterativă.

Alte metode

Deși parametrii unui model de regresie sunt de obicei estimate utilizând metoda celor mai mici pătrate, alte metode includ:

Notă

  1. ^ a b Richard A. Berk, Regression Analysis: A Constructive Critique , Sage Publications (2004)
  2. ^ David A. Freedman, Modele statistice: teorie și practică , Cambridge University Press (2005)
  3. ^ [1] R. Dennis Cook; Sanford Weisberg "Criticism and Influence Analysis in Regression", Sociological Methodology , Vol. 13. (1982), pp. 313-361.
  4. ^ AM Legendre . Nouvelles méthodes pour la détermination des orbites des comètes (1805). „Sur la Méthode des moindres quarrés” apare ca apendice.
  5. ^ CF Gauss . Theoria Motus Corporum Coelestium în Sectionibus Conicis Solem Ambientum . (1809)
  6. ^ CF Gauss. Theoria combinație observationum erroribus minimis obnoxiae . (1821/1823)
  7. ^ Francis Galton . „Legile tipice ale eredității”, Nature 15 (1877), 492-495, 512-514, 532-533. (Galton folosește termenul „reversiune” în acest articol, care se ocupă de mărimea mazării.) ; Francis Galton. Adresa prezidențială, secțiunea H, Antropologie. (1885) (în această lucrare, care tratează înălțimea ființelor umane, Galton folosește termenul „regresie”.)
  8. ^ G. Udny Yule . „Despre teoria corelației”, J. Royal Statist. Soc., 1897, p. 812-54. Karl Pearson , OJ Yule, Norman Blanchard și Alice Lee. „Legea eredității ancestrale”, Biometrika (1903). În lucrarea lui Yule și Pearson, distribuția comună a variabilei de răspuns și a variabilelor explicative se presupune a fi Gaussian. Această ipoteză a fost considerabil slăbită de RA Fisher în lucrările sale din 1922 și 1925 (RA Fisher, „The goodness of fit of regression formules, and the distribution of regression coeficients”, J. Royal Statist. Soc., 85, 597-612 dal 1922 și Metode statistice pentru cercetătorii din 1925). Fisher a emis ipoteza că distribuția condiționată a variabilei de răspuns a fost gaussiană, dar distribuția comună nu trebuie să aibă nicio distribuție specială. În acest sens, ipoteza lui Fisher este mai apropiată de formularea lui Gauss din 1821.

Bibliografie

  • Audi, R., Ed. (1996). „problemă de potrivire a curbei”, Dicționarul de filosofie Cambridge . Cambridge, Cambridge University Press. pp. 172–173.
  • William H. Kruskal și Judith M. Tanur, ed. (1978), „Ipoteze liniare”, Enciclopedia Internațională de Statistică . Free Press, v. 1,
Evan J. Williams, „I. Regresie”, pp. 523-41.
Julian C. Stanley , "II. Analiza varianței", pp. 541-554.
  • Lindley, DV (1987). „Analiza de regresie și corelație”, New Palgrave: A Dictionary of Economics , v. 4, pp. 120–23.
  • Birkes, David și Yadolah Dodge, Metode alternative de regresie . ISBN 0-471-56881-3
  • Chatfield, C. (1993) "Calcularea intervalului de prognoze", Journal of Business and Economic Statistics, 11 . pp. 121-135.
  • Draper, NR și Smith, H. (1998). Analiza regresiei aplicate Seria Wiley în probabilitate și statistici
  • Fox, J. (1997). Analiza de regresie aplicată, modele liniare și metode conexe. Salvie
  • Hardle, W., Regression Nonparametric Applied (1990), ISBN 0-521-42950-1
  • Meade, N. și T. Islam (1995) "Intervalele de predicție pentru prognozele curbei de creștere", Journal of Forecasting, 14 , pp. 413-430.
  • Munro, Barbara Hazard (2005) "Metode statistice pentru cercetarea în domeniul sănătății" Lippincott Williams & Wilkins, ed. A 5-a.
  • Gujarati, Econometrie de bază, ediția a IV-a
  • Sykes, AO "O introducere în analiza de regresie" (prelegere inițială Coase)
  • S. Kotsiantis, D. Kanellopoulos, P. Pintelas, Regresia aditivă locală a butucilor de decizie, Note de curs în inteligența artificială, Springer-Verlag, Vol. 3955, SETN 2006, pp. 148-157, 2006
  • S. Kotsiantis, P. Pintelas, Selective Averaging of Regression Models, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 3, 2005, pp. 66-75

Elemente conexe

Software

Toate pachetele statistice majore efectuează tipuri comune de analiză de regresie corect și ușor. Regresia liniară simplă se poate face în unele foi de calcul . Există o serie de programe care realizează forme specializate de regresie, iar experții pot alege să scrie propriul cod pentru a utiliza limbaje de programare statistică sau software pentru analiza numerică .

Alte proiecte

linkuri externe

Controlul autorității Tezaur BNCF 16050 · LCCN (EN) sh85112392 · GND (DE) 4129903-6 · BNF (FR) cb119445648 (data) · NDL (EN, JA) 00.564.579