Analiza regresiei
Analiza de regresie este o tehnică utilizată pentru a analiza un set de date format dintr-o variabilă dependentă și una sau mai multe variabile independente . Scopul este de a estima orice relație funcțională între variabila dependentă și variabilele independente. Variabila dependentă din ecuația de regresie este o funcție a variabilelor independente plus un termen de eroare . Aceasta din urmă este o variabilă aleatorie și reprezintă o variație incontrolabilă și imprevizibilă a variabilei dependente. Parametrii sunt estimate pentru a descrie cel mai bine datele. Cea mai frecvent utilizată metodă de obținere a celor mai bune estimări este metoda „celor mai mici pătrate” (OLS) , dar sunt utilizate și alte metode.
Modelarea datelor poate fi utilizată fără nici o cunoaștere a proceselor care au generat datele; [1] în acest caz modelul este un model empiric. Mai mult, cunoștințele privind distribuția probabilității erorilor nu sunt necesare în modelare. Analiza de regresie necesită presupuneri cu privire la distribuția probabilității erorilor. Testele statistice se efectuează pe baza acestor ipoteze. În analiza de regresie, termenul „model” include atât funcția utilizată pentru modelarea datelor, cât și ipotezele referitoare la distribuția probabilității.
Analiza de regresie poate fi utilizată pentru a face predicții (de exemplu, pentru a prezice date viitoare într-o serie de timp), inferență statistică , pentru a testa ipoteze sau pentru a modela relații de dependență. Aceste utilizări ale regresiei depind în mare măsură de faptul dacă ipotezele de pornire sunt adevărate. Utilizarea analizei de regresie a fost criticată în mai multe cazuri în care ipotezele inițiale nu pot fi verificate. [1] [2] Un factor care contribuie la abuzul de regresie este acela că necesită mai multe abilități pentru a critica un model decât pentru a-l adapta. [3]
Istorie
Prima formă de regresie a fost metoda celor mai mici pătrate , publicată de Legendre în 1805, [4] și de Gauss în 1809. [5] Termenul „cele mai mici pătrate” derivă din cel folosit de Legendre: moindres carrés . Cu toate acestea, Gauss a susținut că a fost conștient de această metodă încă din 1795.
Legendre și Gauss au aplicat metoda problemei determinării orbitei planetelor din jurul Soarelui din observații astronomice. Euler a lucrat la aceeași problemă în jurul anului 1748, dar fără succes. [ citație necesară ] Gauss a publicat o dezvoltare ulterioară a teoriei celor mai mici pătrate în 1821, [6] incluzând o versiune a teoremei Gauss-Markov .
Termenul „regresie” a fost inventat în secolul al XIX-lea pentru a descrie un fenomen biologic, și anume că descendenții indivizilor excepționali tind, în general, să fie mai puțin excepționali decât părinții lor și mai mult ca strămoșii lor mai îndepărtați. Francis Galton , un văr al lui Charles Darwin , a studiat acest fenomen și a aplicat termenul vag înșelător „ regresie spre centru / regresie spre medie ”. Pentru Galton, regresia a avut doar această semnificație biologică, dar opera sa [7] a fost ulterior extinsă de Udny Yule și Karl Pearson într-un context statistic mai general. [8] Astăzi termenul „regresie” este adesea sinonim cu „curba de interceptare a celor mai mici pătrate”.
Ipoteze
- Eșantionul trebuie să fie reprezentativ pentru populația pentru care urmează să se facă prognoza.
- Variabila dependentă este supusă erorii. Se presupune că această eroare este o variabilă aleatorie , cu medie zero. Eroarea sistematică poate fi prezentă, dar tratamentul său depășește sfera analizei de regresie.
- Variabilele independente nu au erori. Dacă nu, modelarea trebuie făcută folosind tehnicile de erori în variabile .
- Variabilele predictive trebuie să fie liniar independente , adică nu trebuie să fie posibil să se exprime niciun predictor ca o combinație liniară a celorlalte. Vezi multicoliniaritatea .
- Erorile sunt necorelate , adică matricea de varianță și covarianță a erorilor este diagonală și fiecare element diferit de zero este varianța erorii.
- Varianța erorii este constantă ( homoskedasticitate ). Dacă nu, ar trebui utilizată metoda celor mai mici pătrate ponderate sau alte metode.
- Erorile urmează o distribuție normală . În caz contrar, ar trebui utilizat modelul liniar generalizat .
Aceste condiții sunt suficiente (dar nu toate necesare) pentru ca estimatorul celor mai mici pătrate să se bucure de proprietăți bune. În special, aceste ipoteze implică faptul că estimatorul este nedistorsionat , consistent și eficient în clasa estimatorilor liniari nedistorsionați. Multe dintre aceste ipoteze pot fi relaxate în analize mai avansate.
Regresie liniara
În regresie liniară, modelul presupune că variabila dependentă, este o combinație liniară a parametrilor (dar nu trebuie să fie liniară în variabila independentă ). De exemplu, în regresie liniară simplă cu observații există o variabilă independentă: și doi parametri, Și :
În regresia liniară multiplă, există mai multe variabile independente sau funcții ale variabilelor independente. De exemplu, adăugarea unui termen în la regresia anterioară obținem:
Este încă o regresie liniară: deși expresia din dreapta este pătratică în variabila independentă , este totuși liniar în parametri , Și
În ambele cazuri, este un termen de eroare și un index identifică o observație anume. Având în vedere un eșantion aleatoriu al populației, estimăm parametrii populației și obținem modelul de regresie liniară simplă:
Termenul este reziduul, . O metodă de estimare este cea a celor mai mici pătrate obișnuite . Această metodă obține estimări ale parametrilor care minimizează suma pătratelor reziduale , SSE:
Minimizarea acestei funcții se dovedește a fi un sistem de ecuații normale , un set de ecuații liniare simultane în parametri, care sunt rezolvate pentru a găsi estimările parametrilor, . A se vedea coeficienții de regresie pentru informații despre proprietățile statistice ale acestor estimatori.
În cazul regresiei simple, formulele pentru estimările celor mai mici pătrate sunt
- Și
unde este este media (medie) a valorilor Și este media valorilor . Presupunând că termenul de eroare a populației are o varianță constantă, estimarea acestei varianțe este dată de: Aceasta este eroarea pătrată medie a rădăcinii (RMSE) a regresiei. Erorile standard ale estimărilor parametrilor sunt date de
În ipoteza suplimentară că termenul de eroare a populației are o distribuție normală, cercetătorul poate utiliza aceste erori standard estimate pentru a crea intervale de încredere și a efectua teste de ipoteză pe parametrii populației.
Regresie multiplă
În modelul de regresie multiplă mai general, există variabile independente:
Se obțin estimări ale parametrilor celor mai mici pătrate din ecuații normale. Reziduul poate fi scris ca
Ecuațiile normale sunt
În notația matricială, ecuațiile normale sunt scrise ca
Analiza bunătății modelului
Odată ce a fost construit un model de regresie, este important să se confirme bunătatea potrivirii modelului și semnificația statistică a parametrilor estimate. Verificările bunătății de potrivire utilizate în mod obișnuit includ indicele R-pătrat , analiza reziduală și testarea ipotezelor. Semnificația statistică este verificată cu un test F de potrivire globală, urmat de un test t pentru fiecare parametru individual.
Interpretarea acestor teste depinde puternic de ipotezele despre model. Deși analiza reziduală este utilizată pentru a determina bunătatea unui model, rezultatele testelor T și ale testelor F sunt dificil de interpretat dacă ipotezele inițiale nu sunt satisfăcute. De exemplu, dacă distribuția erorilor nu este normală, se poate întâmpla ca în eșantioanele de dimensiuni mici estimările parametrilor să nu urmeze o distribuție normală, ceea ce complică inferența. Pentru eșantioane mari, teorema limită centrală permite testarea utilizând o aproximare asimptotică a distribuțiilor.
Regresie pentru variabile discrete: modele liniare generalizate
Variabila de răspuns poate fi necontinuă. Pentru variabilele binare (zero / una), putem continua cu un anumit tip de model de probabilitate liniară . Dacă se folosește un model neliniar, cele mai utilizate modele sunt modelul probit și modelul logit . Modelul probit multivariat permite estimarea în comun a relației dintre mai multe variabile dependente binare și unele variabile independente. Pentru variabilele categorice cu mai mult de două valori, se utilizează modelul logit multinomial . Pentru variabilele ordinale cu mai mult de două valori, se utilizează modelele cumulative logit și cumulative probit . O alternativă la astfel de proceduri este regresia liniară bazată pe corelații policorice sau poliseriale între variabilele categorice. Aceste proceduri diferă în ipotezele făcute cu privire la distribuția variabilelor în populație. Dacă variabila reprezintă o repetare a unui eveniment în timp, este pozitivă și cu puține realizări („evenimente rare”), pot fi utilizate modele binomiale Poisson sau negative .
Interpolare și extrapolare
Modelele de regresie prezic o variabilă plecând de la valorile altor variabile . Dacă valorile prognozate se încadrează în intervalul valorilor variabile folosit pentru construcția modelului se numește interpolare . Dacă valorile se situează în afara variabilelor explicative, vorbim de extrapolare . În acest caz, prognoza devine mai riscantă.
Regresie neliniară
Când funcția modelului nu este liniară în parametri, suma pătratelor trebuie redusă la minimum printr-o procedură iterativă.
Alte metode
Deși parametrii unui model de regresie sunt de obicei estimate utilizând metoda celor mai mici pătrate, alte metode includ:
- Metode bayesiene , de exemplu regresia liniară bayesiană ;
- minimizarea abaterilor absolute, ceea ce duce la regresia cuantilă ;
- regresia non-parametrică , această abordare necesită un număr mare de observații, deoarece datele sunt utilizate atât pentru a construi structura modelului, cât și pentru a estima parametrii modelului. De obicei necesită mult efort de calcul.
Notă
- ^ a b Richard A. Berk, Regression Analysis: A Constructive Critique , Sage Publications (2004)
- ^ David A. Freedman, Modele statistice: teorie și practică , Cambridge University Press (2005)
- ^ [1] R. Dennis Cook; Sanford Weisberg "Criticism and Influence Analysis in Regression", Sociological Methodology , Vol. 13. (1982), pp. 313-361.
- ^ AM Legendre . Nouvelles méthodes pour la détermination des orbites des comètes (1805). „Sur la Méthode des moindres quarrés” apare ca apendice.
- ^ CF Gauss . Theoria Motus Corporum Coelestium în Sectionibus Conicis Solem Ambientum . (1809)
- ^ CF Gauss. Theoria combinație observationum erroribus minimis obnoxiae . (1821/1823)
- ^ Francis Galton . „Legile tipice ale eredității”, Nature 15 (1877), 492-495, 512-514, 532-533. (Galton folosește termenul „reversiune” în acest articol, care se ocupă de mărimea mazării.) ; Francis Galton. Adresa prezidențială, secțiunea H, Antropologie. (1885) (în această lucrare, care tratează înălțimea ființelor umane, Galton folosește termenul „regresie”.)
- ^ G. Udny Yule . „Despre teoria corelației”, J. Royal Statist. Soc., 1897, p. 812-54. Karl Pearson , OJ Yule, Norman Blanchard și Alice Lee. „Legea eredității ancestrale”, Biometrika (1903). În lucrarea lui Yule și Pearson, distribuția comună a variabilei de răspuns și a variabilelor explicative se presupune a fi Gaussian. Această ipoteză a fost considerabil slăbită de RA Fisher în lucrările sale din 1922 și 1925 (RA Fisher, „The goodness of fit of regression formules, and the distribution of regression coeficients”, J. Royal Statist. Soc., 85, 597-612 dal 1922 și Metode statistice pentru cercetătorii din 1925). Fisher a emis ipoteza că distribuția condiționată a variabilei de răspuns a fost gaussiană, dar distribuția comună nu trebuie să aibă nicio distribuție specială. În acest sens, ipoteza lui Fisher este mai apropiată de formularea lui Gauss din 1821.
Bibliografie
- Audi, R., Ed. (1996). „problemă de potrivire a curbei”, Dicționarul de filosofie Cambridge . Cambridge, Cambridge University Press. pp. 172–173.
- William H. Kruskal și Judith M. Tanur, ed. (1978), „Ipoteze liniare”, Enciclopedia Internațională de Statistică . Free Press, v. 1,
- Evan J. Williams, „I. Regresie”, pp. 523-41.
- Julian C. Stanley , "II. Analiza varianței", pp. 541-554.
- Lindley, DV (1987). „Analiza de regresie și corelație”, New Palgrave: A Dictionary of Economics , v. 4, pp. 120–23.
- Birkes, David și Yadolah Dodge, Metode alternative de regresie . ISBN 0-471-56881-3
- Chatfield, C. (1993) "Calcularea intervalului de prognoze", Journal of Business and Economic Statistics, 11 . pp. 121-135.
- Draper, NR și Smith, H. (1998). Analiza regresiei aplicate Seria Wiley în probabilitate și statistici
- Fox, J. (1997). Analiza de regresie aplicată, modele liniare și metode conexe. Salvie
- Hardle, W., Regression Nonparametric Applied (1990), ISBN 0-521-42950-1
- Meade, N. și T. Islam (1995) "Intervalele de predicție pentru prognozele curbei de creștere", Journal of Forecasting, 14 , pp. 413-430.
- Munro, Barbara Hazard (2005) "Metode statistice pentru cercetarea în domeniul sănătății" Lippincott Williams & Wilkins, ed. A 5-a.
- Gujarati, Econometrie de bază, ediția a IV-a
- Sykes, AO "O introducere în analiza de regresie" (prelegere inițială Coase)
- S. Kotsiantis, D. Kanellopoulos, P. Pintelas, Regresia aditivă locală a butucilor de decizie, Note de curs în inteligența artificială, Springer-Verlag, Vol. 3955, SETN 2006, pp. 148-157, 2006
- S. Kotsiantis, P. Pintelas, Selective Averaging of Regression Models, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 3, 2005, pp. 66-75
Elemente conexe
- Regiunea de încredere
- Distanța lui Cook
- Distribuție multivariată normală
- Extrapolarea
- Prognoza
- Funcția Huber
- Interval de încredere
- Interval de prognoză
- Kriging (un algoritm liniar de estimare a celor mai mici pătrate)
- Regresie robustă
- Regresie segmentată
- Statistici
- Estimarea tendinței
Software
Toate pachetele statistice majore efectuează tipuri comune de analiză de regresie corect și ușor. Regresia liniară simplă se poate face în unele foi de calcul . Există o serie de programe care realizează forme specializate de regresie, iar experții pot alege să scrie propriul cod pentru a utiliza limbaje de programare statistică sau software pentru analiza numerică .
Alte proiecte
- Wikimedia Commons conține imagini sau alte fișiere despre analiza regresiei
linkuri externe
- ( EN ) Regression Analysis / Regression Analysis (altă versiune) , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.
- ( RO ) IUPAC Gold Book, „analiza regresiei” , pe goldbook.iupac.org .
- Exegeze on Linear Models - Unele comentarii despre modelele de regresie liniară de Bill Venables.
Controlul autorității | Tezaur BNCF 16050 · LCCN (EN) sh85112392 · GND (DE) 4129903-6 · BNF (FR) cb119445648 (data) · NDL (EN, JA) 00.564.579 |
---|