Metoda celor mai mici pătrate
Metoda celor mai mici pătrate (în engleză OLS : Ordinary Least Squares ) este o tehnică de optimizare (sau regresie) care permite găsirea unei funcții , reprezentată de o curbă optimă (sau curbă de regresie), care se apropie cât mai mult posibil de un set de date ( tipic punctele planului). În special, funcția găsită trebuie să fie cea care minimizează suma pătratelor distanțelor dintre datele observate și cele ale curbei care reprezintă funcția însăși. În acest caz, putem distinge parabola celor mai mici pătrate șilinia celor mai mici pătrate . Această metodă converge doar în cazul său limitativ la o interpolare , deci este de fapt necesar ca curba optimă să conțină toate punctele de date.
Cea mai frecventă utilizare este deducerea tendinței medii pe baza datelor experimentale pentru extrapolare în afara intervalului de măsurare. Alte probleme de optimizare, cum ar fi minimizarea energiei sau maximizarea entropiei , pot fi, de asemenea, reformulate într-o căutare a celor mai mici pătrate.
Estimatori OLS
Estimatorii OLS sunt: [1]
- panta =
- interceptare =
Recrutare OLS
Acest articol sau secțiune despre subiectul statisticilor este considerat a fi verificat . |
Regresie liniară simplă
Ipotezele OLS sunt: [1]
- , cu i = 1, ..., n
- eroarea statistică nu are date condiționate , adică ;
- sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
- au momente sfert finite diferite de zero.
Regresie liniară multiplă
Ipotezele OLS sunt: [1]
- , cu i = 1, ..., n
- eroarea statistică nu are nimic condiționat , adică ;
- sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
- au un moment sfert finit diferit de zero;
- nu există o colinearitate perfectă.
Rețineți că ipoteza medie condițională a erorii nule implică faptul că:
- chiar și media necondiționată este nulă. Din legea așteptărilor iterate rezultă de fapt:
- ,
- eroarea nu este corelată cu regresorii, adică covarianța dintre eroare și regresori este zero:
- .
Formularea problemei
Lasa-i sa fie cu punctele reprezentând datele de intrare. Vrei să găsești o funcție astfel încât să aproximeze succesiunea punctelor de date. Acest lucru poate fi determinat prin minimizarea distanței (euclidiene) dintre cele două secvențe Și , aceasta este cantitatea S:
de unde și denumirea de „cele mai mici pătrate”.
În cazuri practice, în general f ( x ) este parametric: în acest fel problema se reduce la determinarea parametrilor care minimizează distanța punctelor de la curbă. Bineînțeles, pentru a obține o singură curbă optimizată și nu o grindă, este necesar un număr de puncte experimentale mai mare decât numărul de parametri de care depinde curba (problema se numește, în general, supradeterminată ). În general, o distribuție reglementată de relații determinate analitic este așteptată din datele experimentale; de aceea este util să se parametrizeze curba teoretică și să se determine parametrii în așa fel încât să se minimizeze S.
Exemple
Funcția de interpolare dorită este o linie dreaptă, parametrii sunt doi a și b : pentru a fi determinat univoc, sunt necesare cel puțin două puncte pentru a interpola.
În acest caz, este posibil să scrieți în mod explicit valorile parametrilor a și b .
Luați în considerare că aveți N perechi . Atunci coeficienții sunt:
Funcția de interpolare dorită este o putere și are un singur parametru; spre deosebire de exemplul anterior, funcția nu este liniară în raport cu parametrii.
Rezolvarea carcasei liniare
Fie f ( x ) o funcție liniară în raport cu parametrii
unde p i sunt parametrii k , iar n este numărul de puncte cunoscute.
Puteți reorganiza situația prin sistemul liniar supradimensionat
unde este:
De la care:
Prin urmare, problema minimizării S duce la minimizarea normei reziduale
unde cu ne referim la a i- a componentă a vectorului produs între A și p .
Putem minimiza derivând față de fiecare p m și stabilind derivatele egale cu 0:
aceste ecuații sunt echivalente cu sistemul:
Prin urmare, vectorul p care minimizează S este soluția ecuației:
Această ultimă ecuație se numește ecuație normală . Dacă rangul lui A este complet atunci este inversabil și, prin urmare:
Matricea se numește pseudo-invers .
Caz neliniar
În multe cazuri funcția nu este liniar, în aceste cazuri nu este posibil să se indice un anumit mod de a obține parametrii. În cazul tipic în care dimensiunea spațiului parametrilor este mai mare de 1, problema devine extrem de neliniară, este recomandabil să recurgeți la utilizarea unor programe de analiză numerică specifice care să minimizeze variabila .
Una dintre cele mai renumite biblioteci pentru această sarcină este MINUIT [2] , dezvoltat inițial la CERN din Fortran și acum integrat în cel mai recent cadru de analiză a datelor ROOT [3] . Alte biblioteci, cum ar fi Biblioteca Științifică Gnu [4], sunt de asemenea demne de remarcat pentru această sarcină.
Cele mai mici pătrate în două etape - 2SLS sau TSLS
Această metodă este utilizată atunci când metoda obișnuită a celor mai mici pătrate eșuează, deoarece estimarea obținută este legată de eroare. În acest caz, o regresie a variabilei care urmează să fie estimată se efectuează pe o variabilă instrumentală care este legată de variabila dependentă însăși, dar nu la sfârșitul erorii. Odată obținută această estimare, este utilizată pentru a rula o nouă regresie care nu ar trebui să dea probleme. Evident, cea mai mare problemă este găsirea unei variabile instrumentale cu caracteristicile potrivite.
Este de obicei utilizat cu variabile instrumentale .
Recrutare TSLS
Ipotezele OLS sunt: [1]
- eroarea statistică are zero medii condiționate : ;
- sunt identificate (iid) extrase și distribuite independent din distribuția lor comună;
- X-urile, W-urile și Z-urile au al patrulea moment finit diferit de zero;
- nu există o colinearitate perfectă;
- se aplică condițiile de valabilitate a instrumentelor .
Notă
- ^ a b c d James Stock, Mark Watson, Introducere în econometrie , Milano, Pearson Education, 2005, p. 100, ISBN 978-88-7192-267-6 .
- ^ MINUIT Arhivat la 26 mai 2008 la Internet Archive .
- ^ Rădăcină
- ^ Biblioteca științifică Gnu
Elemente conexe
linkuri externe
- http://www.physics.csbsju.edu/stats/least_squares.html
- levmar , în C / C ++ , cu interfețe MATLAB , Perl și Python . Licență: GPL
- lmfit Arhivat 26 noiembrie 2013 la Internet Archive . implementarea algoritmului Levenberg și Marquardt pentru utilizare în C și C ++
- Zunzun.com - Curba online și montarea suprafeței
- http://www.orbitals.com/self/least/least.htm
Controlul autorității | Thesaurus BNCF 38670 · NDL (EN, JA) 00.570.033 |
---|