Metoda celor mai mici pătrate

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Metoda celor mai mici pătrate (în engleză OLS : Ordinary Least Squares ) este o tehnică de optimizare (sau regresie) care permite găsirea unei funcții , reprezentată de o curbă optimă (sau curbă de regresie), care se apropie cât mai mult posibil de un set de date ( tipic punctele planului). În special, funcția găsită trebuie să fie cea care minimizează suma pătratelor distanțelor dintre datele observate și cele ale curbei care reprezintă funcția însăși. În acest caz, putem distinge parabola celor mai mici pătrate șilinia celor mai mici pătrate . Această metodă converge doar în cazul său limitativ la o interpolare , deci este de fapt necesar ca curba optimă să conțină toate punctele de date.

Cea mai frecventă utilizare este deducerea tendinței medii pe baza datelor experimentale pentru extrapolare în afara intervalului de măsurare. Alte probleme de optimizare, cum ar fi minimizarea energiei sau maximizarea entropiei , pot fi, de asemenea, reformulate într-o căutare a celor mai mici pătrate.

Estimatori OLS

Estimatorii OLS sunt: [1]

  • panta =
  • interceptare =

Recrutare OLS

Regresie liniară simplă

Ipotezele OLS sunt: [1]

, cu i = 1, ..., n
  • eroarea statistică nu are date condiționate , adică ;
  • sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
  • au momente sfert finite diferite de zero.

Regresie liniară multiplă

Ipotezele OLS sunt: [1]

, cu i = 1, ..., n
  • eroarea statistică nu are nimic condiționat , adică ;
  • sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
  • au un moment sfert finit diferit de zero;
  • nu există o colinearitate perfectă.

Rețineți că ipoteza medie condițională a erorii nule implică faptul că:

,
  • eroarea nu este corelată cu regresorii, adică covarianța dintre eroare și regresori este zero:
.

Formularea problemei

Lasa-i sa fie cu punctele reprezentând datele de intrare. Vrei să găsești o funcție astfel încât să aproximeze succesiunea punctelor de date. Acest lucru poate fi determinat prin minimizarea distanței (euclidiene) dintre cele două secvențe Și , aceasta este cantitatea S:

de unde și denumirea de „cele mai mici pătrate”.

În cazuri practice, în general f ( x ) este parametric: în acest fel problema se reduce la determinarea parametrilor care minimizează distanța punctelor de la curbă. Bineînțeles, pentru a obține o singură curbă optimizată și nu o grindă, este necesar un număr de puncte experimentale mai mare decât numărul de parametri de care depinde curba (problema se numește, în general, supradeterminată ). În general, o distribuție reglementată de relații determinate analitic este așteptată din datele experimentale; de aceea este util să se parametrizeze curba teoretică și să se determine parametrii în așa fel încât să se minimizeze S.

Exemple

Funcția de interpolare dorită este o linie dreaptă, parametrii sunt doi a și b : pentru a fi determinat univoc, sunt necesare cel puțin două puncte pentru a interpola.

În acest caz, este posibil să scrieți în mod explicit valorile parametrilor a și b .

Luați în considerare că aveți N perechi . Atunci coeficienții sunt:

Funcția de interpolare dorită este o putere și are un singur parametru; spre deosebire de exemplul anterior, funcția nu este liniară în raport cu parametrii.

Rezolvarea carcasei liniare

Pictogramă lupă mgx2.svg Același subiect în detaliu: regresia liniară .
Utilizarea OLS liniară pentru a centra o linie într-un număr mare de observații oferă de obicei rezultate mai bune decât luarea a doar două puncte prin care este trasată linia.

Fie f ( x ) o funcție liniară în raport cu parametrii

unde p i sunt parametrii k , iar n este numărul de puncte cunoscute.

Puteți reorganiza situația prin sistemul liniar supradimensionat

unde este:

De la care:

Prin urmare, problema minimizării S duce la minimizarea normei reziduale

unde cu ne referim la a i- a componentă a vectorului produs între A și p .

Putem minimiza derivând față de fiecare p m și stabilind derivatele egale cu 0:

aceste ecuații sunt echivalente cu sistemul:

Prin urmare, vectorul p care minimizează S este soluția ecuației:

Această ultimă ecuație se numește ecuație normală . Dacă rangul lui A este complet atunci este inversabil și, prin urmare:

Matricea se numește pseudo-invers .

Caz neliniar

Pictogramă lupă mgx2.svg Același subiect în detaliu: Regresia neliniară .

În multe cazuri funcția nu este liniar, în aceste cazuri nu este posibil să se indice un anumit mod de a obține parametrii. În cazul tipic în care dimensiunea spațiului parametrilor este mai mare de 1, problema devine extrem de neliniară, este recomandabil să recurgeți la utilizarea unor programe de analiză numerică specifice care să minimizeze variabila .

Una dintre cele mai renumite biblioteci pentru această sarcină este MINUIT [2] , dezvoltat inițial la CERN din Fortran și acum integrat în cel mai recent cadru de analiză a datelor ROOT [3] . Alte biblioteci, cum ar fi Biblioteca Științifică Gnu [4], sunt de asemenea demne de remarcat pentru această sarcină.

Cele mai mici pătrate în două etape - 2SLS sau TSLS

Această metodă este utilizată atunci când metoda obișnuită a celor mai mici pătrate eșuează, deoarece estimarea obținută este legată de eroare. În acest caz, o regresie a variabilei care urmează să fie estimată se efectuează pe o variabilă instrumentală care este legată de variabila dependentă însăși, dar nu la sfârșitul erorii. Odată obținută această estimare, este utilizată pentru a rula o nouă regresie care nu ar trebui să dea probleme. Evident, cea mai mare problemă este găsirea unei variabile instrumentale cu caracteristicile potrivite.

Este de obicei utilizat cu variabile instrumentale .

Recrutare TSLS

Ipotezele OLS sunt: [1]

Notă

  1. ^ a b c d James Stock, Mark Watson, Introducere în econometrie , Milano, Pearson Education, 2005, p. 100, ISBN 978-88-7192-267-6 .
  2. ^ MINUIT Arhivat la 26 mai 2008 la Internet Archive .
  3. ^ Rădăcină
  4. ^ Biblioteca științifică Gnu

Elemente conexe

linkuri externe


Controlul autorității Thesaurus BNCF 38670 · NDL (EN, JA) 00.570.033
Matematica Portalul de matematică : accesați intrările Wikipedia care se ocupă de matematică