Metoda celor mai mici pătrate

Metoda celor mai mici pătrate (în engleză OLS : Ordinary Least Squares ) este o tehnică de optimizare (sau regresie) care permite găsirea unei funcții , reprezentată de o curbă optimă (sau curbă de regresie), care se apropie cât mai mult posibil de un set de date ( tipic punctele planului). În special, funcția găsită trebuie să fie cea care minimizează suma pătratelor distanțelor dintre datele observate și cele ale curbei care reprezintă funcția însăși. În acest caz, putem distinge parabola celor mai mici pătrate și linia celor mai mici pătrate . Această metodă converge doar în cazul său limitativ la o interpolare , deci este de fapt necesar ca curba optimă să conțină toate punctele de date.

Cea mai frecventă utilizare este deducerea tendinței medii pe baza datelor experimentale pentru extrapolare în afara intervalului de măsurare. Alte probleme de optimizare, cum ar fi minimizarea energiei sau maximizarea entropiei , pot fi, de asemenea, reformulate într-o căutare a celor mai mici pătrate.

Estimatori OLS

Estimatorii OLS sunt: ^[1]

panta = ${\hat {\beta _{1}}}={\frac {\sum _{i=1}^{n}(X_{i}-{\bar {X}})(Y_{i}-{\bar {Y}})}{\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}}={\frac {s_{XY}}{s_{X}^{2}}}$ ${\ displaystyle {\ hat {\ beta _ {1}}} = {\ frac {\ sum _ {i = 1} ^ {n} (X_ {i} - {\ bar {X}}) (Y_ {i } - {\ bar {Y}})} {\ sum _ {i = 1} ^ {n} (X_ {i} - {\ bar {X}}) ^ {2}}} = {\ frac {s_ {XY}} {s_ {X} ^ {2}}}}$ ${\ hat {\ beta _ {1}}} = {\ frac {\ sum _ {{i = 1}} ^ {{n}} (X_ {i} - {\ bar {X}}) (Y_ { i} - {\ bar {Y}})} {\ sum _ {{i = 1}} ^ {{n}} (X_ {i} - {\ bar {X}}) ^ {2}}} = {\ frac {s _ {{XY}}} {s_ {X} ^ {2}}}$
interceptare = ${\hat {\beta _{0}}}={\bar {Y}}-{\hat {\beta _{1}}}{\bar {X}}$ ${\ displaystyle {\ hat {\ beta _ {0}}} = {\ bar {Y}} - {\ hat {\ beta _ {1}}} {\ bar {X}}}$ ${\ hat {\ beta _ {0}}} = {\ bar {Y}} - {\ hat {\ beta _ {1}}} {\ bar {X}}$

Recrutare OLS

Regresie liniară simplă

Ipotezele OLS sunt: ^[1]

Y_{i}=\beta _{0}+\beta _{1}X_{i}+u_{i}

{\ displaystyle Y_ {i} = \ beta _ {0} + \ beta _ {1} X_ {i} + u_ {i}}

Y _ {{i}} = \ beta _ {{0}} + \ beta _ {{1}} X _ {{i}} + u _ {{i}}

, cu i = 1, ..., n

eroarea statistică $u_{i}$ ${\ displaystyle u_ {i}}$ $u_ {i}$ nu are date condiționate $X_{i}$ ${\ displaystyle X_ {i}}$ $X_i$ , adică $E(u_{i}|X_{i})=0$ ${\ displaystyle E (u_ {i} | X_ {i}) = 0}$ $Și (u_ {i} | X_ {i}) = 0$ ;
$(X_{i},Y_{i}),i=1,\dots ,n$ ${\ displaystyle (X_ {i}, Y_ {i}), i = 1, \ dots, n}$ $(X_ {i}, Y_ {i}), i = 1, \ dots, n$ sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
$(X_{i},Y_{i})$ ${\ displaystyle (X_ {i}, Y_ {i})}$ ${\ displaystyle (X_ {i}, Y_ {i})}$ au momente sfert finite diferite de zero.

Regresie liniară multiplă

Ipotezele OLS sunt: ^[1]

Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+\cdots +\beta _{k}X_{ki}+u_{i}

{\ displaystyle Y_ {i} = \ beta _ {0} + \ beta _ {1} X_ {1i} + \ beta _ {2} X_ {2i} + \ cdots + \ beta _ {k} X_ {ki} + u_ {i}}

Y _ {{i}} = \ beta _ {{0}} + \ beta _ {{1}} X _ {{1i}} + \ beta _ {{2}} X _ {{2i}} + \ cdots + \ beta _ {{k}} X _ {{ki}} + u _ {{i}}

, cu i = 1, ..., n

eroarea statistică $u_{i}$ ${\ displaystyle u_ {i}}$ $u_ {i}$ nu are nimic condiționat $X_{1i},X_{2i},\cdots ,X_{ki}$ ${\ displaystyle X_ {1i}, X_ {2i}, \ cdots, X_ {ki}}$ $X _ {{1i}}, X _ {{2i}}, \ cdots, X _ {{ki}}$ , adică $E(u_{i}|X_{1i},X_{2i},\cdots ,X_{ki})=0$ ${\ displaystyle E (u_ {i} | X_ {1i}, X_ {2i}, \ cdots, X_ {ki}) = 0}$ $E (u_ {i} | X _ {{1i}}, X _ {{2i}}, \ cdots, X _ {{ki}}) = 0$ ;
$(X_{1i},X_{2i},\cdots ,X_{ki},Y_{i}),i=1,\dots ,n$ ${\ displaystyle (X_ {1i}, X_ {2i}, \ cdots, X_ {ki}, Y_ {i}), i = 1, \ dots, n}$ $(X _ {{1i}}, X _ {{2i}}, \ cdots, X _ {{ki}}, Y_ {i}), i = 1, \ dots, n$ sunt extrase independent și distribuite identic (iid) din distribuția lor comună;
$(X_{1i},\cdots ,X_{ki},u_{i})$ ${\ displaystyle (X_ {1i}, \ cdots, X_ {ki}, u_ {i})}$ $(X _ {{1i}}, \ cdots, X _ {{ki}}, u_ {i})$ au un moment sfert finit diferit de zero;
nu există o colinearitate perfectă.

Rețineți că ipoteza medie condițională a erorii nule implică faptul că:

chiar și media necondiționată este nulă. Din legea așteptărilor iterate rezultă de fapt:

E(u_{i})=E(E(u_{i}|\mathbf {X} ))=E(0)=0

{\ displaystyle E (u_ {i}) = E (E (u_ {i} | \ mathbf {X})) = E (0) = 0}

E (u_ {i}) = E (E (u_ {i} | {\ mathbf {X}})) = E (0) = 0

,

eroarea nu este corelată cu regresorii, adică covarianța dintre eroare și regresori este zero:

Cov(u_{i},\mathbf {X} )=E((u_{i}-E(u_{i}))(\mathbf {X} -E(\mathbf {X} )))=E(u_{i}\mathbf {X} )=E_{\mathbf {X} }(E(u_{i}\mathbf {X} )|\mathbf {X} )=E_{\mathbf {X} }(E(u_{i}|\mathbf {X} )\mathbf {X} )=E_{\mathbf {X} }(0\cdot \mathbf {X} )=0

{\ displaystyle Cov (u_ {i}, \ mathbf {X}) = E ((u_ {i} -E (u_ {i})) (\ mathbf {X} -E (\ mathbf {X}))) = E (u_ {i} \ mathbf {X}) = E _ {\ mathbf {X}} (E (u_ {i} \ mathbf {X}) | \ mathbf {X}) = E _ {\ mathbf { X}} (E (u_ {i} | \ mathbf {X}) \ mathbf {X}) = E _ {\ mathbf {X}} (0 \ cdot \ mathbf {X}) = 0}

Cov (u_ {i}, {\ mathbf {X}}) = E ((u_ {i} -E (u_ {i})) ({\ mathbf {X}} - E ({\ mathbf {X}} ))) = E (u_ {i} {\ mathbf {X}}) = E _ {{{\ mathbf {X}}}} (E (u_ {i} {\ mathbf {X}}) | {\ mathbf {X}}) = E _ {{{\ mathbf {X}}}} (E (u_ {i} | {\ mathbf {X}}) {\ mathbf {X}}) = E _ {{{ \ mathbf {X}}}} (0 \ cdot {\ mathbf {X}}) = 0

.

Formularea problemei

Lasa-i sa fie $(x_{i},y_{i})$ ${\ displaystyle (x_ {i}, y_ {i})}$ $(x_i, y_i)$ cu $i=1,2,\dots ,n$ ${\ displaystyle i = 1,2, \ dots, n}$ $i = 1,2, \ dots, n$ punctele reprezentând datele de intrare. Vrei să găsești o funcție $f$ ${\ displaystyle f}$ $f$ astfel încât să aproximeze succesiunea punctelor de date. Acest lucru poate fi determinat prin minimizarea distanței (euclidiene) dintre cele două secvențe $y_{i}$ ${\ displaystyle y_ {i}}$ $y_ {i}$ Și $f(x_{i})$ ${\ displaystyle f (x_ {i})}$ $f (x_ {i})$ , aceasta este cantitatea S:

S=\sum _{i=1}^{n}\left(y_{i}-f(x_{i})\right)^{2},

{\ displaystyle S = \ sum _ {i = 1} ^ {n} \ left (y_ {i} -f (x_ {i}) \ right) ^ {2},}

S = \ sum _ {{i = 1}} ^ {n} \ left (y_ {i} -f (x_ {i}) \ right) ^ {2},

de unde și denumirea de „cele mai mici pătrate”.

În cazuri practice, în general f ( x ) este parametric: în acest fel problema se reduce la determinarea parametrilor care minimizează distanța punctelor de la curbă. Bineînțeles, pentru a obține o singură curbă optimizată și nu o grindă, este necesar un număr de puncte experimentale mai mare decât numărul de parametri de care depinde curba (problema se numește, în general, supradeterminată ). În general, o distribuție reglementată de relații determinate analitic este așteptată din datele experimentale; de aceea este util să se parametrizeze curba teoretică și să se determine parametrii în așa fel încât să se minimizeze S.

Exemple

$y=bx+a$ ${\ displaystyle y = bx + a}$ $y = bx + a$

Funcția de interpolare dorită este o linie dreaptă, parametrii sunt doi a și b : pentru a fi determinat univoc, sunt necesare cel puțin două puncte pentru a interpola.

În acest caz, este posibil să scrieți în mod explicit valorile parametrilor a și b .

Luați în considerare că aveți N perechi $(x_{i},y_{i})$ ${\ displaystyle (x_ {i}, y_ {i})}$ $(x_i, y_i)$ . Atunci coeficienții sunt:

b={\frac {N\sum (x_{i}y_{i})-\sum x_{i}\sum y_{i}}{N\sum (x_{i}^{2})-(\sum x_{i})^{2}}}

{\ displaystyle b = {\ frac {N \ sum (x_ {i} y_ {i}) - \ sum x_ {i} \ sum y_ {i}} {N \ sum (x_ {i} ^ {2}) - (\ sum x_ {i}) ^ {2}}}}

b = {\ frac {N \ sum (x_ {i} y_ {i}) - \ sum x_ {i} \ sum y_ {i}} {N \ sum (x_ {i} ^ {2}) - (\ suma x_ {i}) ^ {2}}}

a={\frac {\sum y_{i}\sum (x_{i}^{2})-\sum (x_{i})\sum (x_{i}y_{i})}{N\sum (x_{i}^{2})-(\sum x_{i})^{2}}}

{\ displaystyle a = {\ frac {\ sum y_ {i} \ sum (x_ {i} ^ {2}) - \ sum (x_ {i}) \ sum (x_ {i} y_ {i})} { N \ sum (x_ {i} ^ {2}) - (\ sum x_ {i}) ^ {2}}}}

a = {\ frac {\ sum y_ {i} \ sum (x_ {i} ^ {2}) - \ sum (x_ {i}) \ sum (x_ {i} y_ {i})} {N \ sum (x_ {i} ^ {2}) - (\ sum x_ {i}) ^ {2}}}

$f(x)=x^{a}$ ${\ displaystyle f (x) = x ^ {a}}$ $f (x) = x ^ {a}$

Funcția de interpolare dorită este o putere și are un singur parametru; spre deosebire de exemplul anterior, funcția nu este liniară în raport cu parametrii.

Rezolvarea carcasei liniare

Același subiect în detaliu: regresia liniară .

Utilizarea OLS liniară pentru a centra o linie într-un număr mare de observații oferă de obicei rezultate mai bune decât luarea a doar două puncte prin care este trasată linia.

Fie f ( x ) o funcție liniară în raport cu parametrii

f(x)=p_{1}f_{1}(x)+p_{2}f_{2}(x)+\dots +p_{k}f_{k}(x)

{\ displaystyle f (x) = p_ {1} f_ {1} (x) + p_ {2} f_ {2} (x) + \ dots + p_ {k} f_ {k} (x)}

f (x) = p_ {1} f_ {1} (x) + p_ {2} f_ {2} (x) + \ dots + p_ {k} f_ {k} (x)

unde p _i sunt parametrii k , $k\ll n$ ${\ displaystyle k \ ll n}$ $k \ ll n$ iar n este numărul de puncte cunoscute.

Puteți reorganiza situația prin sistemul liniar supradimensionat

Ap\approx y

{\ displaystyle Ap \ approx y}

Ap \ approx y

unde este:

A={\begin{bmatrix}f_{1}(x_{1})&\dots &f_{k}(x_{1})\\\vdots &&\vdots \\f_{1}(x_{n})&\dots &f_{k}(x_{n})\end{bmatrix}},p={\begin{bmatrix}p_{1}\\\vdots \\p_{k}\end{bmatrix}},y={\begin{bmatrix}y_{1}\\\vdots \\y_{n}\end{bmatrix}}.

{\ displaystyle A = {\ begin {bmatrix} f_ {1} (x_ {1}) & \ dots & f_ {k} (x_ {1}) \\\ vdots && \ vdots \\ f_ {1} (x_ {n}) & \ dots & f_ {k} (x_ {n}) \ end {bmatrix}}, p = {\ begin {bmatrix} p_ {1} \\\ vdots \\ p_ {k} \ end { bmatrix}}, y = {\ begin {bmatrix} y_ {1} \\\ vdots \\ y_ {n} \ end {bmatrix}}.}

A = {\ begin {bmatrix} f_ {1} (x_ {1}) & \ dots & f_ {k} (x_ {1}) \\\ vdots && \ vdots \\ f_ {1} (x_ {n} ) & \ dots & f_ {k} (x_ {n}) \ end {bmatrix}}, p = {\ begin {bmatrix} p_ {1} \\\ vdots \\ p_ {k} \ end {bmatrix}} , y = {\ begin {bmatrix} y_ {1} \\\ vdots \\ y_ {n} \ end {bmatrix}}.

De la care: $p_{1}f_{1}(x_{i})+p_{2}f_{2}(x_{i})+\dots +p_{k}f_{k}(x_{i})\approx y_{i}$ ${\ displaystyle p_ {1} f_ {1} (x_ {i}) + p_ {2} f_ {2} (x_ {i}) + \ dots + p_ {k} f_ {k} (x_ {i}) \ approx y_ {i}}$ $p_ {1} f_ {1} (x_ {i}) + p_ {2} f_ {2} (x_ {i}) + \ dots + p_ {k} f_ {k} (x_ {i}) \ approx y_ {the}$

Prin urmare, problema minimizării S duce la minimizarea normei reziduale

\|r\|=\|Ap-y\|,\|r\|^{2}=\|Ap-y\|^{2}=([Ap]_{1}-y_{1})^{2}+\dots +([Ap]_{n}-y_{n})^{2}=\sum _{i=1}^{n}(f(x_{i})-y_{i})^{2}=S

{\ displaystyle \ | r \ | = \ | Ap-y \ |, \ | r \ | ^ {2} = \ | Ap-y \ | ^ {2} = ([Ap] _ {1} -y_ { 1}) ^ {2} + \ dots + ([Ap] _ {n} -y_ {n}) ^ {2} = \ sum _ {i = 1} ^ {n} (f (x_ {i}) -y_ {i}) ^ {2} = S}

{\ displaystyle \ | r \ | = \ | Ap-y \ |, \ | r \ | ^ {2} = \ | Ap-y \ | ^ {2} = ([Ap] _ {1} -y_ { 1}) ^ {2} + \ dots + ([Ap] _ {n} -y_ {n}) ^ {2} = \ sum _ {i = 1} ^ {n} (f (x_ {i}) -y_ {i}) ^ {2} = S}

unde cu $[Ap]_{i}$ ${\ displaystyle [Ap] _ {i}}$ $[Ap] _ {i}$ ne referim la a i- a componentă a vectorului produs între A și p .

Putem minimiza $\|r\|$ ${\ displaystyle \ | r \ |}$ $\ | r \ |$ derivând $\|r\|^{2}$ ${\ displaystyle \ | r \ | ^ {2}}$ $\ | r \ | ^ {2}$ față de fiecare p _m și stabilind derivatele egale cu 0:

{\frac {d\|r\|^{2}}{dp_{m}}}=\sum _{i=1}^{n}2\left(\sum _{j=1}^{k}a_{ij}p_{j}-y_{i}\right)a_{im}=0

{\ displaystyle {\ frac {d \ | r \ | ^ {2}} {dp_ {m}}} = \ sum _ {i = 1} ^ {n} 2 \ left (\ sum _ {j = 1} ^ {k} a_ {ij} p_ {j} -y_ {i} \ right) a_ {im} = 0}

{\ frac {d \ | r \ | ^ {2}} {dp_ {m}}} = \ sum _ {{i = 1}} ^ {n} 2 \ left (\ sum _ {{j = 1} } ^ {k} a _ {{ij}} p_ {j} -y_ {i} \ right) a _ {{im}} = 0

aceste ecuații sunt echivalente cu sistemul:

(Ap-y)^{T}A=0

{\ displaystyle (Ap-y) ^ {T} A = 0}

(Ap-y) ^ {T} A = 0

Prin urmare, vectorul p care minimizează S este soluția ecuației:

A^{T}Ap=A^{T}y

{\ displaystyle A ^ {T} Ap = A ^ {T} y}

A ^ {T} Ap = A ^ {T} y

Această ultimă ecuație se numește ecuație normală . Dacă rangul lui A este complet atunci $A^{T}A$ ${\ displaystyle A ^ {T} A}$ $A ^ {T} A$ este inversabil și, prin urmare:

p=(A^{T}A)^{-1}A^{T}y

{\ displaystyle p = (A ^ {T} A) ^ {- 1} A ^ {T} y}

p = (A ^ {T} A) ^ {{- 1}} A ^ {T} y

Matricea $(A^{T}A)^{-1}A^{T}$ ${\ displaystyle (A ^ {T} A) ^ {- 1} A ^ {T}}$ $(A ^ {T} A) ^ {{- 1}} A ^ {T}$ se numește pseudo-invers .

Caz neliniar

Același subiect în detaliu: Regresia neliniară .

În multe cazuri funcția $y=f(x;{\vec {a}})$ ${\ displaystyle y = f (x; {\ vec {a}})}$ $y = f (x; {\ vec a})$ nu este liniar, în aceste cazuri nu este posibil să se indice un anumit mod de a obține parametrii. În cazul tipic în care dimensiunea spațiului parametrilor este mai mare de 1, problema devine extrem de neliniară, este recomandabil să recurgeți la utilizarea unor programe de analiză numerică specifice care să minimizeze variabila $\chi ^{2}$ ${\ displaystyle \ chi ^ {2}}$ $\ cine ^ {2}$ .

Una dintre cele mai renumite biblioteci pentru această sarcină este MINUIT ^[2] , dezvoltat inițial la CERN din Fortran și acum integrat în cel mai recent cadru de analiză a datelor ROOT ^[3] . Alte biblioteci, cum ar fi Biblioteca Științifică Gnu ^[4], sunt de asemenea demne de remarcat pentru această sarcină.

Cele mai mici pătrate în două etape - 2SLS sau TSLS

Această metodă este utilizată atunci când metoda obișnuită a celor mai mici pătrate eșuează, deoarece estimarea obținută este legată de eroare. În acest caz, o regresie a variabilei care urmează să fie estimată se efectuează pe o variabilă instrumentală care este legată de variabila dependentă însăși, dar nu la sfârșitul erorii. Odată obținută această estimare, este utilizată pentru a rula o nouă regresie care nu ar trebui să dea probleme. Evident, cea mai mare problemă este găsirea unei variabile instrumentale cu caracteristicile potrivite.

Este de obicei utilizat cu variabile instrumentale .

Recrutare TSLS

Ipotezele OLS sunt: ^[1]

eroarea statistică $u_{i}$ ${\ displaystyle u_ {i}}$ $u_ {i}$ are zero medii condiționate : $E(u_{i}|W_{1i},\cdots ,W_{ri})=0$ ${\ displaystyle E (u_ {i} | W_ {1i}, \ cdots, W_ {ri}) = 0}$ $E (u_ {i} | W _ {{1i}}, \ cdots, W _ {{ri}}) = 0$ ;
$(X_{1i},\cdots ,X_{ki},W_{1i},\cdots ,W_{ri},Z_{1i},\cdots ,Z_{mi},Y_{i})$ ${\ displaystyle (X_ {1i}, \ cdots, X_ {ki}, W_ {1i}, \ cdots, W_ {ri}, Z_ {1i}, \ cdots, Z_ {mi}, Y_ {i})}$ $(X _ {{1i}}, \ cdots, X _ {{ki}}, W _ {{1i}}, \ cdots, W _ {{ri}}, Z _ {{1i}}, \ cdots, Z _ {{mi}}, Y_ {i})$ sunt identificate (iid) extrase și distribuite independent din distribuția lor comună;
X-urile, W-urile și Z-urile au al patrulea moment finit diferit de zero;
nu există o colinearitate perfectă;
se aplică condițiile de valabilitate a instrumentelor .

Notă

^ ^a ^b ^c ^d James Stock, Mark Watson, Introducere în econometrie , Milano, Pearson Education, 2005, p. 100, ISBN 978-88-7192-267-6 .
^ MINUIT Arhivat la 26 mai 2008 la Internet Archive .
^ Rădăcină
^ Biblioteca științifică Gnu

Elemente conexe

linkuri externe

http://www.physics.csbsju.edu/stats/least_squares.html
levmar , în C / C ++ , cu interfețe MATLAB , Perl și Python . Licență: GPL
lmfit Arhivat 26 noiembrie 2013 la Internet Archive . implementarea algoritmului Levenberg și Marquardt pentru utilizare în C și C ++
Zunzun.com - Curba online și montarea suprafeței
http://www.orbitals.com/self/least/least.htm

Controlul autorității	Thesaurus BNCF 38670 · NDL (EN, JA) 00.570.033

Portalul de matematică : accesați intrările Wikipedia care se ocupă de matematică

[stock-1] James Stock, Mark Watson, Introducere în econometrie , Milano, Pearson Education, 2005, p. 100, ISBN 978-88-7192-267-6 .

[2] MINUIT Arhivat la 26 mai 2008 la Internet Archive .

[3] Rădăcină

[4] Biblioteca științifică Gnu

[1]

[2]

[3]

[4],