Regularizare (matematică)

În matematică și statistică , în special în domeniile învățării automate și a problemelor inverse , regularizarea implică introducerea de informații suplimentare pentru a rezolva o problemă necondiționată sau pentru a preveni supraadaptarea . Astfel de informații sunt, de obicei, sub forma unei penalități pentru complexitate, cum ar fi o restricție asupra unei funcții netede sau o restricție asupra normei unui spațiu vectorial .

O justificare teoretică pentru regularizare este că aceasta constituie o încercare de a impune briciul lui Occam asupra soluției. Din punct de vedere bayesian , multe tehnici de regularizare corespund impunerii anumitor distribuții de probabilitate a priori ale parametrilor modelului.

Aceeași idee apare în multe domenii ale științei . De exemplu, metoda celor mai mici pătrate poate fi văzută ca o formă foarte simplă de regularizare. O formă simplă de regularizare aplicată ecuațiilor integrale , numită în general regularizare Tihonov după Andrei Nikolayevich Tihonov , constă în esență într-un echilibru între regresia datelor și o normă dependentă de soluție. Mai recent, acestea au devenit metode populare de regularizare neliniară, inclusiv regularizarea variației totale (regularizarea variației totale).

Regularizarea în statistici

În statistici și învățarea automată , regularizarea este utilizată pentru a preveni supraadaptarea . Exemple tipice de regularizare în învățarea statistică a mașinilor sunt regularizarea Tikhonov , așa-numita metodă LASSO cu cele mai mici pătrate ( Least Absolute Shrinkage and Selection Operator ) și norma L ² în mașinile vectoriale de sprijin .

Metodele de regularizare sunt, de asemenea, utilizate pentru selectarea modelelor, unde funcționarea lor se bazează pe penalizarea implicită sau explicită a numărului de parametri ai modelului. De exemplu, metodele de învățare bayesiene folosesc probabilitatea a priori care (de obicei) oferă o valoare mai mică a probabilității modelelor mai complexe. Printre tehnicile bine cunoscute de selecție se numără criteriul informațional al lui Akaike (criteriul informației Akaike, AIC), lungimea descrierii minime (lungimea descrierii minime, MDL) și criteriul informației bayesiene (criteriul informației bayesiene, BIC). Printre metodele alternative de control al supraadaptării , care implică regularizare, se numără validarea încrucișată .

Exemple de diferite metode de regularizare aplicate modelului liniar sunt:

Șablon	Măsurarea ajustării	Măsurarea entropiei
AIC / BIC	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{0}$ ${\ displaystyle \ \| \ beta \ \| _ {0}}$ ${\ displaystyle \ \| \ beta \ \| _ {0}}$
Regresia crestei	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{2}$ ${\ displaystyle \ \| \ beta \ \| _ {2}}$ ${\ displaystyle \ \| \ beta \ \| _ {2}}$
Metoda LASSO ^[1]	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$
Bazarea urmăririi denoising	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\lambda \\|\beta \\|_{1}$ ${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$
RLAD ^[2]	$\\|Y-X\beta \\|_{1}$ ${\ displaystyle \ \| YX \ beta \ \| _ {1}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {1}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$
Selector Dantzig ^[3]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$ ${\ displaystyle \ \| X ^ {\ top} (YX \ beta) \ \| _ {\ infty}}$ ${\ displaystyle \ \| X ^ {\ top} (Y-X \ beta) \ \| _ {\ infty}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$

Notă

^ Robert Tibshirani, Regression Shrinkage and Selection via the Lasso ( ps ), în Jurnalul Societății Regale de Statistică , Seria B (Metodologie) , vol. 58, nr. 1, 1996, pp. 267-288, MR 1379242 . Adus 19.03.2009 .
^ Li Wang, Michael D. Gordon și Ji Zhu, Regresia regulată a deviațiilor minime absolute și un algoritm eficient pentru reglarea parametrilor , în cea de-a șasea conferință internațională privind data mining , decembrie 2006, pp. 690–700, DOI : 10.1109 / ICDM.2006.134 .
^ Emmanuel Candes , Tao, Terence , Selectorul Dantzig: estimare statistică atunci când p este mult mai mare decât n , în Annals of Statistics , vol. 35, nr. 6, 2007, pp. 2313-2351, DOI : 10.1214 / 009053606000001523 , MR 2382644 , arXiv : math / 0506081 .

Referințe

(EN) Arnold Neumaier, Rezolvarea sistemelor liniare necondiționate și singulare: Un tutorial despre regularizare , SIAM Review 40 (1998), 636-666, de pe site-ul autorului .

linkuri externe

( EN ) Regularizare , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.

Portal IT

Portalul de matematică

Portalul de statistici

[1] Robert Tibshirani, Regression Shrinkage and Selection via the Lasso ( ps ), în Jurnalul Societății Regale de Statistică , Seria B (Metodologie) , vol. 58, nr. 1, 1996, pp. 267-288, MR 1379242 . Adus 19.03.2009 .

[2] Li Wang, Michael D. Gordon și Ji Zhu, Regresia regulată a deviațiilor minime absolute și un algoritm eficient pentru reglarea parametrilor , în cea de-a șasea conferință internațională privind data mining , decembrie 2006, pp. 690–700, DOI : 10.1109 / ICDM.2006.134 .

[3] Emmanuel Candes , Tao, Terence , Selectorul Dantzig: estimare statistică atunci când p este mult mai mare decât n , în Annals of Statistics , vol. 35, nr. 6, 2007, pp. 2313-2351, DOI : 10.1214 / 009053606000001523 , MR 2382644 , arXiv : math / 0506081 .

[1]

[2]

[3]

Șablon	Măsurarea ajustării	Măsurarea entropiei
AIC / BIC	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{0}$ ${\ displaystyle \ \| \ beta \ \| _ {0}}$ ${\ displaystyle \ \| \ beta \ \| _ {0}}$
Regresia crestei	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{2}$ ${\ displaystyle \ \| \ beta \ \| _ {2}}$ ${\ displaystyle \ \| \ beta \ \| _ {2}}$
Metoda LASSO ^[1]	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$
Bazarea urmăririi denoising	$\\|Y-X\beta \\|_{2}$ ${\ displaystyle \ \| YX \ beta \ \| _ {2}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {2}}$	$\lambda \\|\beta \\|_{1}$ ${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$
RLAD ^[2]	$\\|Y-X\beta \\|_{1}$ ${\ displaystyle \ \| YX \ beta \ \| _ {1}}$ ${\ displaystyle \ \| Y-X \ beta \ \| _ {1}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$
Selector Dantzig ^[3]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$ ${\ displaystyle \ \| X ^ {\ top} (YX \ beta) \ \| _ {\ infty}}$ ${\ displaystyle \ \| X ^ {\ top} (Y-X \ beta) \ \| _ {\ infty}}$	$\\|\beta \\|_{1}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$ ${\ displaystyle \ \| \ beta \ \| _ {1}}$

V · D · M Învățare automată
Probleme	Clasificarea · Regresie · asociere Reguli · Învățare nesupravegheați · Supravegheat de învățare · Reinforcement Learning · învățare profundă
Învățare nesupravegheată	Clustering · clustering Ierarhica · K mijloace · Așteptarea maximizare · DBSCAN · schimbare medie · antagonist generativă rețea (CGAN · cycleGAN VAE-GAN)
Învățare supravegheată	Arborele decizional · Pădure aleatorie · CRF · HMM · KNN · Clasificator bayesian · Rețea neuronală artificială · Regresie liniară · Regresie logistică · PGM · SVM
Consolidarea învățării	Q-learning · SARSA · TD
Reducerea dimensiunii	Analiza factorilor · CCA · ICA · LDA · PCA · Selectați caracteristici · Extracție caracteristici · t-SNE
Rețele neuronale artificiale	Perceptron · RBF · N · FFN · Rețea Hopfield · MLP · RNN ( LSTM ) · RBM · SOM · CNN · TDNN · SNN
Software	Keras · Microsoft Cognitive Toolkit · scikit-learn · TensorFlow · Theano · Torch · Weka
Alte	Algoritm genetic · PSO · Caracteristică