Suprapunere

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
O serie de date aproximativ liniară (dar afectată de zgomot), care poate fi aproximată atât printr-o funcție liniară, cât și printr-o interpolare polinomială . Deși cea polinomială se potrivește perfect cu datele, este de așteptat ca versiunea liniară să reprezinte o generalizare mai bună: prin urmare, într-o extrapolare în afara datelor cunoscute funcția liniară ar oferi predicții mai bune.
Curba albastră arată tendința erorii la clasificarea datelor de antrenament , în timp ce curba roșie arată eroarea la clasificarea datelor de testare sau de validare . O situație în care a doua crește, în timp ce prima scade, este un indiciu al prezenței posibile a unui caz de supraalimentare .

În statistică și informatică , aceasta se numește supradaptare (în italiană : adaptare excesivă, adaptare excesivă ) atunci când un model statistic foarte complex se potrivește cu datele observate ( eșantionul ), deoarece are prea mulți parametri decât numărul de observații.

Un model absurd și greșit se poate potrivi perfect dacă este suficient de complex pentru cantitatea de date disponibilă.

Suprapunerea este susținută ca o încălcare a principiului aparatului de ras al lui Occam .

Învățarea automată și extragerea datelor

Conceptul de overfitting este, de asemenea, foarte important în învățarea automată și în extragerea datelor . De obicei, un algoritm de învățare este instruit folosind un anumit set de exemple ( setul de antrenament ), de exemplu situații tipice în care rezultatul care urmează să fie prezis este deja cunoscut ( ieșire ). Se presupune că algoritmul de învățare ( cursantul ) va ajunge la o stare în care va fi capabil să prezică rezultatele pentru toate celelalte exemple pe care nu le-a văzut încă, adică se presupune că modelul de învățare va fi capabil să generalizeze . Cu toate acestea, mai ales în cazurile în care învățarea s-a făcut prea mult timp sau în care a existat un număr mic de exemple de instruire, modelul se poate adapta la caracteristici care sunt specifice doar setului de instruire, dar care nu sunt reflectate în restul. cazuri; prin urmare, în prezența supradaptării , performanța (adică capacitatea de adaptare / prezicere) la datele de antrenament va crește, în timp ce performanța la datele nevăzute va fi mai slabă.

Contramăsuri

Atât în ​​statistici, cât și în procesul de învățare automată , pentru a preveni și a evita supra-dotarea, este necesar să se implementeze măsuri tehnice speciale, cum ar fi validarea încrucișată și oprirea timpurie , care indică momentul în care instruirea ulterioară nu ar duce la o mai bună generalizare.

În procesul de învățare a tratamentului , supraevaluarea este evitată folosind cea mai bună și minimă valoare de sprijin.