Suprapunere
Acest articol sau secțiune despre subiectul statisticilor nu menționează sursele necesare sau cei prezenți sunt insuficienți . |
În statistică și informatică , aceasta se numește supradaptare (în italiană : adaptare excesivă, adaptare excesivă ) atunci când un model statistic foarte complex se potrivește cu datele observate ( eșantionul ), deoarece are prea mulți parametri decât numărul de observații.
Un model absurd și greșit se poate potrivi perfect dacă este suficient de complex pentru cantitatea de date disponibilă.
Suprapunerea este susținută ca o încălcare a principiului aparatului de ras al lui Occam .
Învățarea automată și extragerea datelor
Conceptul de overfitting este, de asemenea, foarte important în învățarea automată și în extragerea datelor . De obicei, un algoritm de învățare este instruit folosind un anumit set de exemple ( setul de antrenament ), de exemplu situații tipice în care rezultatul care urmează să fie prezis este deja cunoscut ( ieșire ). Se presupune că algoritmul de învățare ( cursantul ) va ajunge la o stare în care va fi capabil să prezică rezultatele pentru toate celelalte exemple pe care nu le-a văzut încă, adică se presupune că modelul de învățare va fi capabil să generalizeze . Cu toate acestea, mai ales în cazurile în care învățarea s-a făcut prea mult timp sau în care a existat un număr mic de exemple de instruire, modelul se poate adapta la caracteristici care sunt specifice doar setului de instruire, dar care nu sunt reflectate în restul. cazuri; prin urmare, în prezența supradaptării , performanța (adică capacitatea de adaptare / prezicere) la datele de antrenament va crește, în timp ce performanța la datele nevăzute va fi mai slabă.
Contramăsuri
Atât în statistici, cât și în procesul de învățare automată , pentru a preveni și a evita supra-dotarea, este necesar să se implementeze măsuri tehnice speciale, cum ar fi validarea încrucișată și oprirea timpurie , care indică momentul în care instruirea ulterioară nu ar duce la o mai bună generalizare.
În procesul de învățare a tratamentului , supraevaluarea este evitată folosind cea mai bună și minimă valoare de sprijin.