Descompunerea devianței

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Descompunerea devianței este o operație utilizată în statistici pentru a calcula, printre altele, coeficientul de determinare și statistica testului ANOVA . Având în vedere o variabilă numerică suma deviațiilor pătrate de la media eșantionului se numește devianță ; această cantitate poate fi împărțită într-o parte „explicată” de una sau mai multe variabile și o parte „reziduală”; suma acestor două părți este constantă și corespunde devianței totale.

Devianță între și în cadrul grupurilor

Patru grafice ale unei variabile numerice y distincte între două grupuri. În exemplele din stânga, deviația dintre grupuri este în mod clar mai mare decât cea din cadrul grupurilor, deoarece valorile lui y sunt bine distinse între diferite grupuri. În exemplele din dreapta, se întâmplă opusul.

Cand ai grupuri distincte de observații fiecare ale unei variabile numerice , devianța generală a ignorând distincția dintre grupuri și poate fi împărțit în două cantități SSW (devianță în cadrul grupurilor, în engleză Sum of Squares Within ) și SSB (devianță între grupuri, în engleză Sum of Squares Between ):

  • media eșantionului de în grupa a j-a este indicat ca ;
  • devianța de în cadrul grupului j-th este indicat ca ;
  • media eșantionului general al indicăm cum , și devianța totală a indicăm cum ;
  • ;
  • ;
  • .

Abaterea dintre grupuri va fi mai mare decât cea din cadrul grupurilor atunci când valorile de sunt bine distinse între diferite grupuri și vor fi în schimb scăzute atunci când mediile locale seamănă. În cazul extrem în care sunt la fel, . Această descompunere poate fi utilizată pentru a crea coeficientul , care indică proporția devianței totale a care apare din eterogenitatea grupurilor pe care se observă variabila [1] . În virtutea relației dintre devianță și varianță , prin introducerea numitorilor acestora în ecuațiile de mai sus, obținem descompunerea varianței , care are avantajul de a urmări cantitățile empirice de mai sus la proprietățile variabilei aleatorii și permite efectuarea testelor ipotezelor care merg sub numele de ANOVA ( ANalisys Of VAriance ).

Devianță explicată și reziduală

În aceste două exemple de regresie liniară simplă, deviația explicată este aceeași, în timp ce devianța reziduală este diferită, deci și valoarea pătrată R variază

Când aveți două variabile numerice Și , relația dintre cele două variabile poate fi analizată cu un model liniar simplu , în acest fel, pentru a măsura asocierea dintre cele două variabile, devianța totală a (variabila utilizată ca rezultat în modelul liniar) în devianța reziduală SSR și explicată SSM ( Suma pătratelor modelului ):

  • este indicat cu valoarea a furnizat de model;
  • ;
  • .

Relația dintre SSM și devianța totală a SST dă naștere coeficientului de determinare , care este și pătratul coeficientului de corelație Pearson . După cum se poate vedea din ecuații, este cu atât mai mare cu cât valorile sunt apropiate de cele prezise de model, în timp ce acesta scade atunci când modelul prezice valori care sunt foarte apropiate unele de altele în scara .

În mod clar, această metodă este ușor extinsă la un număr mai mare de variabile folosind o regresie multivariată, în acest caz coeficientul își pierde valoarea indexului de asociere între variabile și se transformă pentru a indica capacitatea modelului liniar de a determina cu precizie valoarea fiecăruia observată sau, cu alte cuvinte, capacitatea modelului de a „explica” cu precizie variabilitatea ; pe de altă parte, deviația (și varianța respectivă) a este definită ca "reziduală" că modelul nu reușește să explice prin intermediul predictorilor .

Putem verifica cu ușurință că, în cazul unei singure variabile explicative categoric, grupurile definite de categoriile acelei variabile dau naștere ecuațiilor Și , prin urmare .

Notă

  1. ^ Amalia Caputo, Relația dintre o variabilă categorică și un cardinal , pe www.federica.unina.it . Adus pe 9 decembrie 2019 .