Variabilă (statistici)

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În statistici după variabilă (sau caracter [1] ), în general se înțelege un set de caracteristici găsite pe una sau mai multe unități statistice aparținând unei populații sau unui eșantion de referință ca rezultat al unui sondaj . Vorbim de variabile simple (al căror obiect este o singură caracteristică specifică) și de variabile multiple - duble, triple, etc. - (ale cărui obiecte au multiple caracteristici de referință). Exemple de personaje dintr-un eșantion de oameni sunt: ​​înălțimea, vârsta, culoarea ochilor, sexul, semnul zodiacal, credința religioasă etc.

Clasificare

Datele care pot fi obținute dintr-o anchetă statistică pot fi de altă natură; vorbim în special despre:

  • Variabile calitative (sau statistici modificabile ): exprimă o calitate, adică modalitățile sunt valori nenumerice (de exemplu: sex sau credință religioasă).
    • Un caracter calitativ este ordinal (sau ordonate sau orderable) , în cazul în care modalitățile posedă în mod natural un ordin , adică, ele pot fi aranjate de-a lungul scara [2] (de exemplu atributele „rele“, „rău“, „mediocru“, " bun "și" excelent "sau zilele săptămânii [3] ).
    • Un caracter calitativ este nominal (sau deconectat ) dacă modalitățile nu au o ordine naturală (de exemplu: boală sau culoarea ochilor).
  • Variabile cantitative (sau pur și simplu variabile ): exprimă o cantitate, adică modalitățile sunt valori numerice (de exemplu: înălțimea sau numărul de copii).
    • Variabile cantitative discrete : iau o cantitate finită sau numărabilă de valori, adică valorile posibile ale acestuia pot fi listate , adică pot fi indicate cu succesiunea (de exemplu: numărul copiilor, paginile unei cărți sau excursiile anuale).
    • Variabile cantitative continue : își asumă o cantitate incontabilă, dar continuă de valori, adică pot presupune toate valorile intermediare ale unui interval (de exemplu: greutate sau înălțime). [4]

Aceste două tipuri de variabile posedă în mod clar caracteristici diferite și multe proprietăți sau particularități valabile pentru una (adică pentru cele cantitative) nu se aplică celorlalte; în special, în ceea ce privește bogăția conținutului informațional - care derivă din tipul de relații care pot fi stabilite între valorile pe care variabilele le pot asuma - se poate stabili o ordine ierarhică în care, în general,

În cadrul acestor două categorii generale putem face în continuare distincții mai specifice pentru a distinge mai bine conținutul calitativ-informativ al caracterelor luate în considerare, astfel, printre variabilele calitative (sau statistice mutabile) pe care le avem:

  • Variabile calitative neconectate
  • Variabile calitative ordonate (sau ordonabile sau drepte)

În categoria caracterelor cantitative continue, este de asemenea posibil să se facă distincția între:

  • Variabile cantitative pentru scara intervalelor
  • Variabile cantitative după scala relațiilor .

O variabilă multiplă ale cărei variabile simple simple sunt toate de același tip se numește variabilă omogenă .

Aceste distincții sunt de o importanță considerabilă pentru interpretarea datelor furnizate de investigația unui anumit fenomen statistic și sunt deosebit de utile în stabilirea celor mai adecvați indici pentru sinteza lor, deoarece nu toate datele se pretează unor operațiuni de calcul particulare fără a le modifica. sens logic și statistic.

Clasificare alternativă

În 1946 psihologul Stanley Smith Stevens a propus o clasificare diferită a personajelor prin definirea unor scale "admisibile" diferite pentru modalitățile lor clasificate în funcție de proprietățile pe care le deține setul de valori ale unui personaj. Stevens a propus patru scale de măsurare :

  • o scară nominală are o relație de echivalență , adică permite să se determine dacă două modalități sunt aceleași sau diferite (de exemplu: credința religioasă);
  • o scară ordinală are o relație de ordine totală , adică modalitățile pot fi ordonate și se poate stabili dacă una este „mai mare”, egală sau „mai mică” decât alta (de exemplu: grad militar);
  • o scală de interval permite calcularea diferenței dintre două valori, deci și pentru a le ordona (de exemplu: anul după Hristos );
  • o scară proporțională vă permite să calculați proporția dintre două valori, deci și diferența lor [5] (de exemplu: înălțime).

Fiecare dintre aceste scale este un caz particular al celei anterioare; de obicei pentru un personaj se adoptă „cel mai bun posibil” dintre cele aplicabile.

De exemplu, temperatura măsurată în kelvini urmează o scară proporțională (relația dintre două temperaturi apare de exemplu în formula pentru eficiența termodinamică a unei mașini Carnot ). Dacă, în schimb, este măsurată în grade Celsius sau Fahrenheit , urmează o scală de intervale: proporționalitatea lipsește din cauza alegerii „arbitrare” a temperaturilor de 0 ° C și 0 ° F.

Pentru caracterele calitative nominale și ordinale se adoptă scara omonimă. Pe de altă parte, pentru caracterele cantitative nu există corespondență între cele două clasificări discrete / continue și interval / proporționale.

Clase

Modurile de caractere pot fi grupate în clase ; în cazul caracterelor cantitative clasele sunt adesea intervale de valori (acest lucru se întâmplă de obicei prin aproximarea măsurătorilor).

Fiecare caracter cantitativ continuu poate fi făcut discret printr-o alegere adecvată a intervalelor. De exemplu, vârsta exprimată în ani are clase de formă căruia îi corespund numerele naturale . Alegerea intervalelor este arbitrară, dar evident trebuie să „acopere” toate cazurile posibile fără suprapunere, adică trebuie să fie o partiție ; din acest motiv sunt deseori alese intervale ale formei sau , astfel încât valorile extreme să fie incluse într-un singur și un singur interval.

Reprezentări grafice

Reprezentările grafice ale frecvențelor observate pot fi alese în funcție de tipul de caracter luat în considerare.

De exemplu, pe o histogramă este posibil să se reprezinte valori în scară sau în intervale, deci poate conține mai multe informații despre o variabilă cantitativă decât o diagramă circulară .

Proprietate

La nivel formal, o variabilă statistică poate fi considerată ca o funcție care atribuie o anumită valoare informativă fiecărui mod particular de manifestare a unei caracteristici a caracterului în cauză. În general, valoarea asumată de o variabilă se numește modalitate , cu toate acestea, uneori, acest termen este preferat pentru a-l atribui numai variabilelor calitative și pentru a atribui numai valoarea termenului caracterelor cantitative.

Lasa-i sa fie un set generic de posibile moduri de manifestare a unui personaj , Și un set generic care atribuie o anumită valoare informativă elemente ale [6] , atunci veți avea:

cu sau care indică a i- a modalitate (sau valoare) asumată de personaj , cu Unde este cardinalitatea lui , de sine este un set finit sau, în general, numărul de manifestări luate în considerare de caracter (adică numărul de modalități) prin alegere dacă posibil a fost un set infinit .

Următoarele sunt proprietățile individuale legate de diferitele tipuri de variabile statistice:

Variabile calitative neconectate

Acest tip de variabilă conține cel mai elementar tip de date statistice, cu care este posibilă numai stabilirea unei relații de echivalență deoarece acest tip de caractere, din punct de vedere statistic, pot furniza doar acest tip de conținut informațional și nu ar avea nicio semnificație să stabilească orice alt tip de relație. Astfel, pentru acest tip de personaj, este în esență posibil să se stabilească doar „egalitatea” sau nu între diferitele metode detectate. Exemple de astfel de tipuri de variabile sunt caracterele: sexul, religia, culoarea părului etc. între diferitele modalități posibile (masculin sau feminin, islamic sau evreu sau creștin etc., blond sau maro sau roșu etc.) nu este posibil să se stabilească o ierarhie ordinală (nu are niciun fel de semnificație statistică pentru a spune că bărbatul < femelă sau blondă> maro etc., putem stabili doar masculin = masculin sau feminin ≠ masculin); aceste personaje, prin urmare, sunt cele cu cel mai slab conținut de informații. Singurul index central al tendințelor de date care are sens să se determine cu acest tip de variabilă este moda .

Variabile calitative ordonate

Conținutul informațional al acestor variabile este deja mai mare decât cel al variabilelor calitative deconectate și, printre variabilele calitative, acestea conțin, fără îndoială, cel mai larg conținut informațional. Pentru aceste caractere este posibil să se stabilească atât o relație de echivalență decât o relație de ordine . Prin urmare, aceste caractere pot fi ordonate în ordine crescătoare și descendentă și acest lucru este deosebit de avantajos în comparație cu caracterele calitative deconectate, deoarece cu ele, pe lângă modul sau norma, este posibil să se determine (aproximativ) și indici de poziție, cum ar fi cuantile , în în special mediana , precum și, într-o distribuție a frecvenței , așa-numitele frecvențe cumulative , utile pentru obținerea de informații mai calitative și cantitative din date. Exemple ale acestor variabile sunt caractere precum: calificarea educațională, gradul profesional, starea de sănătate etc., adică toate acele caracteristici care se manifestă calitativ, dar pentru care este posibil să se stabilească, pe lângă „egalitate” sau „diversitate” ", o ordine obiectivă între modalitățile pe care le poate lua (diplomă superioară <grad de trei ani, grad superior ≠ grad de trei ani).

Variabile cantitative continue

Acest tip de variabile statistice se referă la date care sunt obținute din procesele de măsurare , astfel încât scala de măsurare adoptată își asumă importanță pentru ele: intervale sau rapoarte. Se poate afirma confortabil că pentru acest tip de personaje, este o funcție:

dat fiind că acum modalitățile pot asuma valori numerice în câmpul real , fie ele pozitive sau negative. În mod firesc, acest tip de caractere are un conținut de informație mai mare decât variabilele calitative, deoarece cu ele este posibil să se extrapoleze mai multe informații sumare care, datorită naturii cantitative a caracterelor, pot fi obținute datorită cel puțin operațiilor de sumă algebrică , care poate fi întotdeauna efectuată fără a perturba semnificația statistică a ceea ce se obține ( relația algebrică își asumă un sens statistic numai pentru caracterele cantitative pe scară de raport). Cu aceste caractere este posibil să se determine toți indicii posibili de tendință centrală , indicii de variabilitate și indicii de formă și asimetrie .

Cele două tipuri de caractere cantitative sunt examinate pe baza scalei de măsurare adoptate:

După scala de gamă

În acest tip de variabile, odată stabilite o unitate de măsură și o origine a scalei de măsurare, orice interval între două valori ale scalei indică întotdeauna aceeași cantitate, adică există conservarea intervalelor ; în acest caz vorbim de o relație de egalitate , pe lângă relațiile de echivalență și ordine menționate anterior. Comparația dintre două valori ale aceluiași caracter detectate cu unități de măsură diferite și cu instrumente cu aceeași precizie, păstrează, de fapt, diferența lor neschimbată (ținând cont de diferențele dintre diferitele scale). Dacă măsurătorile ar fi întotdeauna efectuate cu aceleași condiții fizico-ambientale, raporturile ar rămâne neschimbate (cazul temperaturii se aplică tuturor: deoarece condițiile de presiune atmosferică variază, intervalul dintre punctul de îngheț al apei și unitățile relative de măsură bazate pe acest interval pierd din punct de vedere al semnificației absolute), deoarece totuși acest lucru nu poate avea loc întotdeauna, deoarece în aceste scale originea este convențională (și, prin urmare, ele pot asuma și valori negative: de aceea, în general, media geometrică pentru că acest tip de date nu pot fi calculate) și nu coincide cu zero fizic - adică o valoare sub care nu este posibil ca datele să apară -, în general, relația de relație.

După scara raportului

Deoarece aceste variabile au zero fizic (sau absolut) ca origine a scalei de măsurare, așa-numita relație de relație se aplică și acestor caractere, ceea ce indică statistic o condiție cu care are sens, din punct de vedere informativ, să operați și relații algebrice.între modurile variabilei. Prin urmare, este clar că aceste caractere sunt cele mai bogate din punct de vedere al conținutului informațional, deoarece este posibil să se efectueze operațiuni de sinteză și calcul întotdeauna și în orice caz.

Variabile cantitative discrete

Aceste variabile se referă la date care sunt obținute dintr-un proces de enumerare și, în termeni formali, la obiectivul stabilit este un set numeric discret aparținând familiei naturale ( ). Datele pe care le prezintă acest tip de variabilă sunt foarte controversate, de fapt, printr-o operație de codificare este posibil să se asocieze o valoare cantitativă discretă modalităților unei variabile cantitative, este de la sine înțeles că sensul informativ exprimat prin modalitățile acestei tipul de caracter poate să nu reprezinte de fapt nicio semnificație aritmetică, deoarece „intervalele” dintre valorile numerice obținute nu exprimă nicio diferență cantitativă definibilă cu claritate sau precizie, deoarece nu este primită prin instrumente de măsurare, ci prin evaluări și judecăți subiective. (un caz emblematic sunt judecățile exprimate în termeni de notă, cum ar fi la școală - de fapt, caracterul „notă” - în afară de datele cantitative - este în toate efectele o variabilă calitativă ordonată). Sau, numărul numeric prin care au fost obținute datele care reprezintă modalitățile caracterului poate descrie într-adevăr o caracteristică vagă, care nu poate fi definită clar (de exemplu: „numărul de mașini vândute”, „numărul de accidente rutiere”, „numărul de camere” într-un apartament "etc.), care nu permite o descriere mai bună a caracteristicilor intrinseci ale fenomenului în cauză, din acest motiv prelucrarea acestor date prin măsuri sumare trebuie efectuată cu multă prudență, deoarece, în multe cazuri, anumiți indici statistici nu au nici măcar o semnificație „materială” (gândiți-vă la o posibilă medie aritmetică a accidentelor rutiere, rezultatul care ar fi obținut ar fi deja un număr continuu și nu mai discret și ar avea puțin sens în termeni tangibili), prin urmare, utilizarea făcute din astfel de indici pentru acest tip de variabile trebuie considerate doar ca „descriptive” și nu ca „rezumate”.

Prin urmare, în rezumat, există:

Tipul de date Conținut informativ
Variabile calitative neconectate Relația de echivalență
Variabile calitative ordonate Relația de echivalență + Relația de ordine
Variabile cantitative continue în funcție de scara intervalului Relația de echivalență + Relația de ordine + Relația de egalitate
Variabile cantitative continue în funcție de scara raportului Relația de echivalență + Relația de ordine + Relația de egalitate + Relația de relație

Notă

  1. ^ Glosar Istat Arhivat la 31 decembrie 2011 la Internet Archive .
  2. ^ Adică, în ordine sau succesiune ordonată.
  3. ^ Printre cele șapte zile ale săptămânii, „prima” este convențional luni în Italia și duminică în Regatul Unit .
  4. ^ Această categorie include, de asemenea, caractere ale căror valori sunt discrete, dar pot fi determinate cu o precizie foarte mare și sunt „considerate” continue.
  5. ^ În ceea ce privește o valoare fixă ​​care este aleasă ca unitate de măsură.
  6. ^ Observați cum definiția formală este foarte asemănătoare cu cea a unei variabile aleatoare (sau aleatoare): de fapt este posibil să se considere o variabilă statistică ca fiind versiunea empirică a unei variabile aleatoare referitoare la un fenomen stochastic a cărui tendință experimentală este studiată.

Bibliografie

Elemente conexe

Statistici Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici