Eșantionare în cluster

Eșantionarea în cluster este un tip de eșantionare statistică (sau probabilistică ) care, comparativ cu proiectarea eșantionării, nu implică extragerea de unități unice din populația de referință, ci de grupuri , adică aglomerări de unități statistice. Exemple de clustere sunt: familiile, clasele școlare, departamentele de lucru sau camerele spitalului. Toate unitățile care alcătuiesc clusterul extras devin parte a eșantionului. Dacă din fiecare grup de extracte devin parte a eșantionului doar un anumit număr de unități, efectuați eșantionarea în două etape în care, în prima etapă se efectuează extracția clusterelor „în întregime”, în timp ce în a doua etapă, elementarul unitățile sunt extrase din grupurile menționate anterior.

Cel mai mare avantaj care poate fi obținut din eșantionarea clusterelor este atunci când fiecare cluster din interiorul său nu este omogen, adică unitățile care alcătuiesc clusterul diferă între ele pentru o modalitate detectată pe aceeași caracteristică. Abia atunci eșantionarea de mai sus oferă estimări mai eficiente decât eșantionarea simplă aleatorie. Cu alte cuvinte, acest tip de eșantionare oferă estimări mai eficiente dacă și numai dacă fiecare cluster exprimă mai multă variabilitate decât poate fi exprimată cu un eșantion extras din aceeași populație printr-o extracție simplă aleatorie. Cu toate acestea, în mod normal, grupurile care sunt utilizate pentru anchetele statistice sunt compuse din unități omogene și, prin urmare, se produc estimări mai puțin eficiente decât eșantionarea simplă. În ciuda acestui fapt, acest tip de eșantionare este adesea utilizat datorită ușurinței organizării și costului redus, atât din punct de vedere economic, cât și în ceea ce privește viteza de colectare, prelucrare și diseminare a datelor. Acest lucru este valabil din punct de vedere strict teoretic, întrucât din punct de vedere practic există diferite moduri de a evalua eficiența unui plan de eșantionare cluster în comparație cu unul simplu aleator, cum ar fi, de exemplu, analiza descompunerii varianța, coeficientul de omogenitate și Deff (efectul proiectării eșantionării).

Coeficientul de omogenitate în ciorchini

Coeficientul de omogenitate din clustere permite măsurarea gradului de omogenitate din clustere. Prin urmare, afectează eficiența estimărilor de eșantionare.

Să presupunem că efectuăm o eșantionare a clusterului în care toate clusterele sunt compuse din același număr de unități, considerăm o extracție fără repetare.

Fie N numărul de clustere care formează populația, n numărul de clustere care formează eșantionul și fie M numărul de unități elementare ale unui cluster. Să presupunem că dorim să detectăm un caracter cantitativ Y , să fie Y _ij valoarea lui Y detectată pe unitatea j-th a cluster-ului i. Fie Y _i suma tuturor valorilor măsurate pe unitățile grupului i.

Estimatorul corect al totalului caracterului este

{\ displaystyle Y_ {GR} = {N \ over {n}} \ sum _ {i = 1} ^ {n} Y_ {i}}

. Varianța acestui estimator și, prin urmare, eficiența estimării sale depind de coeficientul de omogenitate din clustere

\delta

{\ displaystyle \ delta}

\ delta

. este

S^{2}

{\ displaystyle S ^ {2}}

S ^ {2}

varianța unităților elementare din populație e

S_{W}^{2}

{\ displaystyle S_ {W} ^ {2}}

{\ displaystyle S_ {W} ^ {2}}

varianța în clustere, apoi:

$\delta =1-{S_{W}^{2} \over {S^{2}}}$ ${\ displaystyle \ delta = 1- {S_ {W} ^ {2} \ over {S ^ {2}}}}$ ${\ displaystyle \ delta = 1- {S_ {W} ^ {2} \ over {S ^ {2}}}}$ unde este $S_{W}^{2}={1 \over {NM-N}}\sum _{i,j}\left(Y_{ij}-{Y_{i} \over {M}}\right)^{2}$ ${\ displaystyle S_ {W} ^ {2} = {1 \ over {NM-N}} \ sum _ {i, j} \ left (Y_ {ij} - {Y_ {i} \ over {M}} \ dreapta) ^ {2}}$ ${\ displaystyle S_ {W} ^ {2} = {1 \ over {NM-N}} \ sum _ {i, j} \ left (Y_ {ij} - {Y_ {i} \ over {M}} \ dreapta) ^ {2}}$ și $S^{2}={1 \over {NM-1}}\sum _{i,j}\left(Y_{ij}-{Y \over {nM}}\right)^{2}$ ${\ displaystyle S ^ {2} = {1 \ over {NM-1}} \ sum _ {i, j} \ left (Y_ {ij} - {Y \ over {nM}} \ right) ^ {2} }$ ${\ displaystyle S ^ {2} = {1 \ over {NM-1}} \ sum _ {i, j} \ left (Y_ {ij} - {Y \ over {nM}} \ right) ^ {2} }$ . Coeficientul variază între: $-{N-1 \over {NM-N}}\leq \delta \leq 1$ ${\ displaystyle - {N-1 \ over {NM-N}} \ leq \ delta \ leq 1}$ ${\ displaystyle - {N-1 \ over {NM-N}} \ leq \ delta \ leq 1}$ .

Varianța estimatorului $Y_{GR}$ ${\ displaystyle Y_ {GR}}$ ${\ displaystyle Y_ {GR}}$ este egal cu:

$V\left(Y_{GR}\right)=N^{2}{1-{n \over {N}} \over {n}}MS^{2}\left[1+{NM-N \over {N-1}}\delta \right]$ ${\ displaystyle V \ left (Y_ {GR} \ right) = N ^ {2} {1- {n \ over {N}} \ over {n}} MS ^ {2} \ left [1+ {NM- N \ over {N-1}} \ delta \ right]}$ ${\ displaystyle V \ left (Y_ {GR} \ right) = N ^ {2} {1- {n \ over {N}} \ over {n}} MS ^ {2} \ left [1+ {NM- N \ over {N-1}} \ delta \ right]}$ care este egală cu suma varianței estimatorului în eșantionare simplă (fără repetare) plus o mărime care depinde de coeficientul de omogenitate. De sine $\delta >0$ ${\ displaystyle \ delta> 0}$ $\ delta> 0$ atunci avem o creștere a varianței în ceea ce privește eșantionarea simplă; de sine $\delta =0$ ${\ displaystyle \ delta = 0}$ ${\ displaystyle \ delta = 0}$ atunci eșantionarea în grup și eșantionarea simplă au aceeași eficiență; $\delta <0$ ${\ displaystyle \ delta <0}$ ${\ displaystyle \ delta <0}$ atunci eșantionarea în grup reduce variația față de aleatoare simple și, prin urmare, este mai eficientă, acest lucru se întâmplă atunci când variabilitatea în cadrul clusterelor este mai mare decât variabilitatea în cadrul populației.

Elemente conexe

Eșantionarea statistică

linkuri externe

( EN ) Cluster Sampling , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.

Portalul de matematică

Portal de știință și tehnologie

V · D · M Concepte fundamentale de metrologie, statistici și metodologie de cercetare
Definiții de bază	Măsurarea Probabilitate Măsurarea fizică proprietate fizică Cantitatea Parametru statistice Populația adevărata valoare Exemplu de măsurare Precizie Precizia Repetabilitatea Reproductibilitatea Semnificația Toleranță Sensibilitate Rezoluție ( Lateral Rezoluție ) Homoskedasticity Heteroskedasticity statistice Ipoteză · Nul ipoteza · Apropierea · semnificativă figura · variabilă aleatoare · Normalizarea · Standardizare
Eroare de manipulare	Măsurarea incertitudinii de măsurare de eroare sistematică eroare statistică de eroare Sensibilitate eroare de rezultate fals negative fals pozitive absolută de eroare de eroare relativă Eroare de propagare Bias
Minimizarea erorilor	Analitică Calibrare Calibrare Calibrare Raport semnal / zgomot Comparație interlaboratorie Calitatea datelor anterioare
Prelevarea de probe	Spațiul de eșantionare Eșantionarea statistică Eșantionarea planului Eșantionarea motivată Eșantionarea la cota Eșantionarea aleatorie ( Eșantionarea sistematică Eșantionarea stratificată Eșantionarea în cluster Eșantionarea în mai multe etape ) Eșantionarea probabilistică
Parametrii de variație	Varianță · Covarianță · Deviație standard · Devianță · Interval dinamic · Coeficient de variație
Test	Testarea ipotezei ( Test parametric · Test non-parametric ) · Interval de încredere · valoarea p