Grafic de împrăștiere

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Timp de așteptare între erupții și durata erupției Old Geither Faithful din Parcul Național Yellowstone , Wyoming , SUA. Graficul sugerează două tipuri de erupții: așteptare scurtă și durată scurtă și așteptare lungă și durată lungă.

Diagrama de dispersie sau scatter sau diagramă de dispersie sau diagramă de dispersie este un tip de grafic în care două variabile ale unui set de date sunt reprezentate pe un spațiu cartezian .

Datele sunt afișate printr-o colecție de puncte fiecare cu o poziție pe axa orizontală determinată de o variabilă și pe axa verticală determinată de cealaltă.

Prezentare generală

Un grafic scatter este adesea folosit atunci când una dintre variabile este sub controlul experimentatorului. Un parametru care este incrementat și / sau decrementat sistematic se numește parametru de control sau variabilă independentă și este plasat în mod arbitrar pe axa orizontală. Variabila măsurată (sau dependentă) este plasată în mod arbitrar pe axa verticală. Dacă nu există variabile dependente, fiecare variabilă poate fi pusă pe orice axă. Graficul de dispersie poate fi util pentru a vizualiza gradul de corelație (adică dependența liniară) dintre cele două variabile. Un grafic scatter poate sugera diferite tipuri de corelație între variabile cu un anumit interval de încredere. Corelațiile pot fi pozitive, negative sau zero.

Dacă modelul de puncte din diagramă cade de la stânga sus la dreapta jos, sugerează o corelație negativă. O linie de tendință (sau o linie de tendință) poate fi trasată pentru a studia corelația dintre variabilele luate în considerare. Pentru o corelație liniară, cea mai bună procedură (cea mai potrivită) este regresia liniară (regresie liniară) și asigură generarea unei soluții corecte într-un timp finit. Din păcate, nu există o procedură universală care să garanteze generarea unei soluții corecte pentru relațiile arbitrare.

Un grafic scatter este, de asemenea, foarte util atunci când vrem să vedem cât de strâns se potrivesc două seturi de date comparabile; în acest caz, o linie de identitate, cum ar fi o linie x = y sau o linie 1: 1 este deseori trasată ca referință. cu cât seturile de date se potrivesc mai mult, cu atât punctele tind să se concentreze exact pe linia de identitate. Unul dintre cele mai interesante aspecte ale graficului scatter este totuși capacitatea de a arăta relații neliniare între variabile. Mai mult, dacă datele sunt reprezentate de un model mixt de relații simple, ele pot fi făcute vizibile ca modele suprapuse. Graficul de dispersie este unul dintre instrumentele de bază pentru controlul calității.

Exemplu de utilizare

Datoria publică în funcție de șomaj.
Grafic de împrăștiere 3D pe aceleași date, am adăugat axa „căutare”

Un posibil exemplu de utilizare a graficului dispers este analiza tendinței următoarelor două variabile: datoria publică și rata șomajului dintr-o țară. Având două variabile, este necesar să decidem pe care să o reprezentăm pe axa abscisei (boi) și pe care pe axa ordonată (y). Nu există o soluție corectă sau greșită, de obicei cea mai importantă variabilă se află pe axa y, deci dacă ar fi necesar să se arate cât variază datoria publică în raport cu șomajul, o vom plasa pe axa x, viceversa punând șomajul pe axa y va fi evidențiat modul în care variază în raport cu datoria publică.

De asemenea, este posibil să adăugați informații prin diferențierea punctelor graficului de împrăștiere după culoare; De exemplu, ați putea colora punctele în funcție de țara pe care o reprezintă pentru a avea un grafic scatter care include mai multe țări; sau variați culorile în funcție de perioadă pentru a vă face o idee despre modul în care datoria și șomajul unei țări au variat în anumite perioade. Un grafic de împrăștiere poate fi, de asemenea, în 3D, în acest caz adăugând o axă cu o altă caracteristică (în exemplul cercetare și dezvoltare sau fonduri alocate cercetării într-o țară, în cercetare și dezvoltare italiană). Exemplul de mai jos arată nu numai că șomajul unei țări este legat de datoria publică, dar că și cercetarea și dezvoltarea sunt influențate și de datoria publică. Într-o diagramă de dispersie 3D, este posibil, dintr-o privire, să aveți informații despre trei caracteristici diferite ale datelor analizate, în acest caz atrăgând imediat atenția asupra faptului că Italia a avut o datorie publică ridicată, șomaj variabil și cercetări foarte scurte în perioada de timp considerată (98-07).

Alte proiecte

linkuri externe