Analiza seriilor istorice

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

1leftarrow blue.svg Element principal: Serii cronologice .

Notă despre dezambiguizare.svg Dezambiguizare - „Tendință” se referă aici. Dacă sunteți în căutarea rotogravurii TV a lui La5, consultați Trend (emisiune TV) .

Analiza seriilor de timp grupează o serie de metode statistice care vizează investigarea unei serii de timp, determinarea procesului care stă la baza acesteia și realizarea de previziuni. Conform abordării tradiționale, se presupune că procesul are o parte deterministă, care permite să fie împărțit în componente tendențiale, ciclice și / sau sezoniere și că diferența dintre datele teoretice ale modelului determinist și datele observate este atribuibil unei componente aleatorii reziduale. Conform abordării moderne, totuși, se presupune că procesul descris a fost generat de un proces stocastic care poate fi descris prin intermediul unui model probabilistic de tip parametric.

Obiective

Analiza unei serii temporale poate avea mai multe obiective:

  • descrie pe scurt tendința în timp a unui fenomen; graficul unei serii, în special, evidențiază cu ușurință atât eventualele regularități, cât și valorile anormale;
  • explica fenomenul, identificând mecanismul său generator și orice relații cu alte fenomene;
  • filtrează seria; prin aceasta înțelegem descompunerea seriei în sine în componentele sale neobservabile;
  • prezice tendința viitoare a fenomenului.

Operațiuni preliminare

Înainte de orice analiză, datele brute sunt examinate și se fac adesea unele ajustări pentru a purifica datele de discontinuități sau efectele diferitelor durate ale intervalelor sau perioadelor de timp considerate sau pentru a lua în considerare valorile anormale.

Discontinuitate

Câteva exemple de discontinuități sunt modificările de bază în seria istorică a numerelor indexului sau prezența unor valori diferite pentru variabilele economice (prețuri curente sau constante, criterii diferite de deflație etc.).

În astfel de cazuri, dacă discontinuitatea nu poate fi eliminată, poate fi preferabil să se limiteze analiza la date omogene.

Efecte de calendar

Durata diferită a perioadelor afectează valorile observate în aceleași perioade din ani diferiți, producând variații care nu pot fi atribuite tendinței fenomenului; de exemplu, în seriile lunare de date de producție, variațiile datelor brute depind parțial doar de numărul de zile lucrătoare din diferitele luni. Aceste perturbații pot fi eliminate în diferite moduri:

  • agregarea datelor pe perioade mai lungi, de exemplu prin trecerea de la serii lunare la serii trimestriale sau semestriale;
  • trecerea la datele zilnice medii, adică înlocuirea datelor lunare brute cu raportul dintre valoarea observată și numărul de zile relevante din luna la care se referă valoarea; indicând cu y m valoarea observată în luna m și cu N m numărul de zile relevante (de exemplu, numărul de zile lucrătoare) din luna luată în considerare:
  • aplicarea coeficienților corecți, de exemplu prin înlocuirea valorii lunare y m cu o valoare „ajustată” y AG m , egală cu produsul valorii brute prin raportul dintre media lunară a zilelor relevante de-a lungul anului și numărul de zile în luna la care se referă valoarea:

Valori aberante

Putem distinge două categorii de valori aberante (numite și valori aberante ):

  • există o schimbare bruscă a seriei la un moment dat, după care, însă, seria însăși revine imediat (așa-numitul outlier aditiv) sau treptat (așa-numita schimbare temporară ) la tendința anterioară;
  • există o variație accentuată care persistă în timp, provocând o schimbare a nivelului sau a aceleiași tendințe a seriei (de exemplu, PIB - ul Germaniei a crescut la nivel după reunificarea din 1990 ).

În primul caz este de preferat să ignori valoarea anormală, eventual înlocuind-o cu o medie imediată a valorilor imediat precedente și ulterioare, în al doilea este de preferat să rupi seria și să analizezi datele înainte și după variație separat.

Exemple de valori aberante

Corelogramă

Pictogramă lupă mgx2.svg Același subiect în detaliu: Corelogramă .

Este adesea folosit pentru a vizualiza corelograma seriei, pentru a identifica posibila prevalență a unei tendințe, a componentei sezoniere sau stocastice.

Abordare traditionala

În general, se presupune că datele seriilor temporale referitoare la un fenomen Y sunt generate de un proces precum:

unde f ( t ) generează o secvență complet deterministă ( partea sistematică a seriei) și { u t } este o secvență de variabile aleatorii care respectă o anumită lege a probabilității ( partea stocastică a seriei).

În abordarea tradițională se presupune că există o „lege” a evoluției temporale a fenomenului, reprezentată de f ( t ), și că reziduurile (diferențele dintre valorile teoretice și cele observate) se datorează întâmplării și, prin urmare, pot fi asimilat erorilor accidentale. Reziduurile sunt în mod normal indicate cu ε t și înțelese ca variabile aleatoare independente , distribuite identic, cu medie zero și varianță constantă (în abordarea modernă, totuși, se presupune că partea sistematică lipsește sau a fost deja eliminată, prin intermediul estimări sau alte modele și se studiază componenta stocastică u t ).

Mai mult, se crede că partea sistematică este rezultatul a trei componente care nu sunt direct observabile:

  • tendința (sau componenta de tendință ) este tendința de bază a fenomenului considerat, adesea exprimată prin intermediul unei funcții polinomiale de grad nu prea ridicat;
  • ciclul (sau componenta economică ) este alternanța fluctuațiilor de semne diferite în jurul tendinței (vezi și ciclul economic );
  • sezonalitatea (sau componenta sezonieră ) este alcătuită din variații care apar cu intensitate similară în aceleași perioade de la an la an, dar cu intensitate diferită pe parcursul aceluiași an (de exemplu, producția scade în fiecare an vara după închiderea pentru sărbătorile multor companii, dar crește în fiecare an în preajma Crăciunului datorită consumului mai mare).

Componenta accidentală este dată de reziduurile ε t . De exemplu, dacă aveți date trimestriale, dacă estimați că datele sunt produse de o tendință de creștere liniară, cum ar fi: [1]

dacă se identifică o componentă sezonieră care determină o creștere în al doilea și al patrulea trimestru și o scădere în primul și al treilea trimestru:

(unde Q i sunt variabile care iau valoarea 1 în trimestrul I -lea și 0 în celelalte), diferențele dintre valorile observate t y și valorile estimate sunt:

Exemplu de serii temporale și defalcarea acesteia în componente de tendință, sezoniere și accidentale

Modele combinate de componente

Unele modele tradiționale tipice sunt:

  • model aditiv : ;
  • model multiplicativ : ;
  • model mixt : ;

unde T t este valoarea tendinței la momentul t , C t este valoarea ciclului, S t cea a sezonalității și ε t componenta accidentală.

Modelul multiplicativ poate fi făcut aditiv folosind logaritmi:

;

Ciclul are o periodicitate de mai mulți ani. Din acest motiv, în analizele pe termen scurt / mediu (numite conjuncturale), tendința și componenta ciclică sunt adesea considerate ca un întreg și există modele de tipul:

unde TC t este o componentă numită „trend-cycle”.

Tendință liniară sau liniarizabilă în parametri

Se spune că o tendință polinomială de tip este liniară în parametrii :

deoarece parametrii de estimat, α 0 ... α p , sunt toți de gradul I.

Spune în schimb liniarizabil în parametrii unui tip de tendință:

potrivit pentru a reprezenta fenomene care cresc ( α 1 > 0) sau scad ( α 1 <0) în funcție de o progresie geometrică și care pot fi liniarizate după cum urmează:

În cazul datelor lunare sau trimestriale, componenta sezonieră poate fi luată în considerare, așa cum sa menționat deja mai sus, prin intermediul așa-numitele dummy variabile (variabile fictive). În cazul datelor lunare, se utilizează 12 variabile M i care valorează 1 în a i -a lună și 0 în celelalte; în cazul datelor trimestriale, 4 variabile Q i sunt utilizate , care sunt în valoare de 1 în trimestrul I - lea și 0 în celelalte. De exemplu, un model liniar aditiv cu componentă sezonieră pentru datele trimestriale arată astfel:

unde este:

  • α reprezintă interceptarea cu axa ordonată;
  • β reprezintă creșterea absolută a lui Y t pentru fiecare unitate de timp;
  • γ 1 ... γ 4 sunt parametrii variabilelor fictive.

Dacă se crede că se poate presupune o tendință liniară sau liniarizabilă, parametrii pot fi ușor estimate prin regresie liniară . Trebuie să folosiți câteva trucuri numai dacă utilizați variabile inexact. Acestea introduc de fapt multicoliniarități în date și, prin urmare, nu este posibil să se estimeze împreună interceptarea α și parametrii variabilelor fictive ( γ i ). [2] Prin urmare, este utilizat pentru a estima numai parametrii variabilelor inexact sau doar interceptarea și trei dintre parametrii variabilelor inexact; de exemplu, presupunem modelul:

Odată ce a fost obținută estimarea parametrilor asteriscați, întreaga serie de parametri este urmărită cu o transformare simplă bazată pe egalități:

  • (interceptarea obținută „încorporează” variabila nestimată);
  • (dacă se calculează o nouă interceptare, mai mică decât cea obținută, graficul „scade”; diferența trebuie, prin urmare, adăugată parametrilor variabilelor fictive pentru a „ridica” graficul);
  • (efectele sezoniere se compensează reciproc).

De la ei obținem:

care permite calcularea parametrilor α , γ 1 , γ 2 , γ 3 și γ 4 pe baza lui α * , γ * 1 , γ * 2 , γ * 3 .

Evaluarea modelului și predicțiile

În general, este obișnuit să se evalueze adaptarea modelului la datele observate utilizând coeficientul de determinare R 2 . Cu toate acestea, creșterea gradului polinomului de interpolare îmbunătățește potrivirea, dar devine mai dificilă interpretarea parametrilor, numărul cărora crește odată cu gradul.

Se utilizează apoi un coeficient „ corect ”:

unde n este numărul de observații și p numărul de parametri (inclusiv interceptarea) și a căror valoare crește dacă R 2 crește, dar scade dacă p crește.

Apare și corelograma reziduurilor, care trebuie să oscileze într-o bandă îngustă.

Dacă potrivirea este bună, modelul poate fi folosit pentru predicții. De exemplu, dacă aveți 80 de sondaje trimestriale din T1 1989 până în T4 2008, dacă aveți o potrivire bună pentru estimare:

  • prognoza pentru primul trimestru al anului 2009 este: 200 + 1,5 × 81-4 × Q 1 = 200 + 121,5-4 = 317,5 ( Q 2 = Q 3 = Q 4 = 0 pentru primul trimestru);
  • prognoza pentru al doilea trimestru al anului 2009 este: 200 + 1,5 × 82 + 4 × Q 2 = 200 + 123 + 4 = 327 ( Q 1 = Q 3 = Q 4 = 0 pentru al doilea trimestru).

Tendința nu este liniarizabilă în parametri

Dacă fenomenul observat prezintă o fază de creștere urmată de o decelerare progresivă, putem face ipoteze tendințe precum următoarele:

  • curba exponențială modificată : ;
  • curba logistică : ;
  • Curba Gompertz : ;

care au o asimptotă orizontală deoarece tind spre α când t tinde spre infinit.

În astfel de cazuri ( dinamica populației , evoluția cererii de bunuri de folosință îndelungată, etc.) liniarizarea nu este posibilă și, prin urmare , este utilizată regresia neliniară .

Medii mobile

Pictogramă lupă mgx2.svg Același subiect în detaliu: Mișcare mobilă .
Exemplu de analiză a unei serii temporale cu o medie mobilă

Dacă tendința fenomenului apare neregulată, se preferă identificarea empirică a componentei de tendință, eliminând componentele sezoniere și / sau accidentale prin intermediul mediilor mobile .

În special, pentru a elimina componenta sezonieră prezentă în datele trimestriale, ar putea fi utilizată o medie mobilă pe 4 termeni:

sau:

În ambele cazuri, ar fi utilizate valori care, fiind media valorilor observate în patru trimestre succesive, nu sunt afectate de componenta sezonieră.

Mediile unui număr par de termeni, totuși, tind să exprime valoarea fenomenului la un moment intermediar față de cele observate (intermediar între t -1 și t în cazul lui M 1 , între t și t +1 în cazul lui M 2 ).

Prin urmare, preferăm să compunem mediile M 1 și M 2 într-o medie mobilă pe cinci termeni centrată pe timpul t :

Seria mediilor mobile constituie tendința (sau ciclul de tendință), care poate fi apoi studiată cu alte metode. Identificarea acestuia permite totuși calculul unei sezonalități brute , care încorporează o parte accidentală; indicând cu datele observate la momentul t și cu tendința estimată cu mediile mobile, avem:

sau

în funcție de preferința unui model aditiv sau multiplicativ.

În analize bazate pe regresie, se obțin coeficienți constanți de sezonalitate. Cu toate acestea, în analiza bazată pe medii mobile, puteți alege între:

  • modele de sezonalitate constantă: media este calculată, pentru fiecare trimestru, a factorilor de sezonalitate brută și astfel se obțin factorii de sezonalitate neti S i , care sunt apoi corectați pentru a se asigura că se compensează reciproc, astfel încât suma lor fie 0 ( modele aditive) sau produsul lor este 1 (modele multiplicative);
  • Modele variabile de sezonalitate: pentru fiecare trimestru, factorii de sezonalitate brută sunt înlocuiți cu media mobilă (de obicei, 3 termeni) sau se folosește o „tendință de sezonalitate”.

Odată ce factorii neti de sezonalitate au fost identificați, reziduurile sunt calculate:

sau

în funcție de abordarea aditivă sau multiplicativă, atunci se verifică (în prima instanță cu o corelogramă ) că reziduurile au media 0 și varianță constantă.

Netezire exponențială

Când utilizați medii mobile, unele dintre valorile inițiale și finale ale seriei temporale se pierd (de exemplu, dacă aveți date de la 1 la 80, cu o medie mobilă de 5 termeni obțineți medii de la 3 la timp 78). Acest lucru reprezintă un dezavantaj dacă scopul este mai presus de toate de a formula prognoze, deoarece nu există termeni cei mai apropiați de cei de estimat. S-ar putea gândi să rezolvăm problema cu medii mobile necentrate și asimetrice, de exemplu de tipul:

sau:

Cu toate acestea, în practică sunt preferate abordările care generalizează ceea ce tocmai a fost ipotezat.

Netezire exponențială simplă

Într- o netezire exponențială simplă se deplasează de la media celor n valori observate:

și se transformă într-o medie ponderată cu greutăți în creștere exponențială (mai mică pentru valorile inițiale, mai mare pentru cele finale) a cărei sumă este 1. O greutate α între 0 și 1 este apoi atribuită ultimului termen, greutatea (1 - α ) la penultim, (1 - α ) 2 la al treilea de la ultimul și așa mai departe, și avem (vezi seria geometrică ):

Înlocuim apoi seria observată y t cu seria netezită :

unde α , greutatea atribuită ultimei valori observate, se numește constantă de netezire . [3]

Următoarele formulări recursive sunt mai convenabile pentru calcul:

(Roberts, 1959) [4]

sau:

(Hunter, 1986) [5]

Valoarea inițială a seriei netezite este calculată în diferite moduri: este setată egală cu prima valoare observată sau cu media tuturor valorilor observate sau a unei părți din ele (primele 4 sau 5 sau prima lor jumătate) . Acestea sunt convenții care nu modifică rezultatul final (prognoza pentru timpul n + 1), tocmai pentru că greutățile foarte mici sunt atribuite primilor termeni ai seriei.

Roberts și formulele Hunter diferă în interpretarea Ln, ultima valoare calculată:

  • în primul caz se intenționează ca o valoare așteptată, deci ca ; [6]
  • în al doilea caz se intenționează ca o netezire a valorii observate, deci ca , pe baza căruia se face prognoza prin repetarea formulei: .

În orice caz, este suficient ca seria observată să nu fie prea scurtă pentru ca aceleași valori să fie obținute .

În ceea ce privește constanta de netezire α , aceasta poate fi aleasă în așa fel încât să minimizeze pătratele diferențelor dintre valorile observate și cele netezite sau în funcție de obiectivele investigației; o valoare ridicată (aproape de 1) acordă o importanță mai mare ultimelor valori observate, în timp ce o valoare scăzută favorizează tendința medie a fenomenului.

Exemplu de netezire exponențială a unei serii temporale (în negru) cu constantă de netezire egală cu 0,7 (în roșu) și 0,1 (în albastru)

Este destul de important să subliniem că netezirea exponențială simplă duce la prognoză constantă. De fapt, având în vedere formula Roberts, avem:

si asa mai departe. Prin urmare, este o metodă care poate fi utilizată numai pentru serii non-trend.

Metodele Holt-Winters

O primă modalitate de a lua în considerare o tendință constă în introducerea unei drift d ( drift în engleză) care modifică valorile netezite în funcție de cantități variabile în timp; de exemplu:

Sunt utilizate în principal metodele Holt-Winters , așa numite de numele celor care le-au introdus.

Un prim model ia în considerare doar tendința, presupunând că la momentul t fenomenul poate fi aproximat printr-o linie dreaptă de tipul:

cu interceptare l t și panta d t . Sunt definite următoarele relații: [7]

Primul (în mod similar cu ceea ce se întâmplă în netezirea exponențială simplă) poate fi văzut ca o medie ponderată între valoarea observată și prognoza calculată la momentul anterior; al doilea ca medie ponderată între diferența dintre prognozele la momentele t și precedentul și panta calculată în momentul anterior (atribuirea ponderii 1 acestuia din urmă ar fi echivalentă cu asumarea unei tendințe liniare sau a unei constanțe a pantei) .

Modelul este extins pentru a ține seama de sezonalitate, prin inserarea unei greutăți suplimentare γ . Avem un model sezonier aditiv:

unde s t este un factor de sezonalitate este p periodicitatea sa (4 pentru datele trimestriale, 12 pentru datele lunare) și un model sezonier multiplicativ:

Acestea sunt modele foarte flexibile, deoarece permit luarea în considerare a tendințelor non-polinomiale și a sezonalității neconstante. În ceea ce privește alegerea lui α , β și γ , tot în acest caz (dar cu o complexitate evidentă mai mare) putem căuta valorile care minimalizează pătratele deșeurilor sau ne putem ajusta în funcție de obiectivele analizei.

Evaluarea calității prognozelor

Indicând cu T timpul celei mai recente valori luate în considerare la netezirea unei serii, prognozele, valorile observate apoi în timpuri ulterioare lui T și diferențele lor (erori de prognoză) sunt indicate, respectiv, cu:

Se utilizează următoarele măsuri de calitate:

  • media erorilor absolute (MAE, Mean Absolute Error ); odată ce a fost ales un orizont de prognoză k , se efectuează verificarea valorii prezise la momentul T pentru timpul T + k , apoi pentru valoarea prezisă la momentul T + 1 (datorită disponibilității unei noi valori observate) pentru timp T + 1 + k ; prin urmare avem: [8]
  • eroarea pătrată medie (MSE, Mean Squared Error în engleză, eroare pătrată medie):
  • rădăcina pătrată a celei anterioare (RMSE, Root Mean Square Error în engleză):

Se utilizează, de asemenea, compararea „punctelor de cotitură” (testul lui Kendall). Un „punct de cotitură” înseamnă un punct în care o serie de la ascendentă la descendentă sau invers. Punctele de cotitură prezente în seria anchetată și în cea estimată sau nivelată sunt numărate și se calculează următoarele:

  • indicele de eroare de primul fel: raportul dintre numărul de puncte de cotitură care nu coincid deoarece sunt prezente numai în seria estimată și numărul total de puncte de cotitură din seria estimată;
  • al doilea tip de indice de eroare: raportul dintre numărul de puncte de cotitură care nu coincid deoarece sunt prezente numai în seria detectată și numărul total de puncte de cotitură din seria detectată.

Trebuie remarcat faptul că, din moment ce modelul este recalculată ca s crește, toate măsurile menționate servesc pentru a estima bunătatea abordării urmat, nu cea a adaptării la date.

Abordare modernă

Definiția formală a seriilor temporale

În primul rând, amintiți-vă că o variabilă aleatorie poate fi definită ca o funcție măsurabilă cu valoare reală pe un spațiu probabilistic: X:

Unde este:

  • : spațiu pentru evenimente
  • F sigma-algebră a
  • P probabilitate definitivă a
  • B (R) Sigma-algebră Borel definită pe mulțimea numerelor reale R.
  • probabilitatea indusă de X pe (R, B (R))

Având în vedere această premisă, poate fi definit ca un proces stocastic come una successione di variabili aleatorie indicizzate da un parametro. Nell'analisi delle serie storiche, questo parametro è il tempo, che indichiamo con t T, con T spazio parametrico, che si può considerare discreto (ipotesi usuale, se si considerano i singoli giorni, o mesi, o anni) oppure continuo .

Da qui si può derivare la nozione di serie storica , che sarà la realizzazione finita di un processo stocastico, indicata con la notazione , dove N«

Casi particolari di processi stocastici

  • te sono variabili: è un processo stocastico propriamente detto
  • t variabile e fissato tale che = , è la cosiddetta traiettoria del processo stocastico
  • t fissato, variabile et= , è una variabile aleatoria
  • tutti i parametri fissati: è un numero reale
  • dati e fissati si ha una serie storica propriamente detta.

Note

  1. ^ Si usa normalmente il "cappuccio" ^ per indicare che gli sono dati stimati e per distinguerli dai dati osservati .
  2. ^ Si usa ovviamente la regressione lineare multipla . Il modello è del tipo:
    Vi sono tante righe come questa quanti sono i valori di t (ad esempio, 60 se si considerano i dati trimestrali per 15 anni). Si può quindi riscrivere il modello in forma matriciale:
    dove:
    Il vettore β risulta pari a:
    ma questo comporta che può essere calcolato solo se la matrice X T X è invertibile , quindi solo se la matrice X ha rango p . Tuttavia, se β 1 è l'intercetta, allora la prima colonna della matrice X è costituita da tutti 1; se quattro variabili indicano la stagionalità, le relative colonne della matrice sono:
    Ne segue che la prima colonna è la somma delle quattro colonne corrispondenti alle variabili dummy e, pertanto, il rango di X è inferiore a p .
  3. ^ Alcuni autori chiamano costante di livellamento la quantità δ = (1 – α ).
  4. ^ SW Roberts, «Control chart test based on geometric moving averages», Technometrics , 1959, vol. 1, pp. 239-250 (cfr. NIST Engineering Statistics Handbook, sezione 6.3.2.4 ).
  5. ^ JS Hunter, «The Exponentially Weighted Moving Average», Journal of Quality Technology , 1986, vol. 18, pp. 203-210 (cfr. NIST Engineering Statistics Handbook, sezione 6.4.3.1 ).
  6. ^ A rigore, il valore previsto è . Tuttavia, poiché nell'approccio tradizionale si assume che le variazioni accidentali abbiano media nulla, quindi valore atteso nullo, si ha .
  7. ^ Anche qui, come nel caso del livellamento esponenziale semplice ed in quello del metodo Holt-Winters con stagionalità, alcuni autori invertono i ruoli dei fattori α e (1 – α ), β e (1 – β ), γ e (1 – γ ).
  8. ^ In altri termini, se si dispone di dati trimestrali che giungono al 4º trimestre dell'anno X , non si verifica la qualità delle previsioni per i successivi n trimestri, in quanto il modello viene tarato per effettuare previsioni a brevissimo oa meno breve termine (nel caso del livellamento esponenziale semplice, ad esempio, un α prossimo a 1 si presta a previsioni a brevissimo termine, un α piccolo si presta meglio a previsioni a meno breve termine). Si effettua quindi, ad esempio, la previsione per il 1º trimestre dell'anno X +1, poi, quando diventa disponibile il valore "vero" a tale data, si effettua la previsione per il 2º trimestre e così via. k è quindi costante.

Bibliografia

  • Estela Bee Dagum, Analisi delle serie storiche - modellistica, previsione e scomposizione , Milano, Springer Verlag, 2002. ISBN 88-470-0146-3 .
  • Tommaso Di Fonzo e Francesco Lisi, Serie storiche economiche , Roma, Carocci, 2005. ISBN 978-88-430-3423-9 .
  • Gary Koop, Logica statistica dei dati economici , Torino, UTET, 2001. ISBN 88-7750-735-7 .

Voci correlate

Matematica Portale Matematica : accedi alle voci di Wikipedia che trattano di matematica