Extrageți, transformați, încărcați

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În informatică Extract, Transform, Load ( ETL ) este o expresie în limba engleză care se referă la procesul de extragere, transformare și încărcare a datelor într-un sistem de sinteză ( depozit de date , date mart , big data etc ...).

Descriere

Datele sunt extrase din sisteme sursă, cum ar fi baze de date tranzacționale ( OLTP ), fișiere text comune sau din alte sisteme informatice (de exemplu, sisteme ERP sau CRM ).

Prin urmare, acestea suferă un proces de transformare, care constă, de exemplu, în:

  • Selectați numai cele care prezintă interes pentru sistem
  • Normalizați datele (de exemplu, eliminând duplicatele)
  • Traduceți date codificate
  • Obțineți date noi calculate
  • Efectuați cuplări ( îmbinări ) între datele preluate din diferite tabele
  • Grupați datele

Această transformare are ca scop consolidarea datelor (adică, omogenizarea datelor provenind din diferite surse) și asigurarea faptului că acestea sunt mai consistente cu logica de afaceri a sistemului de analiză pentru care este dezvoltată.

În cele din urmă, acestea sunt stocate în tabelele sistemului de sinteză (încărcare).

O atenție deosebită trebuie acordată granularității informațiilor care trebuie stocate în structura din aval. De fapt, acestea nu numai că trebuie să fie agregate astfel încât să nu aibă detalii excesive (ceea ce ar putea duce la o decădere a performanței interogărilor făcute pe sistem), dar trebuie să mențină și o granularitate care să permită efectuarea analizelor necesare pe date.

Cum se folosește

Trebuie subliniat faptul că implementarea extractoarelor necesită o analiză detaliată a sistemelor de hrănire. Obiectivul pe care o companie trebuie să îl stabilească este ca acest proces să fie unic pentru toate sistemele de sinteză. Absolut de evitat este stratificarea în timp a mai multor extrageri din același sistem pentru a alimenta diferite sisteme de sinteză. Astfel de extracte care au variații mici în criteriile de extracție, codificare sau curățare a datelor ar avea tendința de a avea, în practică, criterii de extracție similare, dar nu identice. Rezultatul acestor stratificări este de a avea sisteme de sinteză care prezintă managementului superior rezultate care, reprezentând aceleași fenomene, arată în schimb valori diferite. Acest lucru contribuie la generarea neîncrederii în rezultatele sistemelor de sinteză în general.

Pentru a înțelege mai bine ce se poate întâmpla, gândiți-vă doar la nevoia de a determina numărul de clienți ai unei companii la o anumită dată. Este necesar să decidem, în fața unui nume prezent în baza de date a clienților, după cât timp de inactivitate să nu-l mai considerăm ca atare. Se poate întâmpla ca semnificația „numărului de client” să fie diferită pentru diferite departamente ale aceleiași companii. Pentru controlul managementului, un client poate fi astfel numai dacă a cumpărat în cursul anului, dar pentru marketing, care trebuie să trimită felicitări de Crăciun, piscina va fi, fără îndoială, diferită și superioară.

Este necesar ca funcția de integrare a datelor între sistemele tranzacționale ( OLTP ) și sistemele de sinteză OLAP să fie delegată unui subsistem specific dedicat, împiedicând astfel dezvoltarea mai multor procese pentru a extrage aceleași date.

Exploatarea metadatelor (de exemplu, dicționarul de date) poate contribui la generarea nu numai a integrării tehnice, ci și culturale în cadrul companiei.

A avea această abordare înseamnă a facilita diferitele subsisteme ale companiei (furnizori, depozit, clienți, contabilitate generală, control de gestiune ) independente, dar integrate, prin crearea și gestionarea unicității datelor și facilitarea controlului centralizat sau a înlocuirii unuia dintre sisteme. a integrării.

Trebuie remarcat cât de des se referă ETL la instrumentul cu care este posibil să se dezvolte această arhitectură specială de alimentare care, în sine, ar putea fi dezvoltată și cu instrumente standard. Cu toate acestea, întrucât ETL-urile sunt instrumente „dedicate”, acestea oferă rezultate tangibile în ceea ce privește documentarea și viteza de dezvoltare, pe de altă parte, necesită un grup de lucru specializat în această „limbă” și, prin urmare, în cazul unei rotiri sau revocări, trebuie să gestioneze în avans prezența în companie a unor back-up-uri adecvate cu costurile aferente.

Elemente conexe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT