Informatica ETL: Un ghid pentru începători pentru înțelegerea ETL utilizând Informatica PowerCenter



Înțelegerea conceptelor de Informatica ETL și a diferitelor etape ale procesului ETL și practicarea unui caz de utilizare care implică baza de date a angajaților.

Scopul Informatica ETL este de a oferi utilizatorilor, nu numai un proces de extragere a datelor din sistemele sursă și de introducere a acestora în depozitul de date, ci și de a oferi utilizatorilor o platformă comună pentru a-și integra datele din diverse platforme și aplicații.Acest lucru a dus la o creștere a cererii de .Înainte de a vorbi despre ETL Informatica, să înțelegem mai întâi de ce avem nevoie de ETL.

De ce avem nevoie de ETL?

Fiecare companiezilele astea trebuie procesează seturi mari de date din surse variate. Aceste date trebuie procesate pentru a oferi informații detaliate pentru luarea deciziilor de afaceri. Dar, destul de des, astfel de date au următoarele provocări:





  • Companiile mari generează o mulțime de date și o cantitate atât de mare de date pot fi în orice format. Acestea ar fi disponibile în mai multe baze de date și în multe fișiere nestructurate.
  • Aceste date trebuie colectate, combinate, comparate și puse în funcțiune ca un tot perfect. Dar diferitele baze de date nu comunică bine!
  • Multe organizații au implementat interfețe între aceste baze de date, dar s-au confruntat cu următoarele provocări:
    • Fiecare pereche de baze de date necesită o interfață unică.
    • Dacă schimbați o bază de date, este posibil să trebuiască actualizate multe interfețe.

Mai jos puteți vedea diversele baze de date ale unei organizații și interacțiunile acestora:

Diverse seturi de date ale unei organizații - Informatica - ETL - Edureka

Diverse baze de date utilizate de diferite departamente ale unei organizații



Diferite interacțiuni ale bazelor de date într-o organizație

După cum s-a văzut mai sus, o organizație poate avea diverse baze de date în diferitele sale departamente și interacțiunea dintre acestea devine dificil de implementat, deoarece trebuie create diverse interfețe de interacțiune pentru acestea. Pentru a depăși aceste provocări, cea mai bună soluție posibilă este utilizarea conceptelor de Integrarea datelor care ar permite ca datele din diferite baze de date și formate să comunice între ele. Figura de mai jos ne ajută să înțelegem cum instrumentul de integrare a datelor devine o interfață comună pentru comunicarea între diferitele baze de date.

Diverse baze de date conectate prin integrarea datelor



Dar există diferite procese disponibile pentru realizarea integrării datelor. Printre aceste procese, ETL este cel mai optim, eficient și fiabil proces. Prin ETL, utilizatorul nu numai că poate aduce date din diverse surse, dar poate efectua diverse operații pe date înainte de a stoca aceste date în ținta finală.

Printre diferitele instrumente ETL disponibile pe piață, Informatica PowerCenter este cea mai importantă platformă de integrare a datelor din piață. După ce a testat pe aproape 500.000 de combinații de platforme și aplicații, Informatica PowerCenter operează cu cea mai largă gamă posibilă de standarde, sisteme și aplicații disparate. Să înțelegem acum pașii implicați în procesul Informatica ETL.

Informatică ETL | Informatica Architecture | Tutorial Informatica PowerCenter | Edureka

Acest tutorial Edureka Informatica vă ajută să înțelegeți elementele fundamentale ale ETL folosind detaliat Informatica Powercenter.

Pași în procesul Informatica ETL:

Înainte de a trece la diferiți pași implicați în Informatica ETL, permiteți-ne să avem o privire de ansamblu asupra ETL. În ETL, extracția este în cazul în care datele sunt extrase din surse de date omogene sau eterogene, Transformare în care datele sunt transformate pentru stocarea în formatul sau structura adecvată în scopul interogării și analizei și Încărcarea unde datele sunt încărcate în baza de date țintă finală, stoc de date operaționale, martie de date sau depozit de date. Imaginea de mai jos vă va ajuta să înțelegeți cum are loc procesul Informatica ETL.

Prezentare generală a procesului ETL

După cum s-a văzut mai sus, Informatica PowerCenter poate încărca date din diverse surse și le poate stoca într-un singur depozit de date. Acum, să ne uităm la pașii implicați în procesul Informatica ETL.

Există în principal 4 pași în procesul Informatica ETL, să ne înțelegem acum în profunzime:

  1. Extrageți sau capturați
  2. Scrub sau Curăță
  3. Transforma
  4. Încărcare și indexare

1. Extrageți sau capturați: După cum se vede în imaginea de mai jos, Capture sau Extract este primul pas al procesului Informatica ETL.Este procesul de a obține un instantaneu al subsetului de date ales de la sursă, care trebuie încărcat în depozitul de date. Un instantaneu este o vizualizare statică numai în citire a datelor din baza de date. Procesul de extragere poate fi de două tipuri:

  • Extras complet: Datele sunt extrase complet din sistemul sursă și nu este necesar să țineți evidența modificărilor sursei de date de la ultima extracție reușită.
  • Extract incremental: Aceasta va captura doar modificările care au avut loc de la ultimul extras complet.

Faza 1: Extrageți sau capturați

2. Spălați sau curățați: Acesta este procesul de curățare a datelor provenite de la sursă prin utilizarea diferitelor tehnici de recunoaștere a modelelor și AI pentru a îmbunătăți calitatea datelor preluate. De obicei, erorile cum ar fi ortografiile greșite, datele eronate, utilizarea incorectă a câmpului, adresele nepotrivite, datele lipsă, datele duplicate, inconsecvențele suntevidențiat și apoi corectat sau eliminatîn acest pas. De asemenea, operații precum decodarea, reformatarea, marcarea timpului, conversia, generarea cheilor, fuzionarea, detectarea / înregistrarea erorilor, localizarea datelor lipsă se fac în acest pas. După cum se vede în imaginea de mai jos, acesta este al doilea pas al procesului Informatica ETL.

Etapa 2: Spălarea sau curățarea datelor

3. Transformă: După cum se vede în imaginea de mai jos, acesta este al treilea și cel mai esențial pas al procesului Informatica ETL. Transformări este operația de conversie a datelor din formatul sistemului sursă în scheletul Data Warehouse. O transformare este practic utilizată pentru a reprezenta un set de reguli, care definesc fluxul de date și modul în care datele sunt încărcate în ținte. Pentru a afla mai multe despre Transformare, verificați Transformări în Informatica Blog.

Faza 3: Transformare

4. Încărcare și indexare: Acesta este ultimul pas al procesului Informatica ETL, așa cum se vede în imaginea de mai jos. În această etapă, plasăm datele transformate în depozit și creăm indexuri pentru date. Există două tipuri majore de încărcare de date disponibile pe baza procesului de încărcare:

  • Încărcare completă sau încărcare în vrac :Procesul de încărcare a datelor atunci când îl facem pentru prima dată. Lucrarea extrage întregul volum de date dintr-un tabel sursă și se încarcă în depozitul de date țintă după aplicarea transformărilor necesare. Va fi executată o singură dată, după care doar modificările vor fi capturate ca parte a unui extract incremental.
  • Sarcină incrementală sau Sarcină de reîmprospătare : Numai datele modificate vor fi actualizate în țintă urmată de încărcare completă. Modificările vor fi capturate comparând data creată sau modificată cu ultima dată de executare a lucrării.Datele modificate sunt extrase singure din sursă și vor fi actualizate în țintă fără a afecta datele existente.

Faza 4: Încărcare și indexare

Dacă ați înțeles procesul ETL Informatica, acum suntem într-o poziție mai bună pentru a aprecia de ce Informatica este cea mai bună soluție în astfel de cazuri.

Caracteristici ale Informatica ETL:

Pentru toate operațiunile de integrare a datelor și ETL, Informatica ne-a furnizat Informatica PowerCenter . Să vedem acum câteva caracteristici cheie ale Informatica ETL:

  • Oferă facilitatea de a specifica un număr mare de reguli de transformare cu un GUI.
  • Generați programe pentru transformarea datelor.
  • Manipulați mai multe surse de date.
  • Suportă extracția datelor, curățarea, agregarea, reorganizarea, transformarea și operațiunile de încărcare.
  • Generează automat programe pentru extragerea datelor.
  • Încărcare de mare viteză a depozitelor de date țintă.

Mai jos sunt câteva dintre scenariile tipice în care se folosește Informatica PowerCenter:

  1. Migratia datelor:

O companie a achiziționat o nouă cerere de conturi de plătit pentru departamentul său de conturi. PowerCenter poate muta datele contului existente în noua aplicație. Figura de mai jos vă va ajuta să înțelegeți cum puteți utiliza Informatica PowerCenter pentru migrarea datelor. Informatica PowerCenter poate păstra cu ușurință linia de date în scopuri fiscale, contabile și alte scopuri impuse de lege în timpul procesului de migrare a datelor.

Migrarea datelor de la o aplicație de contabilitate mai veche la o aplicație nouă

  1. Integrarea aplicațiilor:

Să presupunem că Compania-A cumpără Compania-B. Deci, pentru a obține beneficiile consolidării, sistemul de facturare al Companiei-B trebuie să fie integrat în sistemul de facturare al Companiei-A, care poate fi realizat cu ușurință folosind Informatica PowerCenter. Figura de mai jos vă va ajuta să înțelegeți cum puteți utiliza Informatica PowerCenter pentru integrarea aplicațiilor între companii.

Integrarea aplicației între companii

  1. Depozitarea datelor

Acțiunile tipice necesare în depozitele de date sunt:

  • Combinând informații din mai multe surse împreună pentru analiză.
  • Mutarea datelor din mai multe baze de date în depozitul de date.

Toate cazurile tipice de mai sus pot fi efectuate cu ușurință folosind Informatica PowerCenter. Mai jos, puteți vedea că Informatica PowerCenter este utilizată pentru a combina datele din diferite tipuri de baze de date precum Oracle, SalesForce etc. și pentru a le aduce într-un depozit de date comun creat de Informatica PowerCenter.

Date Din diferite baze de date integrate într-un depozit de date comun

  1. Middleware

Să presupunem că o organizație de retail utilizează SAP R3 pentru aplicațiile sale de retail și SAP BW ca depozit de date. O comunicare directă între aceste două aplicații nu este posibilă din cauza lipsei unei interfețe de comunicare. Cu toate acestea, Informatica PowerCenter poate fi folosit ca middleware între aceste două aplicații. În imaginea de mai jos puteți vedea arhitectura modului în care Informatica PowerCenter este utilizat ca middleware între SAP R / 3 și SAP BW. Aplicațiile de la SAP R / 3 își transferă datele în cadrul ABAP, care apoi le transferă cătrePunctul de vânzare SAP (POS) și SAPDeclarații de servicii (BOS). Informatica PowerCenter ajută la transferul de date din aceste servicii către SAP Business Warehouse (BW).

Informatica PowerCenter ca Middleware în SAP Retail Architecture

Deși ați văzut câteva caracteristici cheie și scenarii tipice ale Informatica ETL, sper să înțelegeți de ce Informatica PowerCenter este cel mai bun instrument pentru procesul ETL. Să vedem acum un caz de utilizare a Informatica ETL.

Utilizare caz: Alăturarea a două tabele pentru a obține un singur tabel detaliat

Să presupunem că doriți să asigurați transportul în funcție de departament angajaților dvs., deoarece departamentele sunt situate în diferite locații. Pentru a face acest lucru, mai întâi trebuie să știți la ce departament aparține fiecare angajat și locația departamentului. Cu toate acestea, detaliile angajaților sunt stocate în diferite tabele și trebuie să vă alăturați detaliile Departamentului la o bază de date existentă cu detaliile tuturor angajaților. Pentru a face acest lucru, vom încărca mai întâi ambele tabele în Informatica PowerCenter, vom efectua transformarea surselor calificative pe date și vom încărca în cele din urmă detaliile în baza de date țintă.Sa incepem:

Pasul 1 : Deschideți PowerCenter Designer.

Mai jos este pagina principală a Informatica PowerCenter Designer.

Să ne conectăm acum la depozit. În cazul în care nu v-ați configurat depozitele sau vă confruntați cu probleme, ne puteți consulta Blog.

Pasul 2: Faceți clic dreapta pe depozitul dvs. și selectați opțiunea de conectare.

Dacă faceți clic pe opțiunea de conectare, vi se va solicita cu ecranul de mai jos, solicitându-vă numele de utilizator și parola depozitului.

După ce v-ați conectat la depozitul dvs., trebuie să vă deschideți folderul de lucru așa cum se vede mai jos:

Vi se va cere să întrebați numele mapării. Specificați numele mapării dvs. și faceți clic pe OK (l-am numit ca m-ANGAJAT ).

Pasul 3: Să încărcăm acum tabelele din baza de date, începeți conectându-ne la baza de date. Pentru aceasta, selectați fila Surse și opțiunea Import din bază de date așa cum se vede mai jos:

Când faceți clic pe Import din bază de date, vi se va solicita ecranul ca mai jos, cerând detaliile bazei de date și numele de utilizator și parola pentru conectare (folosesc baza de date Oracle și utilizatorul HR).

Faceți clic pe Conectare pentru a vă conecta la baza de date.

Pasul 4: Deoarece vreau să mă alătur SALARIATI și DEPARTAMENT tabele, le voi selecta și voi da clic pe OK.
Sursele vor fi vizibile în spațiul de lucru al proiectantului de cartografiere, așa cum se vede mai jos.

Pasul 5: În mod similar, încărcați tabelul țintă pe mapare.

Pasul 6: Acum permiteți-ne să legăm calificativul sursă și tabelul țintă. Faceți clic dreapta pe orice punct gol al spațiului de lucru și selectați Autolink așa cum se vede mai jos:

Mai jos este maparea legată de Autolink.

Pasul 7: Deoarece trebuie să conectăm ambele tabele la calificatorul sursă, selectați coloanele din tabelul Departament și plasați-l în calificatorul sursă, după cum se vede mai jos:

creați o listă legată în c

Aruncați valorile coloanei în calificatorul sursă SQ_EMPLOYEES .

Mai jos este calificatorul sursă actualizat.

Pasul 8: Faceți dublu clic pe Source Qualifier pentru a edita transformarea.

Veți obține pop-up Editare transformare așa cum se vede mai jos. Faceți clic pe fila Proprietăți.

Pasul 9: Sub fila Proprietăți, faceți clic pe câmpul Valoare din rândul Alăturare definită de utilizator.

Veți obține următorul editor SQL:

Pasul 10: introduce EMPLOYEES.DEPARTMENT_ID = DEPARTAMENT.DEPARTMENT_ID ca condiție pentru a vă alătura ambelor tabele din câmpul SQL și faceți clic pe OK.

Pasul 11: Acum faceți clic pe rândul de interogare SQL pentru a genera SQL pentru aderare așa cum se vede mai jos:

Veți obține următorul Editor SQL, faceți clic pe opțiunea Generare SQL.

Următorul SQL va fi generat pentru starea pe care am specificat-o în pasul anterior. Faceți clic pe OK.

Pasul 12: Faceți clic pe Aplicare și OK.

la puterea lui in java

Mai jos este maparea completată.

Am finalizat proiectarea modului în care datele trebuie transferate de la sursă la țintă. Cu toate acestea, transferul efectiv de date încă nu are loc și pentru aceasta trebuie să folosim PowerCenter Workflow Design. Executarea fluxului de lucru va duce la transferul de date de la sursă la țintă. Pentru a afla mai multe despre fluxul de lucru, consultați Tutorial Informatica: flux de lucru Blog

Pasul 13: Lacum lansăm Managerul fluxului de lucru făcând clic pe pictograma W așa cum se vede mai jos:

Mai jos este pagina principală a proiectantului fluxului de lucru.

Pasul 14: Să creăm acum un nou flux de lucru pentru cartografierea noastră. Faceți clic pe fila Flux de lucru și selectați Opțiune de creare.

Veți obține pop-up-ul de mai jos. Specificați numele fluxului de lucru și faceți clic pe OK.

Pasul 15 : Odată creat un flux de lucru, obținem pictograma Start în spațiul de lucru Manager flux de lucru.

Să adăugăm acum o nouă sesiune la spațiul de lucru, așa cum se vede mai jos, făcând clic pe pictograma sesiunii și făcând clic pe spațiul de lucru:

Faceți clic pe spațiul de lucru pentru a plasa pictograma Sesiune.

Pasul 16: În timp ce adăugați sesiunea, trebuie să selectați Maparea pe care ați creat-o și ați salvat-o în pașii de mai sus. (Îl salvasem ca m-ANGAJAT).

Mai jos este spațiul de lucru după adăugarea pictogramei sesiunii.

Pasul 17 : Acum că ați creat o nouă sesiune, trebuie să o conectăm la sarcina de pornire. O putem face dând clic pe pictograma Link Task, așa cum se vede mai jos:

Faceți clic mai întâi pe pictograma Start, apoi pe pictograma Sesiune pentru a stabili un link.

Mai jos este un flux de lucru conectat.

Pasul 18: Acum că am finalizat proiectarea, să începem fluxul de lucru. Faceți clic pe fila Workflow și selectați opțiunea Start Workflow.

Manager de flux de lucru pornind Workflow Monitor.

Pasul 19 : Odată ce începem fluxul de lucru, Managerul de flux de lucru se lansează automatșivă permite să monitorizați execuția fluxului de lucru. Mai jos puteți vedea Workflow Monitor arată starea fluxului de lucru.

Pasul 20: Pentru a verifica starea fluxului de lucru, faceți clic dreapta pe fluxul de lucru și selectați Obțineți proprietăți de rulare așa cum se vede mai jos:

Selectați fila Statistici sursă / țintă.

Mai jos puteți vedea numărul de rânduri care au fost transferate între sursă și țintă după transformare.

De asemenea, puteți verifica rezultatul verificând tabelul țintă așa cum se vede mai jos.

Sper că acest blog ETL Informatica a fost de ajutor pentru a vă înțelege conceptele ETL folosind Informatica și v-a creat suficient interes pentru a afla mai multe despre Informatica.

Dacă vi s-a părut util acest blog, puteți consulta și seria noastră de bloguri Informatica Tutorial , Tutorial Informatica: Înțelegerea „Inside Out” a Informatica și Informatica Transformations: The Heart and Soul of Informatica PowerCenter . În cazul în care căutați detalii despre certificarea Informatica, puteți consulta blogul nostru Certificare Informatica: Tot ce trebuie să știți .

Dacă ați decis deja să luați Informatica ca o carieră, v-aș recomanda să aruncați o privire la pagina cursului. Instruirea de certificare Informatica de la Edureka vă va face un expert în Informatica prin sesiuni în direct conduse de instructor și instruire practică folosind cazuri de utilizare din viața reală.