Introducere în Hadoop Job Tracker



Aceasta oferă o perspectivă asupra utilizării Job Tracker

marionetă vs bucătar vs jenkins

Hadoop Job Tacker

Job Tracker este demonul principal atât pentru gestionarea resurselor de locuri de muncă, cât și pentru planificarea / monitorizarea lucrărilor. Acționează ca o legătură între Hadoop și aplicația dvs.





Procesul

Utilizatorul copiază mai întâi fișiere în sistemul de fișiere distribuite (DFS), înainte de a trimite o lucrare clientului. Clientul primește apoi aceste fișiere de intrare. Utilizatorul va primi divizările sau blocurile pe baza fișierelor de intrare.Clientul puteacreați despărțirile sau blocurile într-un omner it prefpentru că există anumite considerente în spatele acestuia. Dacă se face o analiză a datelor complete, veți împărți datele în împărțiri. Fișierele nu sunt copiate prin client, ci sunt copiate utilizând flume sau Sqoop sau orice client extern.

Odată ce fișierele sunt copiate în DFS și clientul interacționează cu DFS,divizările vor rula un MapReduce job. Jobul este trimis printr-un tracker de joburi. Urmăritorul de joburi este demonul master care rulează pe același nod pe carealeargăaceste sarcini multiple pe noduri de date. Aceste date vor fi situate pe diferite noduri de date, dar este responsabilitatea urmăritorului de locuri de muncă să se ocupe de asta.



După ce un client trimiteurmăritorul de joburi, jobul este inițializat în coada de joburi și job-ul de urmărire creează hărți și se reduce. Pe baza programului care este conținut în funcția de hartă și funcția de reducere, va crea sarcina de hartă și va reduce sarcina. Aceste două vor rula pe divizările de intrare. Notă: Când este creată de clienți, această diviziune de intrare conține toate datele.

Fiecare împărțire de intrare are o lucrare de hărți care rulează și ieșirea sarcinii de hartă intră în sarcina de reducere. Job tracker rulează pista pe anumite date. Pot exista mai multe replicări ale acestora, astfel încât să preia datele locale și să ruleze sarcina pe acel tracker de sarcini. Urmăritorul de sarcini este cel care execută de fapt sarcina pe nodul de date. Urmăritorul de locuri de muncă va treceinformațiecătre urmăritorul de sarcini și urmăritorul de sarcini va rula lucrarea pe nodul de date.

Odată ce lucrarea a fost atribuită urmăritorului de sarcini, există o bătăi de inimă asociate fiecărui urmăritor de sarcini și urmăritor de joburi. Trimite semnale pentru a afla dacă nodurile de date sunt încă în viață. Cele două sunt adesea sincronizate, deoarece există posibilitatea ca nodurile să dispară.



Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare: