Instrumente esențiale Hadoop pentru crunching Big Data



Hadoop este cuvântul buzz din lumea IT de astăzi, iar această postare descrie instrumentele esențiale Hadoop care strică Big Data.

Astăzi, cel mai popular termen din lumea IT este „Hadoop”. Într-un interval scurt de timp, Hadoop a crescut masiv și s-a dovedit a fi util pentru o mare colecție de proiecte diverse. Comunitatea Hadoop evoluează rapid și are un rol proeminent în ecosistemul său.





Iată o privire asupra instrumentelor esențiale Hadoop care sunt utilizate pentru a gestiona Big Data.

ce este swing în java

ambari



Ambari este un proiect Apache susținut de Hortonworks. Acesta oferă o interfață grafică web (Graphical User Interface) cu scripturi de asistent pentru configurarea clusterelor cu majoritatea componentelor standard. Ambari asigură, gestionează și monitorizează toate grupurile de locuri de muncă Hadoop.

hdfs-logo

HDFS , distribuit sub licența Apache oferă un cadru de bază pentru împărțirea colecțiilor de date între mai multe noduri. În HDFS, fișierele mari sunt împărțite în blocuri, unde mai multe noduri dețin toate blocurile dintr-un fișier. Sistemul de fișiere este proiectat într-un mod de a amesteca toleranța la erori cu randamentul ridicat. Blocurile HDFS sunt încărcate pentru a menține un flux constant. De obicei nu sunt stocate în cache pentru a minimiza latența.



hbaselogo

HBase este un sistem de gestionare a bazelor de date orientat pe coloane care rulează pe HDFS. Aplicațiile HBase sunt scrise în Java, la fel ca aplicația MapReduce. Acesta cuprinde un set de tabele, în care fiecare tabel conține rânduri și coloane ca o bază de date tradițională. Când datele se încadrează în tabelul mare, HBase va stoca datele, le va căuta și va partaja automat tabelul pe mai multe noduri, astfel încât joburile MapReduce să le poată rula local. HBase oferă o garanție limitată pentru unele modificări locale. Modificările care au loc într-un singur rând pot reuși sau eșua în același timp.

hive

Dacă sunteți deja fluent cu SQL, atunci puteți utiliza Hadoop folosind Stup . Hive a fost dezvoltat de unii oameni de pe Facebook. Apache Hive reglementează procesul de extragere a biților din toate fișierele din HBase. Acceptă analiza seturilor de date mari stocate în HDFS-ul Hadoop și în sistemele de fișiere compatibile. De asemenea, oferă un limbaj SQL, numit HSQL (HiveSQL), care intră în fișiere și extrage fragmentele necesare pentru cod.

sqoop

Apache Sqoop este special conceput pentru a transfera eficient datele în bloc din bazele de date tradiționale în Hive sau HBase. Poate fi, de asemenea, utilizat pentru a extrage date de la Hadoop și a le exporta în magazine de date structurate externe, cum ar fi baze de date relaționale și depozite de date pentru întreprinderi. Sqoop este un instrument de linie de comandă, mapare între tabele și stratul de stocare a datelor, traducând tabelele într-o combinație configurabilă de HDFS, HBase sau Hive.

Pig1

Când datele stocate sunt vizibile pentru Hadoop, Porc Apache se scufundă în date și rulează codul care este scris în propria limbă, numită Pig Latin. Pig Latin este umplut cu abstractizări pentru manipularea datelor. Porcul vine cu funcții standard pentru sarcini obișnuite, cum ar fi medierea datelor, lucrul cu date sau pentru a găsi diferențe între șiruri. De asemenea, Pig permite utilizatorului să scrie singuri limbi, numite UDF (User Defined Function), atunci când funcțiile standard sunt scurte.

zookeper

Ingrijitor zoo este un serviciu centralizat care menține, configurează informații, dă un nume și oferă sincronizare distribuită pe un cluster. Acesta impune o ierarhie asemănătoare unui sistem de fișiere pe cluster și stochează toate metadatele pentru mașini, astfel încât să putem sincroniza munca diferitelor mașini.

NoSQL

Unele clustere Hadoop se integrează cu NoSQL magazine de date care vin cu propriile mecanisme de stocare a datelor într-un grup de noduri. Acest lucru le permite să stocheze și să recupereze date cu toate caracteristicile bazei de date NoSQL, după care Hadoop poate fi utilizat pentru a programa lucrări de analiză a datelor pe același cluster.

mahoutlogo

Conducător de elefanţi este conceput pentru a implementa un număr mare de algoritmi, clasificări și filtrare a analizei datelor în clusterul Hadoop. Mulți dintre algoritmii standard, cum ar fi mijloacele K, Dirichelet, modelul paralel și clasificările bayesiene, sunt gata să ruleze pe date cu o hartă stil Hadoop și să reducă.

Lucene, scris în Java și integrat ușor cu Hadoop, este un partener natural pentru Hadoop. Este un instrument destinat indexării blocurilor mari de text nestructurat. Lucene gestionează indexarea, în timp ce Hadoop gestionează interogările distribuite în cluster. Caracteristicile Lucene-Hadoop evoluează rapid pe măsură ce sunt dezvoltate noi proiecte.

Avro

Euro este un sistem de serializare care grupează datele împreună cu o schemă pentru a le înțelege. Fiecare pachet vine cu o structură de date JSON. JSON explică modul în care datele pot fi analizate. Antetul JSON specifică structura datelor, unde poate fi evitată necesitatea de a scrie etichete suplimentare în date pentru a marca câmpurile. Rezultatul este considerabil mai compact decât formatele tradiționale precum XML.

Un loc de muncă poate fi simplificat prin împărțirea acestuia în pași. În momentul în care proiectul a intrat în mai multe locuri de muncă Hadoop, Oozie începe să le proceseze în ordinea corectă. Gestionează fluxul de lucru așa cum este specificat de DAG (Graficul aciclic direcționat) și nu este nevoie de un monitor în timp util.

Instrumente GIS

Lucrul cu hărți geografice este o treabă importantă pentru clusterele care rulează Hadoop. GIS ( Sistem de informare geografic ) instrumentele pentru proiectele Hadoop au adaptat cele mai bune instrumente bazate pe Java pentru înțelegerea informațiilor geografice pentru a rula cu Hadoop. Bazele de date pot gestiona acum interogări geografice folosind coordonate, iar codurile pot implementa instrumentele GIS.

Adunarea tuturor datelor este egală cu stocarea și analizarea acestora. Apache Flume expediază „agenți speciali” pentru a aduna informații care vor fi stocate în HDFS. Informațiile colectate pot fi fișiere jurnal, API Twitter sau resturi de site-uri web. Aceste date pot fi înlănțuite și supuse analizelor.

Spark

Scânteie este următoarea generație care funcționează cam ca Hadoop care procesează date memorate în cache. Obiectivul său este de a face analiza datelor rapidă pentru a rula și a scrie cu un model general de execuție. Acest lucru poate optimiza grafice de operator arbitrare și poate sprijini calculul în memorie, ceea ce îi permite să interogheze date mai rapid decât motoarele bazate pe disc, cum ar fi Hadoop.

SQL pe Hadoop

Când este necesar să rulați o interogare rapidă ad-hoc a tuturor datelor din cluster, se poate scrie o nouă lucrare Hadoop, dar aceasta durează ceva timp. Când programatorii au început să facă acest lucru mai des, au venit cu instrumente scrise în limbajul simplu SQL. Aceste instrumente oferă acces rapid la rezultate.

Burghiu Apache

Apache Drill oferă interogări ad-hoc cu latență scăzută către numeroase și variate surse de date, inclusiv date imbricate. Drill, inspirat de Dremel de la Google, este conceput pentru a scala la 10.000 de servere și pentru a interoga petabytes de date în câteva secunde.

Acestea sunt instrumentele esențiale Hadoop pentru a contracara Big Data!

Ai o întrebare pentru noi? Vă rugăm să le menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Motive practice pentru a învăța Hadoop 2.0