Cloudera Hadoop: Noțiuni introductive despre CDH Distribution



Acest blog Edureka pe Cloudera Hadoop Tutorial vă va oferi o perspectivă completă asupra diferitelor componente Cloudera, cum ar fi Cloudera Manager, Parcele, Hue etc.

Odată cu creșterea cererii de Big Data, și Apache Hadoop estelainima revoluției, a schimbat modul în care organizăm și calculăm datele. Nevoia organizațiilor de a alinia Hadoop la nevoile lor de afaceri a alimentat apariția distribuțiilor comerciale. Distribuțiile comerciale Hadoop sunt de obicei împachetate cu caracteristici, concepute pentru a eficientiza implementarea Hadoop. Cloudera Hadoop Distribution oferă o platformă scalabilă, flexibilă și integrată, care facilitează gestionarea cu ușurință a volumelor și varietăților de date în creștere rapidă în întreprinderea dvs.

În acest blog despre Cloudera Hadoop Distribution, vom aborda următoarele subiecte:





Cloudera Hadoop: Introducere în Hadoop

Hadoop este un cadru open source Apache care stochează și procesează Big Data într-un mediu distribuitpestecluster folosind modele simple de programare. Hadoop oferă calcul paralel pe partea superioară a spațiului de stocare distribuit.Pentru a afla mai multe despre Hadoop în detaliu de la vă puteți referi la aceasta

După această scurtă introducere în Hadoop, permiteți-mi să explic acum diferitele tipuri de distribuție Hadoop.



Cloudera Hadoop: Distribuții Hadoop

Deoarece Apache Hadoop este open source, multe companii au dezvoltat distribuții care depășesc codul original open source. Acest lucru este foarte asemănător cu distribuțiile Linux, cum ar fi RedHat, Fedora și Ubuntu. Fiecare distribuție Linux acceptă propriile funcționalități și caracteristici precum GUI ușor de utilizat în Ubuntu. În mod similar, palarie rosie este popular în cadrul întreprinderilor, deoarece oferă suport și oferă, de asemenea, ideologie pentru a face schimbări în orice parte a sistemului după bunul plac. Red Hat vă scutește de problemele de compatibilitate cu software-ul. Aceasta este de obicei o problemă importantă pentru utilizatoricare trec de la Windows.

De asemenea, există 3 tipuri principale de distribuții Hadoop care au propriul set de funcționalități și caracteristici și sunt construite sub baza HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Distribuție Cloudera Hadoop

Cloudera este tendința pieței în spațiul Hadoop și este primul care a lansat distribuția comercială Hadoop. Oferă servicii de consultanță pentru a acoperi decalajul dintre „ce oferă Apache Hadoop” și „ce au nevoie organizațiile”.

Distribuția Cloudera este:

  • Rapid pentru afaceri : De la analiză la știința datelor și tot ce există, Cloudera oferă performanțele de care aveți nevoie pentru a debloca potențialul datelor nelimitate.
  • Face Hadoop ușor de gestionat : Cu Cloudera Manager, vrăjitorii automatizați vă permit să implementați rapid clusterul, indiferent de scară sau de mediu de implementare.
  • Sigur, fără compromisuri: Satisfac cerințele stricte de securitate și conformitate a datelor, fără a sacrifica agilitatea afacerii Cloudera oferă o abordare integrată a securității și guvernanței datelor.

Horton-Works Distribuție

Platforma de date Horton-Works (HDP) este în întregime o platformă open source concepută pentru a manevra date din mai multe surse și formate. Platforma include diverse instrumente Hadoop, cum ar fi sistemul de fișiere distribuite Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive și componente suplimentare.

De asemenea, acceptă funcții precum:

  • HDP face Hive Mai repede prin noul său proiect Stinger.
  • HDP evită blocarea furnizorului prin angajament la o versiune bifurcată a Hadoop.
  • HDP este axat pe îmbunătățirea uzabilitate a platformei Hadoop.

Distribuție MapR

MapR este un furnizor de soluții Hadoop axat pe platformă, la fel ca HortonWorks și Cloudera. MapR integrează propriul sistem de baze de date, cunoscut sub numele de MapR-DB, oferind în același timp servicii de distribuție Hadoop. Se pretinde că MapR-DB este de patru până la șapte ori mai rapid decât baza de date Hadoop stoc, adică HBase, care este executată pe alte distribuții.

Are caracteristicile sale interesante, cum ar fi:

  • Este singura distribuție Hadoop care include Pig, Hive și Sqoop fără dependențe Java - deoarece se bazează pe sistemul de fișiere MapR.
  • MapR este cea mai pregătită distribuție Hadoop, cu multe îmbunătățiri care îl fac mai ușor de utilizat, mai rapid și mai fiabil.

Acum, să discutăm în detaliu Distribuția Cloudera Hadoop.

Abonați-vă la canalul nostru YouTube pentru a primi noi actualizări ...

Cloudera Hadoop: distribuție Cloudera

Cloudera este cel mai cunoscut jucător din spațiul Hadoop care a lansat prima distribuție comercială Hadoop.

Fig: Distribuție Cloudera Hadoop

Cloudera Hadoop Distribution acceptă următorul set de caracteristici:

  1. CDH-ul Cloudera cuprinde toate componentele open source, vizează implementări de clasă enterprise și este una dintre cele mai populare distribuții comerciale Hadoop.
  2. Cunoscut pentru inovațiile sale, Cloudera a fost primul care a oferit SQL-pentru-Hadoop cu al ei; cu al lui Impala motor de interogare.
  3. Consola de administrare - Manager Cloudera , este ușor de utilizat și implementat cu interfața de utilizator bogată care afișează toate informațiile clusterului într-un mod organizat și curat.
  4. În CDH puteți adăuga servicii la clusterul care funcționează și nu funcționează.
  5. Alte adăugiri ale Cloudera includ securitate, interfață cu utilizatorul și interfețe pentru integrarea cu aplicații terțe.
  6. CDH oferă Șabloane nod adică permite crearea unui grup de noduri într-un cluster Hadoop cu configurație diferită. Eradică utilizarea aceleiași configurații în întregul cluster Hadoop.
  7. De asemenea, suportă:
    • Fiabilitate
      Furnizorii Hadoop acționează prompt ca răspuns ori de câte ori este detectat un bug. Cu intenția de a face soluțiile comerciale mai stabile, patch-urile și corecțiile sunt implementate imediat.
    • A sustine
      Furnizorii Cloudera Hadoop oferă îndrumări și asistență tehnică care facilitează adoptarea de către clienți a Hadoop pentru sarcini la nivel de întreprindere și aplicații critice pentru misiune.

    • Completitudine
      Furnizorii Hadoop își cuplează distribuțiile cu alte instrumente suplimentare care îi ajută pe clienți să personalizeze aplicația Hadoop pentru a-și îndeplini sarcinile specifice.

Distribuțiile Cloudera vin cu 2 tipuri diferite de ediții.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Acum să vedem diferențele dintre ele.

Caracteristici Cloudera-Express Cloudera-Enterprise
Managementul clusterelor
1. Management multi-clusterdada
2. Managementul resurselordada
Implementare
1. Suport pentru CDH 4 și 5dada
2. Actualizarea continuă a CDHNuda
Managementul Serviciului și Configurării
1. Gestionați serviciile HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark și Accumulodada
2. Repornirea continuă a serviciilorNuda
Securitate
1. Autentificare LDAPNuda
2. Autentificare SAMLNuda
Monitorizare și diagnostic
1. Istoricul sănătățiidada
Managementul alertelor
1. Alertă prin e-maildada
2. Alertă prin SNMPNuda
Caracteristici avansate de gestionare
1. Copiere de rezervă și recuperare automatăNuda
2. Navigarea și căutarea fișierelorNuda
3. Rapoarte de utilizare MapReduce, Impala, HBase, YarnNuda

Cloudera Hadoop: Manager Cloudera

Potrivit Cloudera, Cloudera Manager este cel mai bun mod de a face acest lucru instalare , configurați , administra , și monitor stiva Hadoop.

Oferă:

clasa python __init__
  1. Implementare și configurare automată
  2. Monitorizare și raportare personalizabile
  3. Depanare robustă fără efort
  4. Zero - Întreținere de nefuncționare

Obțineți cunoștințe aprofundate despre Cloudera Hadoop și diferitele sale instrumente

Demonstrarea Managerului Cloudera

Să explorăm Managerul Cloudera.

1. Figura de mai jos arată numărul de servicii care rulează în prezent în Cloudera Manager. De asemenea, puteți vizualiza graficele despre utilizarea procesorului cluster, utilizarea IO a discurilor etc.

Fig: Pagina de pornire a Managerului Cloudera

2. Imaginea de mai jos demonstrează clusterul HBase. Vă oferă diagrame și grafice despre stările de sănătate ale serverului REST HBase care rulează în prezent.

Fig: Condițiile de sănătate ale serverului HBase

3. Acum, să aruncăm o privire la fila Instanțe a clusterului HBase, unde puteți verifica starea și configurația IP.

Fig: Stare și adresă IP a serverului gazdă al clusterului HBase

4. Apoi, aveți fila Configurare. Aici puteți vedea toți parametrii de configurare și le puteți modifica valorile.

Fig: Configurarea clusterului HBase

Acum, să înțelegem ce sunt coletele din Cloudera.

Cloudera Hadoop: colete

Un pachet este un format de distribuție binară care conține fișierele programului, împreună cu metadate suplimentare utilizate de Cloudera Manager.

Pachetele sunt autonome și instalate într-un director versionat, ceea ce înseamnă că mai multe versiuni ale unui serviciu dat pot fi instalate unul lângă altul.

Mai jos sunt avantajele utilizării coletului:

  • Oferă distribuția CDH ca un singur obiect, adică, în loc să aibă un pachet separat pentru fiecare parte a CDH, coletele au doar un singur obiect de instalat.

  • Oferă consistență internă (întrucât CDH complet este distribuit ca o singură coletă, toate componentele CDH sunt potrivite și nu va exista riscul ca diferite părți să provină din diferite versiuni ale CDH).

  • Puteți instala, actualiza, retrograda, distribui și activa coletele din CDH folosind câteva clicuri.

Acum, să vedem cum se instalează și se activează serviciul Kafka în CDH folosind Parcels.

  1. Accesați pagina de pornire a managerului Cloudera >> Gazde >> Parcele așa cum se arată mai jos

    Fig: Selectarea coletelor de la gazde

2. Dacă nu vedeți Kafka în lista coletelor, puteți adăuga coletul la listă.

  1. Găsiți pachetul de versiune Kafka pe care doriți să o utilizați. Dacă nu îl vedeți, puteți adăuga depozitul de colete la listă.
  2. Găsiți pachetul pentru versiunea de Kafka pe care doriți să o instalați - Distribuția Cloudera a versiunilor Apache Kafka .
    Figura de mai jos demonstrează același lucru.

Fig: Calea depozitului pentru colet.

3. Copiați legătura așa cum se arată în figura de mai sus și adăugați-o în depozitul de colete la distanță, așa cum se arată mai jos.

Fig: Adăugarea căii Kafka din depozit

Patru.După adăugarea căii, Kafka va fi gata pentru descărcare. Puteți face clic pe butonul de descărcare și descărca Kafka.

Fig: Descărcarea Kafka

5. După ce Kafka este descărcat, tot ce trebuie să faceți este să îl distribuiți și să îl activați.

Fig: Activarea Kafka

Odată ce este activat, puteți continua și vizualiza Kafka în fila Servicii din managerul Cloudera.

Fig: serviciu Kafka

Cloudera Hadoop: Crearea unui flux de lucru Oozie

Crearea unui flux de lucru scriind manual codul XML și apoi executându-l este complicată. Puteți consulta acest lucru Programarea locului de muncă Oozie blog, pentru a cunoaște abordarea tradițională.

Puteți vedea imaginea de mai jos, unde am scris un fișier XML pentru a crea un flux de lucru simplu Oozie. Fig: Crearea unui flux de lucru Oozie folosind o abordare tradițională

După cum puteți vedea, chiar și pentru a crea un planificator Oozie simplu, a trebuit să scriem un cod XML imens care consumă mult timp, iar depanarea fiecărei linii devine greoaie. Pentru a depăși acest lucru, Cloudera Manager a introdus o nouă funcție numită Nuanţă care oferă o interfață grafică și o caracteristică simplă de glisare și plasare pentru a crea și executa fluxuri de lucru Oozie.

Acum, să vedem cum Hue îndeplinește aceeași sarcină într-un mod simplificat.

Înainte de a crea un flux de lucru, să creăm mai întâi fișiere de intrare, adică clickstream.txt și user.txt.
În fișierul user.txt, avem ID utilizator, nume, vârstă, țară, sex așa cum se arată mai jos. Avem nevoie de acest fișier de utilizator pentru a cunoaște numărul de utilizatori și face clic pe adresa URL (menționată în fișierul clickstream) pe baza codului de utilizator.

Fig: Crearea unui fișier text

Pentru a cunoaște numărul de clicuri de către utilizator pe fiecare adresă URL, avem un flux de clicuri care conține ID-ul utilizatorului și adresa URL.

Fig: fișier Clickstream

Să scriem interogările în fișierul script.

Fig: fișier script

După crearea fișierului utilizator, a fișierului clickstream și a fișierului script în continuare, putem continua și putem crea fluxul de lucru Oozie.

1. Puteți pur și simplu să glisați și să fixați fluxul de lucru Oozie așa cum se arată în imagine.

Fig: Trageți și fixați caracteristica de creare a fluxului de lucru Oozie

2. La scurt timp după ce ați renunțat la acțiune, trebuie să specificați căile către fișierul script și să adăugați parametrii menționați în fișierul script. Aici trebuie să adăugați parametrii OUTPUT, CLICKSTREAM și USER și să specificați calea către fiecare dintre parametri.

Fig: Adăugarea unui fișier script și a parametrilor necesari pentru a executa acțiunea

3. După ce ați specificat căile și ați adăugat parametrii, acum pur și simplu salvați și trimiteți fluxul de lucru așa cum se arată în imaginea de mai jos.

Fig: Salvarea și trimiterea acțiunii Oozie

4. După ce trimiteți sarcina, lucrarea dvs. este finalizată. Execuția și celelalte etape sunt luate în grijă de Hue.

Fig: Starea de execuție a jobului Oozie

5.Acum că am executat jobul Oozie, să aruncăm o privire la fila de acțiuni. Acesta conține ID-ul utilizatorului și starea fluxului de lucru. De asemenea, afișează codurile de eroare, dacă există, ora de începere și de sfârșit a elementului de acțiune.

Fig: Elemente prezente în fila acțiune a fluxului de lucru Oozie

6. Alături de fila acțiune se află fila detalii. În acest sens, putem vedea ora de începere și ultima oră modificată a lucrării.

Fig: Detalii despre fluxul de lucru Oozie.

7. Lângă fila Detalii, avem fila Configurare a fluxului de lucru.

Fig: Setări de configurare ale fluxului de lucru Oozie

7. În timpul executării elementului de acțiune, dacă există erori, acesta va fi listat în fila Jurnal. Puteți consulta instrucțiunile de eroare și le puteți depana în consecință.

Fig: Fișier jurnal care conține coduri de eroare și instrucțiuni de eroare

8. Iată codul XML al fluxului de lucru generat automat de Hue.

Fig: cod XML al fluxului de lucru Oozie

9.1. După cum ați specificat deja calea pentru directorul de ieșire la pasul 2, aici aveți directorul de ieșire în browserul HDFS așa cum se arată mai jos.

Fig: Director de ieșire al browserului HDFS

9.2 După ce faceți clic pe directorul de ieșire, veți găsi un fișier text numit output.txt și acel fișier text conține ieșirea efectivă așa cum se arată în figura de mai jos.

Fig: Text final de ieșire

Acesta este modul în care Hue ne simplifică munca oferind opțiunile de drag and drop pentru a crea un flux de lucru Oozie.

Sper că acest blog a fost util pentru înțelegerea distribuției Cloudera și a diferitelor componente Cloudera.

Doriți să participați la revoluția Big Data?

Acum că ați înțeles Cloudera Hadoop Distribution, verificați de Edureka, o companie de învățare online de încredere, cu o rețea de peste 250.000 de elevi mulțumiți răspândiți pe tot globul. Cursul Edureka Big Data Hadoop Certification Training îi ajută pe cursanți să devină experți în HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume și Sqoop folosind cazuri de utilizare în timp real în domeniul Retail, Social Media, Aviație, Turism, Finanțe.

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.