Cum se creează un cluster Hadoop cu Amazon EMR?



În acest articol vom explora serviciul AWS EMR și în acest proces vom învăța Cum să creăm un cluster Hadoop cu Amazon EMR?

În acest articol despre Cum să creați Cluster Cu Amazon EMR vom vedea cum să rulăm și să scalăm cu ușurință aplicațiile Hadoop și Big Data. Următoarele indicații vor fi tratate în acest articol,

Continuăm cu acest Cum se creează un cluster Hadoop cu Amazon EMR?





Cum se creează un cluster Hadoop cu Amazon EMR?

Când căutăm ceva în Google sau Yahoo, obținem răspunsul într-o fracțiune de secundă. Cum este posibil ca Google, Yahoo și alte motoare de căutare să returneze rezultatele atât de repede de pe web-ul în continuă creștere? Motoarele de căutare accesează cu crawlere prin internet, descarcă paginile web și creează un index așa cum se arată mai jos. Pentru orice interogare de la noi, utilizează indexul pentru a afla care sunt toate paginile web care conțin textul pe care îl căutam. Privind indexul de mai jos din partea dreaptă, putem ști clar că Hadoop este că există o pagină web 1, 2 și 3.

Imagine - Cum să creați un cluster Hadoop cu Amazon EMR - EdurekaApoi, Algoritm PageRanking este folosit care se bazează pe modul în care paginile sunt conectate pentru a afla ce pagină să se afișeze în partea de sus și care în partea de jos. În scenariul de mai jos, W1 este „cel mai popular”, deoarece toată lumea se conectează la acesta, iar W4 este „cel mai puțin popular”, deoarece nimeni nu se conectează la acesta. Deci, W1 este afișat în partea de sus și W4 în partea de jos în rezultatele căutării.



Odată cu explozia paginilor web, aceste motoare de căutare găseau provocări pentru a crea index și pentru a face calculele PageRanking. Aici a avut loc nașterea Hadoop în Yahoo și ulterior a devenit FOSS (software gratuit și open source) sub ASF (Apache Software Foundation). Odată ajuns sub ASF, multe companii au început să se intereseze de Hadoop și au început să contribuie la îmbunătățirea acestuia. Hadoop a fost cel care a început revoluția Big Data, dar o mulțime de alte programe precum Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume au început să evolueze pentru a aborda limitările și lacunele din Hadoop.

Motoarele de căutare web au fost primele care au folosit Hadoop, dar mai târziu o mulțime de cazuri de utilizare au început să evolueze pe măsură ce au fost generate din ce în ce mai multe date. Să luăm exemplul unei aplicații de comerț electronic folosită pentru a recomanda cărților utilizatorului. Conform diagramei de mai jos, user1 a cumpărat book1, book2 și book3, user2 a cumpărat câteva cărți și așa mai departe. Privind cu atenție, putem observa că user1 și user2 au un gust similar cu cel pe care l-au cumpărat book1 și book2. Deci, book3 poate fi recomandat utilizatorului2 și book4 poate fi recomandat utilizatorului1. Aceasta se numește Filtrare colaborativă, un tip de algoritm de învățare automată. Putem răsturna diagrama de mai jos și putem obține cărți similare.

În cazul de mai sus am creat index, PageRanked și recomandat utilizatorului, dimensiunea datelor a fost mică și astfel am putut vizualiza datele și deduce unele rezultate din acestea. Pe măsură ce dimensiunea datelor crește de la o zi la alta și este scăpată de sub control, aici apar instrumentele Big Data precum Hadoop.



Hadoop rezolvă o mulțime de probleme, dar instalarea Hadoop și a altor programe Big Data nu a fost niciodată o sarcină ușoară. Există o mulțime de parametri de configurare de modificat, cum ar fi probleme de integrare, instalare și configurare cu care să lucrați. Aici sunt companii precum Cloudera, și ajutorul Databricks. Acestea facilitează instalarea software-ului Big Data și oferă asistență comercială, de exemplu, să presupunem că se întâmplă ceva în producție. Amazon EMR (Elastic MapReduce) ușurează mult mai ușor utilizarea Hadoop etc. Numele Elastic MapReduce este un pic greșit, deoarece EMR acceptă și alte modele de calcul distribuite, cum ar fi Resilient Distributed Datasets și nu doar MapReduce.

În acest tutorial, vom explora cum să configurați un cluster EMR pe AWS Cloud și în viitorul tutorial, vom explora cum să rulați Spark, Hive și alte programe deasupra acestuia.

Continuăm cu acest Cum se creează un cluster Hadoop cu Amazon EMR?

Demo: Crearea unui cluster EMR în AWS

Pasul 1: Mergeți la Consola de management EMR și faceți clic pe „Creați cluster”. În consolă, metadatele pentru cluster terminat este, de asemenea, salvat timp de două luni gratuit. Acest lucru permite clonării terminate să fie clonate și create din nou.

Pasul 2 : Din ecranul cu opțiuni rapide, faceți clic pe „Accesați opțiunile avansate” pentru a specifica mult mai multe detalii despre cluster.

Pasul 3: În fila Opțiuni avansate, putem selecta diferite programe care vor fi instalate pe clusterul EMR. Pentru o interfață SQL, Hive poate fi selectat. Pentru o interfață de limbă a fluxului de date, Pig poate fi selectat. Pentru coordonarea distribuită a aplicației poate fi selectat ZooKeeper și așa mai departe. Această filă ne permite, de asemenea, să adăugăm pași, care este o sarcină opțională. Pașii sunt lucrări de procesare Big Data utilizând MapReduce, Pig, Hive etc. Acestea pot fi adăugate în această filă sau ulterior, odată ce clusterul a fost creat. Faceți clic pe „Next” pentru a selecta hardware-ul necesar pentru clusterul EMR.

Pasul 4: Hadoop urmărește arhitectura master-lucrător în care masterul realizează toată coordonarea, cum ar fi planificarea și atribuirea lucrării și verificarea progresului acestora, în timp ce lucrătorii efectuează munca efectivă de procesare și stocare a datelor. Un singur master este un punct unic de eșec (SPOF). Amazon EMR acceptă multi-master pentru High Availability (HA). Pasul anterior permite configurarea unui cluster multi-master în EMR.

EMR permite două tipuri de noduri, Core și Task. Nodul de bază este utilizat atât pentru procesarea, cât și pentru stocarea datelor, iar nodul de activitate este utilizat doar pentru prelucrarea datelor. Pentru acest tutorial, putem selecta doar un singur nucleu și niciun nod de activitate, deoarece implică costuri mai mici pentru noi. De asemenea, alege Instanțe spot peste La cerere deoarece instanțele Spot sunt mai ieftine. Problema cu instanțele Spot este că acestea pot fi terminate automat de AWS cu un o notificare de două minute . Acest lucru este bine din motive de practică și, de asemenea, în unele scenarii reale. Instanțele spot sunt terminate automat, deoarece au prioritate redusă față de alte tipuri de instanțe. Faceți clic pe „Următorul”.

inversul unui număr în java

Pasul 5: Specificați numele clusterului. și faceți clic pe „Următorul”. Observați că „Protecția la terminare” este activată în mod implicit, acest lucru asigură faptul că clusterul EMR nu este șters accidental prin introducerea câtorva pași în timp ce terminați clusterul.

Pasul 6: În filă, sunt specificate diferitele opțiuni de securitate pentru clusterul EMR. KeyPair trebuie selectat pentru conectarea la instanța EC2. EMR va crea automat rolurile și grupurile de securitate adecvate și le va atașa la nodurile master și la lucrătorul EC2. Faceți clic pe „Creați cluster”.

Crearea clusterului durează câteva minute, deoarece instanțele EC2 trebuie cumpărate și diferitele software Big Data trebuie instalate și configurate. Inițial starea clusterului ar fi în starea „Pornire” și trecerea la starea „În așteptare”. În starea „În așteptare”, clusterul EMR ne așteaptă pur și simplu să trimitem diferite joburi de prelucrare Big Data precum MR, Spark, Hive etc.

De asemenea, avertizați de la consola de management EC2 și rețineți că instanțele master și lucrător EC2 ar trebui să fie în stare de funcționare. Acestea sunt instanțele Spot care au fost create ca parte a creării clusterului EMR. Același EC2 poate fi observat și din fila Hardware din EMR Management Console. Rețineți că în fila Hardware prețul pentru instanțele Spot EC2 este menționat ca 0,032 $ / oră. Prețul instanțelor Spot continuă să se schimbe în timp și este mult mai mic decât la prețul On-Demand EC2.

Pasul 7: Acum că clusterul EMR a fost adăugat cu succes, pot fi adăugați pași sau joburi de procesare Big Data. Mergeți la fila Pași și faceți clic pe „Adăugați pas” și selectați tipul de pas (MR, Hive, Spark etc.). Vom explora același lucru în următorul tutorial. Pentru moment, faceți clic pe Anulare.

tabel într-un tabel html

Pasul 8: Acum, că am văzut cum să pornim EMR, să vedem cum să oprim același lucru.

Pasul 8.1: Faceți clic pe Terminare.

Pasul 8.2: Așa cum s-a menționat în pașii anteriori, „Protecția la terminare” este Activată pentru clusterul EMR și butonul Terminare a fost dezactivat. Faceți clic pe Modificare.

Pasul 8.3: Selectați butonul radio „Dezactivat” și faceți clic pe bifa. Acum ar trebui să fie activat butonul Terminare. Acesta este pasul suplimentar introdus de EMR, doar pentru a ne asigura că nu ștergem accidental clusterul EMR.

Observați că clusterul EMR va fi în starea de Terminare și că EC2-urile vor fi terminate. În cele din urmă, clusterul EMR va fi mutat în starea Terminat, de aici facturarea noastră cu AWS se oprește. Asigurați-vă că ați terminat clusterul, pentru a nu suporta costuri AWS suplimentare.

Concluzie

În acest tutorial am văzut cum să pornim clusterul EMR în câteva minute de la consola web (browser), același lucru poate fi automatizat folosind , AWS SDK sau folosind AWS CloudFormation . După cum s-a observat, configurarea unui cluster EMR poate fi făcută este o chestiune de minute, iar prelucrarea Big Data poate fi pornită imediat, odată ce procesarea este terminată, ieșirea poate fi stocată în S3 sau DynamoDB și deci închiderea clusterului pentru a opri facturarea. Datorită acestui model de prețuri și ușurinței de utilizare, EMR este un mare succes pentru cei care fac prelucrarea Big Data. Nu este nevoie să cumpărați server în număr mare, să obțineți licențe pentru software-ul Big Data și să le întrețineți. ”

Deci, asta este băieții, acest lucru ne aduce la sfârșitul acestui articol despre Cum să creați un cluster Hadoop cu Amazon EMR?În cazul în care, dacă doriți să câștigați expertiză în acest subiect, Edureka a venit cu un curriculum care acoperă exact ceea ce ați avea nevoie pentru a sparge examenul Solution Architect! Puteți arunca o privire la detaliile cursului pentru Instruire.

În cazul oricăror întrebări legate de acest blog, vă rugăm să nu ezitați să puneți întrebări în secțiunea de comentarii de mai jos și ne-ar face plăcere să vă răspundem cel mai devreme.