Instalați Hadoop: Configurarea unui cluster Hadoop cu un singur nod



Acest tutorial este un ghid pas cu pas pentru a instala clusterul Hadoop și a-l configura pe un singur nod. Toți pașii de instalare Hadoop sunt pentru mașina CentOS.

Instalați Hadoop: Configurarea unui cluster Hadoop cu un singur nod

Din blogurile noastre anterioare , trebuie să aveți o idee teoretică despre Hadoop, HDFS și arhitectura sa.Dar pentru a obține aveți nevoie de cunoștințe practice bune.Sper că ți-ar fi plăcut blogul nostru anterior pe , acum vă voi duce prin cunoștințele practice despre Hadoop și HDFS. Primul pas înainte este instalarea Hadoop.

Există două moduri de a instala Hadoop, adică Un singur nod și Nod multiplu .





Cluster de nod unic înseamnă doar un singur DataNode care rulează și configurează toate NameNode, DataNode, ResourceManager și NodeManager pe o singură mașină. Acesta este utilizat în scopuri de studiu și testare. De exemplu, să luăm în considerare un exemplu de set de date într-o industrie medicală. Deci, pentru a testa dacă joburile Oozie au programat toate procesele cum ar fi colectarea, agregarea, stocarea și procesarea datelor într-o succesiune adecvată, folosim un cluster de nod unic. Poate testa cu ușurință și eficient fluxul de lucru secvențial într-un mediu mai mic în comparație cu mediile mari care conțin terabyți de date distribuite pe sute de mașini.

În timp ce se afla într-un Cluster cu mai multe noduri , există mai mult de un DataNode care rulează și fiecare DataNode rulează pe mașini diferite. Clusterul cu mai multe noduri este practic utilizat în organizații pentru analiza Big Data. Având în vedere exemplul de mai sus, în timp real, atunci când ne ocupăm de petabyte de date, acesta trebuie distribuit pe sute de mașini pentru a fi procesate. Astfel, aici folosim clusterul cu mai multe noduri.



În acest blog, vă voi arăta cum să instalați Hadoop pe un singur cluster de noduri.

Condiții prealabile

  • CUTIE VIRTUALĂ : este folosit pentru instalarea sistemului de operare pe acesta.
  • SISTEM DE OPERARE : Puteți instala Hadoop pe sisteme de operare bazate pe Linux. Ubuntu și CentOS sunt foarte frecvent utilizate. În acest tutorial, folosim CentOS.
  • JAVA : Trebuie să instalați pachetul Java 8 pe sistemul dvs.
  • HADOOP : Aveți nevoie de pachetul Hadoop 2.7.3.

Instalați Hadoop

Pasul 1: Click aici pentru a descărca pachetul Java 8. Salvați acest fișier în directorul de acasă.

Pasul 2: Extrageți fișierul Java Tar.

Comanda : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Instalați Hadoop - Edureka



Fig: Instalare Hadoop - Extragerea fișierelor Java

Pasul 3: Descărcați pachetul Hadoop 2.7.3.

Comanda : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Instalarea Hadoop - Descărcarea Hadoop

Pasul 4: Extrageți fișierul tar Hadoop.

Comanda : tar -xvf hadoop-2.7.3.tar.gz

Fig: Instalare Hadoop - Extragerea fișierelor Hadoop

Pasul 5: Adăugați căile Hadoop și Java în fișierul bash (.bashrc).

Deschis . bashrc fişier. Acum, adăugați Hadoop și Java Path așa cum se arată mai jos.

Comanda : vi .bashrc

Fig: Instalare Hadoop - Setare variabilă de mediu

Apoi, salvați fișierul bash și închideți-l.

Pentru aplicarea tuturor acestor modificări la Terminalul curent, executați comanda sursă.

Comanda : sursa .bashrc

java schimba dublu la int

Fig: Instalare Hadoop - Variabile de mediu reîmprospătate

Pentru a vă asigura că Java și Hadoop au fost instalate corect în sistemul dvs. și că pot fi accesate prin terminal, eexecutați comenzile versiunii java -version și hadoop.

Comanda : java-versiune

Fig: Instalare Hadoop - Verificarea versiunii Java

Comanda : hadoopversiune

Fig: Instalarea Hadoop - Verificarea versiunii Hadoop

Pasul 6 : Editați fișierul .

Comanda: cd hadoop-2.7.3 / etc / hadoop /

Comanda: eu sunt

Toate fișierele de configurare Hadoop se află în hadoop-2.7.3 / etc / hadoop director așa cum puteți vedea în instantaneul de mai jos:

Fig: Instalare Hadoop - Fișiere de configurare Hadoop

Pasul 7 : Deschis core-site.xml și editați proprietatea menționată mai jos în interiorul etichetei de configurare:

core-site.xml informează demonul Hadoop unde rulează NameNode în cluster. Conține setări de configurare ale nucleului Hadoop, cum ar fi setările I / O care sunt comune HDFS și MapReduce.

Comanda : vi core-site.xml

Fig: Instalare Hadoop - Configurarea core-site.xml

fs.default.name hdfs: // localhost: 9000

Pasul 8: Editați | × hdfs-site.xml și editați proprietatea menționată mai jos în interiorul etichetei de configurare:

hdfs-site.xml conține setări de configurare a demonilor HDFS (de exemplu, NameNode, DataNode, SecondName NameNode). De asemenea, include factorul de replicare și dimensiunea blocului HDFS.

Comanda : vi hdfs-site.xml

Fig: Instalare Hadoop - Configurarea hdfs-site.xml

dfs.replication 1 dfs.permission false

Pasul 9 : Editați fișierul mapred-site.xml fișier și editați proprietatea menționată mai jos în interiorul etichetei de configurare:

mapred-site.xml conține setări de configurare ale aplicației MapReduce, cum ar fi numărul de JVM care poate rula în paralel, dimensiunea mapperului și a procesului de reducere, nucleele CPU disponibile pentru un proces etc.

În unele cazuri, fișierul mapred-site.xml nu este disponibil. Deci, trebuie să creăm fișierul mapred-site.xmlfolosind șablonul mapred-site.xml.

Comanda : cp mapred-site.xml.template mapred-site.xml

Comanda : noi cartred-site.xml.

Fig: Instalare Hadoop - Configurarea mapred-site.xml

mapreduce.framework.name fire

Pasul 10: Editați | × yarn-site.xml și editați proprietatea menționată mai jos în interiorul etichetei de configurare:

yarn-site.xml conține setări de configurare ResourceManager și NodeManager, precum dimensiunea de gestionare a memoriei aplicației, operația necesară pentru program și algoritm etc.

Comanda : vi yarn-site.xml

Fig: Instalare Hadoop - Configurarea yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Pasul 11: Editați | × hadoop-env.sh și adăugați calea Java așa cum se menționează mai jos:

hadoop-env.sh conține variabilele de mediu utilizate în script pentru a rula Hadoop, cum ar fi calea de pornire Java etc.

Comanda : noi hadoop-env.SH

Fig: Instalare Hadoop - Configurarea hadoop-env.sh

Pasul 12: Accesați directorul principal Hadoop și formatați NameNode.

Comanda : CD

Comanda : cd hadoop-2.7.3

Comanda : bin / hadoop purpose -format

Fig: Instalare Hadoop - Formatare NameNode

Aceasta formatează HDFS prin NameNode. Această comandă este executată numai pentru prima dată. Formatarea sistemului de fișiere înseamnă inițializarea directorului specificat de variabila dfs.name.dir.

Nu formatați niciodată, nu funcționați și rulați sistemul de fișiere Hadoop. Veți pierde toate datele stocate în HDFS.

Pasul 13: Odată formatat NameNode, accesați directorul hadoop-2.7.3 / sbin și porniți toți demonii.

Comanda: cd hadoop-2.7.3 / sbin

Fie puteți porni toți demonii cu o singură comandă, fie o puteți face individual.

Comanda: ./ start-all.sh

Comanda de mai sus este o combinație de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Sau puteți rula toate serviciile individual după cum urmează:

Start NameNode:

NameNode este elementul central al unui sistem de fișiere HDFS. Păstrează arborele directorului tuturor fișierelor stocate în HDFS și urmărește toate fișierele stocate în cluster.

Comanda: ./scop de pornire hadoop-daemon.sh

Fig: Instalare Hadoop - Start NameNode

Start DataNode:

La pornire, un DataNode se conectează la Namenode și răspunde la solicitările de la Namenode pentru diferite operațiuni.

Comanda: ./hadoop-daemon.sh start datanode

Fig: Instalarea Hadoop - Pornirea DataNode

Porniți ResourceManager:

ResourceManager este masterul care arbitrează toate resursele cluster disponibile și, astfel, ajută la gestionarea aplicațiilor distribuite care rulează pe sistemul YARN. Activitatea sa este de a gestiona fiecare NodeManagers și ApplicationMaster al fiecărei aplicații.

Comanda: ./ fire-daemon.sh începe resurcemanager

Fig: Instalarea Hadoop - Pornirea ResourceManager

Porniți NodeManager:

NodeManager din cadrul fiecărei mașini este agentul care este responsabil pentru gestionarea containerelor, monitorizarea utilizării resurselor acestora și raportarea acestora către ResourceManager.

Comanda: ./ fire-daemon.sh începe nodemanager

Fig: Instalare Hadoop - Pornirea NodeManager

Porniți JobHistoryServer:

JobHistoryServer este responsabil pentru deservirea tuturor solicitărilor legate de istoricul locurilor de muncă de la client.

Comanda : ./mr-jobhistory-daemon.sh pornește historyserver

Pasul 14: Pentru a verifica dacă toate serviciile Hadoop sunt în funcțiune, rulați comanda de mai jos.

Comanda: jps

Fig: Instalare Hadoop - Verificarea Daemons

Pasul 15: Acum deschideți browserul Mozilla și accesați gazdă locală : 50070 / dfshealth.html pentru a verifica interfața NameNode.

Fig: Instalare Hadoop - Pornirea WebUI

Felicitări, ați instalat cu succes un singur cluster Hadoop dintr-o singură dată.În următorul nostru blog de , vom vorbi despre cum se instalează Hadoop și pe un cluster cu mai multe noduri.

Acum că ați înțeles cum să instalați Hadoop, verificați de Edureka, o companie de învățare online de încredere, cu o rețea de peste 250.000 de elevi mulțumiți răspândiți pe tot globul. Cursul Edureka Big Data Hadoop Certification Training îi ajută pe cursanți să devină experți în HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume și Sqoop folosind cazuri de utilizare în timp real în domeniul Retail, Social Media, Aviație, Turism, Finanțe.

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.