Tutorial HDFS: Introducere în HDFS și caracteristicile sale



Acest blog Tutorial HDFS vă va ajuta să înțelegeți sistemul de fișiere distribuite HDFS sau Hadoop și caracteristicile sale. De asemenea, veți explora pe scurt componentele sale de bază.

Tutorial HDFS

Înainte de a merge mai departe în acest blog tutorial HDFS, permiteți-mi să vă prezint câteva dintre statisticile nebunești legate de HDFS:

  • În 2010, Facebook a pretins că are unul dintre cele mai mari stocări de cluster HDFS 21 Petabytes de date.
  • În 2012, Facebook au declarat că au cel mai mare cluster HDFS cu mai mult de 100 PB de date .
  • Și Yahoo ! are mai mult de 100.000 CPU peste 40.000 de servere rulează Hadoop, cu cel mai mare cluster Hadoop care rulează 4.500 de noduri . Toate acestea, Yahoo! magazine 455 petabytes de date în HDFS.
  • De fapt, până în 2013, majoritatea marilor nume din Fortune 50 au început să folosească Hadoop.

Prea greu de digerat? Dreapta. După cum sa discutat în , Hadoop are două unități fundamentale - S A se enerva și Prelucrare . Când spun o parte de stocare a Hadoop, mă refer la HDFS care înseamnă Sistem de fișiere distribuite Hadoop . Deci, în acest blog, vă voi prezenta HDFS .





Aici, voi vorbi despre:

diferența dintre clasă și interfață
  • Ce este HDFS?
  • Avantajele HDFS
  • Caracteristici ale HDFS

Înainte de a vorbi despre HDFS, permiteți-mi să vă spun, ce este un sistem de fișiere distribuit?



DFS sau sistem de fișiere distribuite:

Sistemul de fișiere distribuite vorbește despre gestionarea date , adică fișiere sau foldere pe mai multe computere sau servere. Cu alte cuvinte, DFS este un sistem de fișiere care ne permite să stocăm date pe mai multe noduri sau mașini într-un cluster și permite mai multor utilizatori să acceseze date. Deci, în esență, servește același scop ca sistemul de fișiere disponibil în mașina dvs., cum ar fi pentru Windows aveți NTFS (New Technology File System) sau pentru Mac aveți HFS (Hierarchical File System). Singura diferență este că, în cazul sistemului de fișiere distribuite, stocați date în mai multe mașini, mai degrabă decât o singură mașină. Chiar dacă fișierele sunt stocate în rețea, DFS organizează și afișează date în așa fel încât un utilizator care stă pe o mașină să simtă că toate datele sunt stocate chiar în mașina respectivă.

Ce este HDFS?

Hadoop Distributed File System sau HDFS este un sistem de fișiere distribuite bazat pe Java care vă permite să stocați date mari pe mai multe noduri într-un cluster Hadoop. Deci, dacă instalați Hadoop, veți obține HDFS ca sistem de stocare de bază pentru stocarea datelor în mediul distribuit.

Să luăm un exemplu pentru a-l înțelege. Imaginați-vă că aveți zece mașini sau zece computere cu un hard disk de 1 TB pe fiecare mașină. Acum, HDFS spune că, dacă instalați Hadoop ca platformă pe aceste zece mașini, veți primi HDFS ca serviciu de stocare. Sistemul de fișiere distribuite Hadoop este distribuit în așa fel încât fiecare mașină contribuie la stocarea individuală pentru stocarea oricărui tip de date.



Tutorial HDFS: Avantajele HDFS

1. Stocare distribuită:

Stocare distribuită - Tutorial HDFS - Edureka

Când accesați sistemul de fișiere distribuite Hadoop de la oricare dintre cele zece mașini din clusterul Hadoop, vă veți simți ca și când v-ați fi conectat la o singură mașină mare care are o capacitate de stocare de 10 TB (stocare totală peste zece mașini). Ce înseamnă? Înseamnă că puteți stoca un singur fișier mare de 10 TB care va fi distribuit pe cele zece mașini (câte 1 TB fiecare).Deci este fără a se limita la limitele fizice a fiecărei mașini individuale.

2. Calcul distribuit și paralel:

Deoarece datele sunt împărțite între mașini, ne permite să profităm Calcul distribuit și paralel . Să înțelegem acest concept prin exemplul de mai sus. Să presupunem că este nevoie de 43 de minute pentru a procesa un fișier de 1 TB pe o singură mașină. Deci, acum spune-mi, cât timp va dura pentru a procesa același fișier de 1 TB când ai 10 mașini într-un cluster Hadoop cu configurație similară - 43 de minute sau 4,3 minute? 4,3 minute, corect! Ce s-a intamplat aici? Fiecare dintre noduri lucrează cu o parte a fișierului de 1 TB în paralel. Prin urmare, lucrarea care dura 43 de minute înainte, se termină în doar 4,3 minute acum, deoarece lucrarea a fost împărțită în zece mașini.

3. Scalabilitate orizontală:

java system.exit (1)

Nu în ultimul rând, să vorbim despre scalare orizontală sau extinderea în Hadoop. Există două tipuri de scalare: vertical și orizontală . În scalarea verticală (creșteți), creșteți capacitatea hardware a sistemului dvs. Cu alte cuvinte, procurați mai mult RAM sau CPU și îl adăugați la sistemul dvs. existent pentru a-l face mai robust și mai puternic. Dar există provocări asociate cu scalarea verticală sau cu creșterea:

  • Există întotdeauna o limită la care vă puteți crește capacitatea hardware. Deci, nu puteți continua să măriți memoria RAM sau CPU-ul mașinii.
  • În scalarea verticală, vă opriți mai întâi mașina. Apoi creșteți memoria RAM sau CPU pentru a face din acesta o stivă hardware mai robustă. După ce ați crescut capacitatea hardware, reporniți aparatul. Acest timp de oprire în care vă opriți sistemul devine o provocare.

In caz de scalare orizontală (redimensionare) , adăugați mai multe noduri la clusterul existent în loc să creșteți capacitatea hardware a mașinilor individuale. Și cel mai important, puteți adăugați mai multe mașini în mișcare Adică fără a opri sistemul . Prin urmare, în timp ce redimensionăm nu avem timp de oprire sau zonă verde, nimic de acest fel. La sfârșitul zilei, veți avea mai multe mașini care lucrează în paralel pentru a vă satisface cerințele.

Video tutorial HDFS:

Puteți consulta videoclipul prezentat mai jos, unde toate conceptele legate de HDFS au fost discutate în detaliu:

Tutorial HDFS: Caracteristici ale HDFS

Vom înțelege aceste caracteristici în detaliu atunci când vom explora Arhitectura HDFS în următorul nostru blog tutorial HDFS. Dar, deocamdată, să avem o prezentare generală a caracteristicilor HDFS:

  • Cost: HDFS, în general, este implementat pe un hardware de marfă precum desktopul / laptopul pe care îl utilizați în fiecare zi. Deci, este foarte economic în ceea ce privește costul de proprietate al proiectului. Întrucât, folosim hardware de marfă low cost, nu este nevoie să cheltuiți o sumă imensă de bani pentru extinderea clusterului dvs. Hadoop. Cu alte cuvinte, adăugarea mai multor noduri la HDFS este rentabilă.
  • Varietatea și volumul datelor: Când vorbim despre HDFS, atunci vorbim despre stocarea datelor imense, adică Terabytes și petabytes de date și diferite tipuri de date. Deci, puteți stoca orice tip de date în HDFS, fie ele structurate, nestructurate sau semi-structurate.
  • Fiabilitate și toleranță la erori: Când stocați date pe HDFS, acesta împarte intern datele date în blocuri de date și le stochează într-un mod distribuit în clusterul dvs. Hadoop. Informațiile referitoare la blocul de date care se află pe care dintre nodurile de date sunt înregistrate în metadate. NameNode gestionează metadatele și fișierul DataNodes sunt responsabili pentru stocarea datelor.
    Nodul de nume reproduce, de asemenea, datele, adică păstrează mai multe copii ale datelor. Această replicare a datelor face HDFS foarte fiabil și tolerant la erori. Deci, chiar dacă oricare dintre noduri eșuează, putem prelua datele din replicile care se află pe alte noduri de date. În mod implicit, factorul de replicare este 3. Prin urmare, dacă stocați 1 GB de fișier în HDFS, acesta va ocupa în cele din urmă 3 GB de spațiu. Nodul de nume actualizează periodic metadatele și menține coerent factorul de replicare.
  • Integritatea datelor: Integritatea datelor vorbește dacă datele stocate în HDFS-ul meu sunt corecte sau nu. HDFS verifică în mod constant integritatea datelor stocate în raport cu suma sa de verificare. Dacă găsește vreo eroare, se raportează la nodul de nume despre aceasta. Apoi, nodul de nume creează replici noi suplimentare și, prin urmare, șterge copiile corupte.
  • Debit ridicat: Randamentul este cantitatea de muncă efectuată într-o unitate de timp. Vorbește despre cât de repede puteți accesa datele din sistemul de fișiere. Practic, vă oferă o perspectivă despre performanța sistemului. După cum ați văzut în exemplul de mai sus, în care am folosit zece mașini în mod colectiv pentru a îmbunătăți calculul. Acolo am reușit să reducem timpul de procesare de la 43 minute la o simplă 4,3 minute întrucât toate mașinile funcționau în paralel. Prin urmare, prin prelucrarea datelor în paralel, am redus timpul de procesare enorm și astfel am obținut un randament ridicat.
  • Localitatea datelor: Localitatea datelor vorbește despre mutarea unității de procesare în date, mai degrabă decât a datelor în unitatea de procesare. În sistemul nostru tradițional, obișnuiam să aducem datele la nivelul aplicației și apoi să le procesăm. Dar acum, datorită arhitecturii și volumului uriaș al datelor, aducerea datelor la nivelul aplicației va fireduce performanța rețelei într-o măsură vizibilă.Deci, în HDFS, aducem partea de calcul către nodurile de date în care se află datele. Prin urmare, nu mutați datele, aduceți programul sau procesulparte a datelor.

Deci, acum aveți o scurtă idee despre HDFS și caracteristicile sale. Dar credeți-mă, băieți, acesta este doar vârful aisbergului. În următorul meu , Mă voi scufunda profund în Arhitectura HDFS și voi dezvălui secretele din spatele succesului HDFS. Împreună vom răspunde la toate acele întrebări care vă gândesc, cum ar fi:

  • Ce se întâmplă în culise când citiți sau scrieți date în sistemul de fișiere distribuite Hadoop?
  • Care sunt algoritmii precum conștientizarea rack-ului care face HDFS atât de tolerant la erori?
  • Cum gestionează și creează replici sistemul de fișiere distribuite Hadoop?
  • Ce sunt operațiile de blocare?

Acum că ați înțeles HDFS și caracteristicile sale, verificați de Edureka, o companie de învățare online de încredere, cu o rețea de peste 250.000 de elevi mulțumiți răspândiți pe tot globul. Cursul Edureka Big Data Hadoop Certification Training îi ajută pe cursanți să devină experți în HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume și Sqoop folosind cazuri de utilizare în timp real în domeniul Retail, Social Media, Aviație, Turism, Finanțe.

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.

ce sunt spațiile de nume în c ++