Hadoop 2.0 - Întrebări frecvente



Interesul pentru Hadoop a crescut de mai multe ori în ultimii doi ani. Această postare răspunde la întrebările dvs. și șterge multe îndoieli cu privire la Hadoop 2.0 și la utilizarea sa.

Aceasta este o postare de urmărire cu răspuns la întrebarea frecventă în timpul webinarului public de edureka! pe .

Întrebări frecvente despre Hadoop

Deepak:





Ce este Hadoop?
Apache Hadoop este un cadru software Open Source pentru stocarea și procesarea pe scară largă a seturilor de date pe un grup de hardware de marfă. Este un cadru software de gestionare a datelor cu sursă deschisă, cu stocare extensibilă și procesare distribuită. Acesta este construit și utilizat de o comunitate globală de colaboratori și utilizatori.

Citiți mai multe la postarea noastră pe blogul Hadoop și .



Căutare:

Care sunt cazurile de utilizare a datelor mari în industria călătoriilor, transporturilor și companiilor aeriene?

Soare:



Ne puteți indica un eșantion din viața reală a implementării Hadoop pe care îl putem studia?
Suntem livideîntr-o eră a congestiei în creștere la vârf. Operatorii de transport caută în permanență să găsească modalități rentabile de a-și furniza serviciile, păstrându-și în același timp flota de transport în bune condiții. Utilizarea Big Data Analytics în acest domeniu poate ajuta organizația cu:

  • Optimizarea traseului
  • Analize geospațiale
  • Modele de trafic și congestie
  • Întreținerea activelor
  • Managementul veniturilor (adică compania aeriană)
  • Managementul inventarului
  • Conservarea combustibilului
  • Marketing orientat
  • Loialitatea clienților
  • Prognoza capacității
  • Performanța și optimizarea rețelei

Puțini cazuri de utilizare din lumea reală sunt:
la) Determinarea costurilor zborului
b) Modelarea de predicție pentru logistica de inventar
c) Orbitz Worldwide - Modele de cumpărare ale clienților
d) Șase implementări Hadoop Super-Scale
este) Hadoop - Mai mult decât Adăugări
f) Hadoop în Enterprise

Puteți afla mai multe despre implementările Hadoop în lumea reală la:

Hirdesh:

Hadoop este totul despre prelucrarea și prelucrarea datelor? Cum mergem pentru raportare și analiză vizuală. Poate fi folosit Qlikview, Tableau deasupra Hadoop?
Componentele de bază Hadoop HDFS și MapReduce se referă la stocarea și procesarea datelor. HDFS pentru stocare și MapReduce pentru procesare. Dar componentele de bază Hadoop, cum ar fi Pig și Hive, sunt utilizate pentru analize. Pentru Tabloul de rapoarte vizuale, QlikView poate fi conectat la Hadoop pentru raportare vizuală.

Amit:

Hadoop vs. mongoDB
MongoDB este utilizat ca depozit de date în timp real „Operațional”, în timp ce Hadoop este utilizat pentru procesarea și analiza datelor offline în serie.
mongoDB este un magazin de date orientat spre documente, fără schemă, pe care îl puteți utiliza într-o aplicație web ca backend în loc de RDBMS ca MySQL, în timp ce Hadoop este utilizat în principal ca stocare scalabilă și procesare distribuită pentru cantități mari de date.

Citiți mai multe la postare pe blogul mongoDB și Hadoop .

Aici:

Apache Spark face parte din Hadoop ?
Apache Spark este un motor rapid și general pentru prelucrarea datelor pe scară largă. Spark este mai rapid și acceptă procesarea în memorie. Motorul de execuție Spark extinde tipul de sarcini de lucru de calcul pe care Hadoop le poate gestiona și poate rula pe clusterul Hadoop 2.0 YARN. Este un sistem cadru de procesare care permite stocarea obiectelor In-Memory (RDD) împreună cu capacitatea de a procesa aceste obiecte folosind închiderile Scala. Suportă grafică, depozit de date, învățare automată și procesare flux.

Dacă aveți un cluster Hadoop 2, puteți rula Spark fără a fi necesară instalarea. În caz contrar, Spark este ușor de rulat independent sau pe EC2 sau Mesos. Poate citi din HDFS, HBase, Cassandra și orice sursă de date Hadoop.

Citiți mai multe despre Spark Aici .

Prasad:

Ce este Apache Flume?
Apache Flume este un sistem distribuit, fiabil și disponibil pentru colectarea, agregarea și mutarea eficientă a unor cantități mari de date jurnal din mai multe surse diferite către o sursă centralizată de date.

Amit:

Bazele de date SQL vs NO-SQL
Bazele de date NoSQL sunt baze de date de generație următoare și abordează în principal unele dintre puncte

  • nerelationala
  • distribuit
  • sursa deschisa
  • scalabil orizontal

Adesea se aplică mai multe caracteristici, cum ar fi suport de replicare fără schemă, ușor, API simplu, în cele din urmă consecvent / BASE (nu ACID), o cantitate imensă de date și multe altele. De exemplu, puțini dintre diferențiatori sunt:

  • Bazele de date NoSQL se extind orizontal, adăugând mai multe servere pentru a face față încărcărilor mai mari. Bazele de date SQL, pe de altă parte, cresc de obicei pe verticală, adăugând tot mai multe resurse unui singur server pe măsură ce traficul crește.
  • Bazele de date SQL necesită definirea schemelor înainte de a adăuga informații și date, dar bazele de date NoSQL nu conțin schemă, nu necesită definirea schemei în prealabil.
  • Bazele de date SQL sunt bazate pe tabele cu rânduri și coloane urmând principiile RDBMS, în timp ce bazele de date NoSQL sunt documente, perechi cheie-valoare, grafice sau depozite de coloane largi.
  • Bazele de date SQL utilizează SQL (limbaj de interogare structurat) pentru definirea și manipularea datelor. În baza de date NoSQL, interogările variază de la o bază de date la alta.

Baze de date SQL populare: MySQL, Oracle, Postgres și MS-SQL
Popular Baze de date NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j și CouchDB

Examinați blogurile noastre pe Hadoop și NoSQL bazele de date și avantajele unei astfel de baze de date:

Koteswararao:

Are Hadoop o tehnologie Cluster încorporată?
Un cluster Hadoop folosește arhitectura Master-Slave. Acesta constă dintr-un singur master (NameNode) și un cluster de sclavi (DataNodes) pentru stocarea și prelucrarea datelor. Hadoop este conceput pentru a rula pe un număr mare de mașini care nu partajează nicio memorie sau discuri. Aceste DataNodes sunt configurate ca Cluster folosind . Hadoop folosește un concept de replicare pentru a se asigura că cel puțin o copie a datelor este disponibilă în cluster tot timpul. Deoarece există mai multe copii ale datelor, datele stocate pe un server care deconectează sau decolează pot fi reproduse automat dintr-o copie bună cunoscută.

Dinesh:

Ce este un loc de muncă în Hadoop? Ce se poate realiza prin intermediul unui job?
În Hadoop, un job este un program MapReduce pentru procesarea / analiza datelor. Termenul MapReduce se referă de fapt la două sarcini separate și distincte pe care le îndeplinesc programele Hadoop. Prima este sarcina Hartă, care ia un set de date și îl convertește într-un alt set de date intermediare, în care elementele individuale sunt împărțite în perechi cheie-valoare. A doua parte a unui job MapReduce, sarcina Reduce, ia ieșirea dintr-o hartă ca intrare și combină perechile cheie-valoare într-un set mai mic de perechi cheie-valoare agregate. După cum sugerează secvența numelui MapReduce, sarcina Reduce este întotdeauna efectuată după finalizarea sarcinilor Map. Citiți mai multe pe MapReduce Job .

Sukruth:

Ce este special la NameNode ?
NameNode este inima unui sistem de fișiere HDFS. Păstrează metadatele, cum ar fi arborele directorului tuturor fișierelor din sistemul de fișiere și urmărește locul în care sunt păstrate datele fișierului din cluster. Datele reale sunt stocate pe DataNodes ca blocuri HDFS.
Aplicațiile client vorbesc cu NameNode ori de câte ori doresc să localizeze un fișier sau ori de câte ori vor să adauge / copie / mute / șterge un fișier. NameNode răspunde solicitărilor reușite returnând o listă a serverelor DataNodes relevante în care trăiesc datele. Citiți mai multe despre HDFS Architecture .

Dinesh:

Când a fost introdus Hadoop 2.0 pe piață?
Fundația Apache Software (ASF), grupul open source care administrează dezvoltarea Hadoop, a anunțat pe blogul său pe 15 octombrie 2013 că Hadoop 2.0 este acum disponibil în general (GA). Acest anunț înseamnă că, după o lungă așteptare, Apache Hadoop 2.0 și YARN sunt acum gata pentru implementarea producției. Mai multe despre Blog.

Dinesh:

Care sunt câteva exemple de aplicații non-MapReduce Big Data?
MapReduce este excelent pentru multe aplicații pentru rezolvarea problemelor Big Data, dar nu pentru orice alte modele de programare servesc mai bine cerințele, cum ar fi procesarea graficelor (de exemplu, Google Pregel / Apache Giraph) și modelarea iterativă cu interfața de trecere a mesajelor (MPI).

Marish:

Cum sunt aranjate și indexate datele în HDFS?
Datele sunt împărțite în blocuri de 64 MB (configurabile de un parametru) și sunt stocate în HDFS. NameNode stochează informațiile de stocare ale acestor blocuri ca ID-uri de bloc în memoria RAM (metadatele NameNode). Joburile MapReduce pot accesa aceste blocuri folosind metadatele stocate în RAM NameNode.

Shashwat:

Putem folosi MapReduce (MRv1) și MRv2 (cu YARN) pe același cluster?
Hadoop 2.0 a introdus un nou cadru YARN pentru a scrie și executa diferite aplicații pe Hadoop. Deci, YARN și MapReduce sunt două concepte diferite în Hadoop 2.0 și nu ar trebui amestecate și utilizate în mod interschimbabil. Întrebarea corectă este „Este posibil să rulați atât MRv1, cât și MRv2 pe un cluster Hadoop 2.0 activat YARN?” Răspunsul la această întrebare este un 'Nu' ca și dacă un cluster Hadoop poate fi configurat pentru a rula atât MRv1, cât și MRv2, dar poate rula un singur set de daemoni în orice moment al timpului. Ambele cadre utilizează în cele din urmă aceleași fișiere de configurare ( yarn-site.xml și mapred-site.xml ) pentru a rula demonii, prin urmare, doar una dintre cele două configurații poate fi activată pe un cluster Hadoop.

Păpuşă:

Care este diferența dintre următoarea generație MapReduce (MRv2) și YARN?
YARN și Next Generation MapReduce (MRv2) sunt două concepte și tehnologii diferite în Hadoop 2.0. YARN este un cadru software care poate fi utilizat pentru a rula nu numai MRv2, ci și alte aplicații. MRv2 este un cadru de aplicație scris folosind YARN API și rulează în cadrul YARN.

Bharat:

Hadoop 2.0 oferă compatibilitate inversă pentru aplicațiile Hadoop 1.x?
Neha:

Migrarea Hadoop 1.0 până la 2.0 necesită un cod de aplicație greu migrație?
Nu, majoritatea aplicațiilor dezvoltate folosind API-urile „org.apache.hadoop.mapred” pot rula pe YARN fără nicio recompilare. YARN este binar compatibil cu aplicațiile MRv1 și „bin / hadoop” poate fi utilizat pentru a trimite aceste aplicații pe YARN. Citiți mai multe despre acest lucru Aici .

Sherin:

Ce se întâmplă dacă nodul Resource Manager eșuează în Hadoop 2.0?
Începând de la versiunea 2.4.0 Hadoop, este disponibil și suport de înaltă disponibilitate pentru Resource Manager. ResourceManager folosește Apache ZooKeeper pentru fail-over. Când nodul Resource Manager eșuează, un nod secundar se poate recupera rapid prin starea cluster salvată în ZooKeeper. ResourceManager, la un fail-over, repornește toate aplicațiile aflate în coadă și care rulează.

javascript obține dimensiunea matricei

Sabbirali:

Funcționează cadrul Hacheop al lui Apache pe Cloudera Hadoop?
Apache Hadoop a fost introdus în 2005 cu motorul de procesare MapReduce de bază pentru a sprijini procesarea distribuită a volumelor de lucru de date pe scară largă stocate în HDFS. Este un proiect Open Source și are distribuții multiple (similar cu Linux). Cloudera Hadoop (CDH) este o astfel de distribuție de la Cloudera. Alte distribuții similare sunt HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights etc.

Arulvadivel:

Orice modalitate ușoară de a instala Hadoop pe laptopul meu și de a încerca migrarea bazei de date Oracle către Hadoop?
Poti start cu un HortonWorks Sandbox sau Cloudera Quick VM pe laptop (cu cel puțin 4 GB RAM și procesor i3 sau mai mare). Utilizați SQOOP pentru a muta date de la Oracle la Hadoop așa cum s-a explicat Aici .

Bhabani:

Care sunt cele mai bune cărți disponibile pentru a învăța Hadoop?
Începe cu Hadoop: Ghidul definitiv de Tom White și Operațiuni Hadoop de Eric Sammer.

Mahendra:

Există lectură disponibilă pentru Hadoop 2.0 la fel ca Hadoop ghidul definitiv?
Examinați ultima sosire pe rafturile de cărți scrise de câțiva dintre creatorii Hadoop 2.0.

Rămâneți la curent pentru mai multe întrebări din această serie.