Apache Spark cu Hadoop - De ce contează?



Implementarea Apache Spark cu Hadoop pe scară largă de către companii de top indică succesul și potențialul său atunci când vine vorba de procesare în timp real.

Hadoop, cadrul de procesare a datelor care a devenit o platformă în sine, devine și mai bun atunci când sunt conectate componente bune la acesta. Unele neajunsuri ale Hadoop, cum ar fi componenta MapReduce din Hadoop, au reputația de a fi lente pentru analiza datelor în timp real.





Introduceți Apache Spark, un motor de procesare a datelor bazat pe Hadoop, conceput atât pentru încărcările de lucru în lot, cât și pentru cele de streaming, acum în versiunea 1.0 și dotat cu caracteristici care exemplifică ce tipuri de lucru Hadoop este împins să includă. Spark rulează peste clustere Hadoop existente pentru a oferi funcționalități îmbunătățite și suplimentare.

Să vedem caracteristicile cheie ale spark-ului și cum funcționează împreună cu Hadoop și .



Beneficii cheie Apache Spark:

img2-R

Funcțiile minunate ale lui Spark:

  • Integrare Hadoop - Spark poate funcționa cu fișiere stocate în HDFS.
  • Shell Interactive Shell - Spark este scris în Scala și are propria versiune a interpretului Scala.
  • Spark’s Analytic Suite - Spark vine cu instrumente pentru analiza interactivă a interogărilor, prelucrarea și analiza graficelor pe scară largă și analiza în timp real.
  • Seturi de date distribuite rezistente (RDD-uri) - RDD-urile sunt obiecte distribuite care pot fi stocate în memorie, pe un cluster de noduri de calcul. Acestea sunt principalele obiecte de date utilizate în Spark.
  • Operatori distribuiți - Pe lângă MapReduce, există mulți alți operatori pe care îi puteți folosi pe RDD-uri.

Avantajele utilizării Apache Spark cu Hadoop:

ce face split în java
  • Apache Spark se încadrează în comunitatea open-source Hadoop, construindu-se deasupra sistemului de fișiere distribuite Hadoop (HDFS). Cu toate acestea, Spark nu este legat de paradigma MapReduce în două etape și promite performanțe de până la 100 de ori mai rapide decât Hadoop MapReduce pentru anumite aplicații.



  • Se potrivește algoritmilor de învățare automată - Spark oferă primitive pentru calculul clusterului în memorie, care permite programelor utilizatorului să încarce date în memoria unui cluster și să le interogheze în mod repetat.

  • Aleargă de 100 de ori mai repede - Spark, software-ul de analiză poate accelera, de asemenea, lucrările care rulează pe platforma de procesare a datelor Hadoop. Denumit „cuțitul armatei elvețiene Hadoop”, Apache Spark oferă posibilitatea de a crea lucrări de analiză a datelor care pot rula de 100 de ori mai repede decât cele care rulează pe Apache Hadoop MapReduce standard. MapReduce a fost criticat pe scară largă ca fiind un blocaj în clusterele Hadoop, deoarece execută joburi în modul batch, ceea ce înseamnă că analiza datelor în timp real nu este posibilă.

    treceți prin valoare și treceți prin referință în java
  • Alternativă la MapReduce - Spark oferă o alternativă la MapReduce. Execută lucrări în rafale scurte de micro-loturi care sunt la distanță de cinci secunde sau mai puțin. De asemenea, oferă mai multă stabilitate decât cadrele Hadoop orientate în flux în timp real, cum ar fi Twitter Storm. Software-ul poate fi utilizat pentru o varietate de joburi, cum ar fi o analiză continuă a datelor live și datorită unei biblioteci de software, lucrări mai aprofundate din punct de vedere al calculului care implică învățarea automată și procesarea graficelor.

  • Suport pentru mai multe limbi - Folosind Spark, dezvoltatorii pot scrie lucrări de analiză a datelor în Java, Scala sau Python, folosind un set de peste 80 de operatori de nivel înalt.

  • Suport bibliotecă - Bibliotecile Spark sunt concepute pentru a completa tipurile de lucrări de procesare care sunt explorate mai agresiv cu cele mai recente implementări Hadoop acceptate comercial. MLlib implementează o serie de algoritmi de învățare automată obișnuiți, cum ar fi clasificarea Bayesiană naivă sau clusterizarea Spark Streaming permite procesarea de mare viteză a datelor ingerate din mai multe surse, iar GraphX ​​permite calcule pe date grafice.

  • API stabil - Cu versiunea 1.0, Apache Spark oferă un API stabil (interfață de programare a aplicațiilor), pe care dezvoltatorii îl pot utiliza pentru a interacționa cu Spark prin propriile aplicații. Acest lucru ajută la utilizarea Storm mai ușor în implementarea bazată pe Hadoop.

  • Componenta SPARK SQL - Componenta SQL Spark pentru accesarea datelor structurate, permite interogarea datelor alături de date nestructurate în lucrările de analiză. Spark SQL, care este doar în alfa în acest moment, permite interogările de tip SQL să fie executate împotriva datelor stocate în Apache Hive. Extragerea datelor din Hadoop prin interogări SQL este încă o altă variantă a funcționalității de interogare în timp real care apare în jurul Hadoop.

  • Compatibilitate Apache Spark cu Hadoop [HDFS, HBASE și YARN] - Apache Spark este pe deplin compatibil cu sistemul de fișiere distribuite Hadoop (HDFS), precum și cu alte componente Hadoop, cum ar fi YARN (încă un alt negociator de resurse) și baza de date distribuită HBase.

Adoptori din industrie:

Companiile IT, cum ar fi Cloudera, Pivotal, IBM, Intel și MapR, au pus toate Spark în stivele lor Hadoop. Databricks, o companie fondată de unii dintre dezvoltatorii Spark, oferă suport comercial pentru software. Atât Yahoo, cât și NASA, printre altele, utilizează software-ul pentru operațiuni zilnice de date.

Concluzie:

Ceea ce Spark are de oferit va fi o atracție atât pentru utilizatori, cât și pentru furnizorii comerciali de Hadoop. Utilizatorii care doresc să implementeze Hadoop și care au construit deja multe dintre sistemele lor de analiză în jurul lui Hadoop sunt atrași de ideea de a putea folosi Hadoop ca sistem de procesare în timp real.

Spark 1.0 le oferă o altă varietate de funcționalități pentru a sprijini sau a construi articole proprietare. De fapt, unul dintre cei trei mari furnizori Hadoop, Cloudera, a oferit deja suport comercial pentru Spark prin oferta sa Cloudera Enterprise. Hortonworks a oferit, de asemenea, Spark ca o componentă a distribuției sale Hadoop. Implementarea Spark pe scară largă de către companii de top indică succesul și potențialul său atunci când vine vorba de procesare în timp real.

Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

ce este cuplajul liber în java