Stăpânit Hadoop? E timpul să începeți cu Apache Spark



Această postare de blog explică de ce trebuie să începi cu Apache Spark după Hadoop și de ce învățarea Spark după ce stăpânești hadoop poate face minuni pentru cariera ta!

Hadoop, după cum știm cu toții, este băiatul poster al Big Data. Fiind un cadru software capabil să proceseze proporții elefantine de date, Hadoop și-a făcut drumul către partea de sus a listei de cuvinte cheie CIO.





Cu toate acestea, creșterea fără precedent a stivei în memorie a introdus ecosistemul de date mari într-o nouă alternativă pentru analize. Modul de analiză MapReduce este înlocuit de o nouă abordare care permite analiza atât în ​​cadrul Hadoop, cât și în afara acestuia. Apache Spark este noua față nouă a analizei de date mari.

Pasionații de date mari au certificat Apache Spark drept cel mai fierbinte motor de calcul al datelor pentru datele mari din lume. Ejectează rapid MapReduce și Java din pozițiile lor, iar tendințele de muncă reflectă această schimbare. Potrivit unui sondaj realizat de TypeSafe, 71% dintre dezvoltatorii Java globali evaluează sau cercetează în prezent în jurul Spark și 35% dintre ei au început deja să-l folosească. Experții Spark sunt în prezent solicitați, iar în săptămânile următoare, numărul de oportunități de locuri de muncă legate de Spark este de așteptat să treacă doar pe acoperiș.



Deci, ce este vorba despre Apache Spark care îl face să apară în partea de sus a fiecărei liste de sarcini CIO?

Iată câteva dintre caracteristicile interesante ale Apache Spark:

  • Integrare Hadoop - Spark poate funcționa cu fișiere stocate în HDFS.
  • Shell Interactive Shell - Spark este scris în Scala și are propria versiune a interpretului Scala.
  • Spark’s Analytic Suite - Spark vine cu instrumente pentru analiza interactivă a interogărilor, prelucrarea și analiza graficelor pe scară largă și analiza în timp real.
  • Seturi de date distribuite rezistente (RDD-uri) - RDD-urile sunt obiecte distribuite care pot fi memorate în cache, pe un cluster de noduri de calcul. Acestea sunt principalele obiecte de date utilizate în Spark.
  • Operatori distribuiți - Pe lângă MapReduce, există mulți alți operatori pe care îi puteți folosi pe RDD-uri.

Organizații precum NASA, Yahoo și Adobe s-au angajat în Spark. Iată ce spune John Tripier, Alliances and Ecosystem Lead la Databricks: „Adoptarea Apache Spark de către întreprinderile mari și mici crește într-un ritm incredibil într-o gamă largă de industrii, iar cererea pentru dezvoltatori cu expertiză certificată este rapidă urmând exemplul ”. Nu a existat niciodată un moment mai bun pentru a învăța Spark dacă aveți o experiență în Hadoop.



ce este applet în java cu exemplu

Edureka a organizat special un curs despre Apache Spark & ​​Scala, co-creat de practicieni din industria reală. Pentru o experiență de e-learning live diferențiată împreună cu proiecte relevante pentru industrie, consultați cursul nostru. Noile loturi încep în curând, așa că verificați cursul aici: .

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Apache Spark Vs Hadoop MapReduce