MongoDB cu Hadoop și tehnologiile conexe Big Data

MongoDB cu Hadoop și tehnologiile conexe Big Data este o combinație puternică pentru a oferi soluții pentru o situație complexă în analitică.

Bazele de date relaționale pentru o lungă perioadă de timp au fost suficiente pentru a gestiona seturi de date mici sau medii. Dar rata colosală la care crește datele face imposibilă abordarea tradițională a stocării și recuperării datelor. Această problemă este rezolvată de tehnologii mai noi care pot gestiona Big Data. Hadoop, Hive și Hbase sunt platformele populare care operează acest tip de seturi mari de date. Bazele de date NoSQL sau Not Only SQL, cum ar fi MongoDB, oferă un mecanism de stocare și recuperare a datelor în modelul de consistență a pierderilor cu avantaje precum:

  • Scalare orizontală
  • Disponibilitate mai mare
  • Acces mai rapid

Echipa de ingineri MongoDB a actualizat recent conectorul MongoDB pentru Hadoop pentru a avea o integrare mai bună. Acest lucru face mai ușor pentru utilizatorii Hadoop:





  • Integrați datele în timp real de la MongoDB cu Hadoop pentru analize profunde, offline.
  • Conectorul expune puterea analitică a Hadoop’s MapReduce pentru a transmite datele aplicațiilor în direct de la MongoDB, determinând valoarea din datele mari mai rapid și mai eficient.
  • Conectorul prezintă MongoDB ca un sistem de fișiere compatibil Hadoop care permite unei lucrări MapReduce să citească direct de la MongoDB fără a o copia mai întâi în HDFS (Hadoop file System), eliminând astfel necesitatea de a muta Terabytes de date prin rețea.
  • Lucrările MapReduce pot transmite interogări ca filtre, evitând astfel nevoia de a scana colecții întregi și pot profita, de asemenea, de capacitățile bogate de indexare ale MongoDB, inclusiv indexuri geo-spațiale, de căutare de text, matrice, compuse și rare.
  • Citind din MongoDB, rezultatele joburilor Hadoop pot fi, de asemenea, redactate în MongoDB, pentru a susține procesele operaționale în timp real și interogarea ad-hoc.

Cazuri de utilizare Hadoop și MongoDB:

Să ne uităm la o descriere la nivel înalt a modului în care MongoDB și Hadoop se pot potrivi într-o stivă tipică Big Data. În primul rând avem:

învățați să utilizați studioul vizual
  • MongoDB folosit ca Magazin de date „operațional” în timp real
  • Hadoop pentru procesare și analiză offline a datelor în serie

Citiți mai departe pentru a afla de ce și modul în care MongoDB a fost utilizat de companii și organizații precum Aadhar, Shutterfly, Metlife și eBay .



Aplicarea MongoDB cu Hadoop în Batch Aggregation:

În majoritatea scenariilor, funcționalitatea de agregare încorporată furnizată de MongoDB este suficientă pentru analiza datelor. Cu toate acestea, în anumite cazuri, poate fi necesară o agregare a datelor semnificativ mai complexă. Aici Hadoop poate oferi un cadru puternic pentru analize complexe.

ce este jit in java

În acest scenariu:

  • Datele sunt extrase din MongoDB și procesate în cadrul Hadoop prin una sau mai multe lucrări MapReduce. Datele pot fi obținute și din alte locuri din cadrul acestor joburi MapReduce pentru a dezvolta o soluție sursă multi-date.
  • Rezultatele acestor joburi MapReduce pot fi apoi scrise înapoi la MongoDB pentru interogări ulterioare și pentru orice analiză ad-hoc.
  • Aplicațiile construite deasupra MongoDB pot, prin urmare, să folosească informațiile din analizele de lot pentru a le prezenta clientului final sau pentru a activa alte caracteristici din aval.

Agregare Hadoop Mongo DB



Aplicație în Depozitarea datelor:

Într-o configurație tipică de producție, datele aplicației pot locui în mai multe magazine de date, fiecare cu propriul limbaj și funcționalitate de interogare. Pentru a reduce complexitatea în aceste scenarii, Hadoop poate fi folosit ca un depozit de date și poate acționa ca un depozit centralizat pentru date din diferite surse.

sortare matrice c ++

În acest tip de scenariu:

  • Periodic MapReduce joburile încarcă date de la MongoDB în Hadoop.
  • Odată ce datele de la MongoDB și alte surse sunt disponibile în Hadoop, setul de date mai mare poate fi interogat.
  • Analiștii de date au acum opțiunea de a utiliza fie MapReduce, fie Pig pentru a crea locuri de muncă care interogă seturile de date mai mari care încorporează date de la MongoDB.

Echipa care lucrează în spatele MongoDB s-a asigurat că, prin integrarea sa bogată cu tehnologiile Big Data precum Hadoop, este capabilă să se integreze bine în Big Data Stack și să ajute la rezolvarea unor probleme arhitecturale complexe atunci când vine vorba de stocarea, recuperarea, procesarea, agregarea și depozitarea datelor . Rămâneți la curent cu postarea noastră viitoare despre perspectivele de carieră pentru cei care acceptă Hadoop cu MongoDB. Dacă lucrați deja cu Hadoop sau pur și simplu alegeți MongoDB, consultați cursurile pe care le oferim pentru MongoDB