4 moduri de a folosi R și Hadoop împreună



R și Hadoop se completează destul de bine în ceea ce privește vizualizarea și analiza datelor mari. Această postare pe blog vorbește despre 4 moduri de a le folosi împreună.

Hadoop este un cadru de programare bazat pe Java care suportă procesarea seturilor mari de date într-un mediu de calcul distribuit, în timp ce R este un limbaj de programare și un mediu software pentru calculul statistic și grafica. Limbajul R este utilizat pe scară largă în rândul statisticienilor și al minerilor de date pentru dezvoltarea de software statistice și efectuarea analizei datelor. În domeniile analizei datelor interactive, statisticilor cu scop general și modelării predictive, R a câștigat popularitate masivă datorită capacităților sale de clasificare, grupare și clasificare.

KM





Hadoop și R se completează destul de bine în ceea ce privește vizualizarea și analiza datelor mari.

Folosind R și Hadoop

Există patru moduri diferite de a utiliza Hadoop și R împreună:



cum se utilizează scanere în java

1. RHadoop

RHadoop este o colecție de trei pachete R: rmr, rhdfs și rhbase. pachetul rmr oferă funcționalitatea Hadoop MapReduce în R, rhdfs oferă gestionarea fișierelor HDFS în R, iar rhbase asigură gestionarea bazei de date HBase din R. Fiecare dintre aceste pachete principale poate fi utilizat pentru a analiza și gestiona mai bine datele cadrului Hadoop.

2. ORCH



ORCH înseamnă Oracle R Connector pentru Hadoop. Este o colecție de pachete R care furnizează interfețele relevante pentru a lucra cu tabelele Hive, infrastructura de calcul Apache Hadoop, mediul R local și tabelele bazei de date Oracle. În plus, ORCH oferă, de asemenea, tehnici analitice predictive care pot fi aplicate datelor din fișierele HDFS.

3. RIPĂ

RHIPE este un pachet R care oferă un API pentru a utiliza Hadoop. RHIPE înseamnă R și Hadoop Integrated Programming Environment și este în esență RHadoop cu un API diferit.

Patru. Streaming Hadoop

Hadoop Streaming este un utilitar care permite utilizatorilor să creeze și să ruleze joburi cu orice executabil ca maper și / sau reductor. Folosind sistemul de streaming, se pot dezvolta joburi Hadoop de lucru cu doar suficiente cunoștințe de Java pentru a scrie două scripturi shell care funcționează în tandem.

Combinația dintre R și Hadoop apare ca un set de instrumente indispensabil pentru persoanele care lucrează cu statistici și seturi mari de date. Cu toate acestea, anumiți pasionați de Hadoop au ridicat un steag roșu în timp ce se ocupau cu fragmente Big Data extrem de mari. Ei susțin că avantajul lui R nu este sintaxa acestuia, ci biblioteca exhaustivă a primitivelor pentru vizualizare și statistici. Aceste biblioteci sunt fundamental nedistribuite, ceea ce face ca recuperarea datelor să devină o chestiune care necesită mult timp. Acesta este un defect inerent cu R și, dacă alegeți să-l treceți cu vederea, R și Hadoop în tandem pot face minuni.

Acum, să vedem o demonstrație:

program de multiplicare a matricii în java

Ai o întrebare pentru noi? Vă rugăm să le menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare: