Drilling Down On Apache Drill, motorul de interogare New-Age



Acest tutorial Apache Drill vă oferă toate informațiile de care aveți nevoie pentru a începe cu motorul de interogare Apache Drill, utilizarea cu Hadoop, Big Data și Apache Spark.

Apache Drill este primul motor SQL fără schemă din industrie. Drill nu este primul motor de interogare din lume, dar este primul care atinge un echilibru fin între flexibilitate și viteză. Drill este conceput pentru a se extinde la câteva mii de noduri și pentru a interoga petabytes de date la viteze interactive de care au nevoie mediile BI / Analytics.





Se poate integra cu mai multe surse de date precum Hive, HBase, MongoDB, sistem de fișiere, RDBMS. De asemenea, formate de intrare precum Avro, CSV, TSV, PSV, Parchet, fișiere Hadoop Sequence și multe altele pot fi utilizate cu ușurință în Drill.

De ce Apache Drill?

Cel mai mare avantaj al Apache Drill este că poate descoperi schema din mers în timp ce interogați orice date. Mai mult, poate funcționa cu instrumentele dvs. de BI, cum ar fi Tableau, Qlikview, MicroStrategy etc., pentru o analiză mai bună.



Iată un citat de la un analist din industrie care rezumă valoarea Apache Drill:

„Drill nu se referă doar la SQL-on-Hadoop. Este vorba despre SQL-on-pretty-much-orice, imediat și fără formalități. ”

- Andrew Burst, Gigaom Research, ianuarie 2015



Drillbit este demonul lui Apache Drill care rulează pe fiecare nod din cluster. Folosește ZooKeeper pentru toate comunicațiile din cluster și membrii clusterului principal. Este responsabil pentru acceptarea cererilor de la client, procesarea interogărilor și returnarea rezultatelor către client. Drillbitul care primește cererea de la client se numește „maistru”. Acesta generează planul de execuție, fragmentele de execuție sunt trimise către alte drillbits care rulează în cluster.

Drillbits-Apache-Drill

Un alt avantaj este că instalarea și configurarea burghiului sunt destul de simple. Să învățăm cum să instalăm Apache Drill.

Primul pas este să descărcați pachetul de foraj.

este-o relație în java

Comanda: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Comanda: tar -xvf apache-drill-1.5.0.tar.gz

Comanda: eu sunt

Apoi, setați variabilele de mediu în fișierul .bashrc.

Comanda: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Această comandă va actualiza modificările:

Comanda: sursa .bashrc

Acum accesați directorul drill conf și editați fișierul drill-override.conf cu id-ul clusterului și gazda și portul zookeeper, îl vom rula pe un cluster local.

Comanda: cd apache-drill-1.5.0

Comanda: sudo gedit conf / drill-override.conf

În mod implicit, DRILL_MAX_DIRECT_MEMORY va avea 8 GB în drill-env.sh și trebuie să-l păstrăm în funcție de memoria pe care o avem.

Comanda: sudo gedit conf / drill-env.sh

Pentru a instala drill doar într-un singur nod, puteți utiliza modul încorporat, unde va rula local. Va porni automat serviciul drillbit atunci când executați această comandă.

Comanda: ./bin/drill-embedded

Puteți rula o interogare simplă pentru a verifica instalarea.

Comanda: selectați * din sys.options WHERE tip = „SISTEM” și nume precum „securitate%”

Pentru a verifica consola web a Apache Drill, trebuie să mergem la localhost: 8047 în browserul web.

Puteți rula interogarea dvs. și din fila Interogare.

Pentru a rula drill în modul distribuit, trebuie să editați ID-ul clusterului și să adăugați informații despre ZooKeeper în drill-override.conf după cum urmează.

Apoi, trebuie să pornim serviciul ZooKeeper pe fiecare nod. După aceea, trebuie să porniți serviciul drillbit pe fiecare nod cu această comandă.

Comanda: ./bin/drillbit.sh start

Comanda: jps

Acum, folosim comanda de mai jos pentru a porni coaja de foraj.

Acum, putem executa interogările noastre pe cluster în modul distribuit.

Aceasta este prima postare de blog dintr-o serie de bloguri Apache Drill în două părți. Al doilea blog din serie vine în curând.

Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Drilling Down On Apache Drill Part 2

tutorial pl sql pentru începători

Apache Spark Vs Hadoop MapReduce