Apache Drill este primul motor SQL fără schemă din industrie. Drill nu este primul motor de interogare din lume, dar este primul care atinge un echilibru fin între flexibilitate și viteză. Drill este conceput pentru a se extinde la câteva mii de noduri și pentru a interoga petabytes de date la viteze interactive de care au nevoie mediile BI / Analytics.
Se poate integra cu mai multe surse de date precum Hive, HBase, MongoDB, sistem de fișiere, RDBMS. De asemenea, formate de intrare precum Avro, CSV, TSV, PSV, Parchet, fișiere Hadoop Sequence și multe altele pot fi utilizate cu ușurință în Drill.
De ce Apache Drill?
Cel mai mare avantaj al Apache Drill este că poate descoperi schema din mers în timp ce interogați orice date. Mai mult, poate funcționa cu instrumentele dvs. de BI, cum ar fi Tableau, Qlikview, MicroStrategy etc., pentru o analiză mai bună.
Iată un citat de la un analist din industrie care rezumă valoarea Apache Drill:
„Drill nu se referă doar la SQL-on-Hadoop. Este vorba despre SQL-on-pretty-much-orice, imediat și fără formalități. ”
- Andrew Burst, Gigaom Research, ianuarie 2015
Drillbit este demonul lui Apache Drill care rulează pe fiecare nod din cluster. Folosește ZooKeeper pentru toate comunicațiile din cluster și membrii clusterului principal. Este responsabil pentru acceptarea cererilor de la client, procesarea interogărilor și returnarea rezultatelor către client. Drillbitul care primește cererea de la client se numește „maistru”. Acesta generează planul de execuție, fragmentele de execuție sunt trimise către alte drillbits care rulează în cluster.
Un alt avantaj este că instalarea și configurarea burghiului sunt destul de simple. Să învățăm cum să instalăm Apache Drill.
Primul pas este să descărcați pachetul de foraj.
este-o relație în java
Comanda: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Comanda: tar -xvf apache-drill-1.5.0.tar.gz
Comanda: eu sunt
Apoi, setați variabilele de mediu în fișierul .bashrc.
Comanda: sudo gedit .bashrc
export DRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Această comandă va actualiza modificările:
Comanda: sursa .bashrc
Acum accesați directorul drill conf și editați fișierul drill-override.conf cu id-ul clusterului și gazda și portul zookeeper, îl vom rula pe un cluster local.
Comanda: cd apache-drill-1.5.0
Comanda: sudo gedit conf / drill-override.conf
În mod implicit, DRILL_MAX_DIRECT_MEMORY va avea 8 GB în drill-env.sh și trebuie să-l păstrăm în funcție de memoria pe care o avem.
Comanda: sudo gedit conf / drill-env.sh
Pentru a instala drill doar într-un singur nod, puteți utiliza modul încorporat, unde va rula local. Va porni automat serviciul drillbit atunci când executați această comandă.
Comanda: ./bin/drill-embedded
Puteți rula o interogare simplă pentru a verifica instalarea.
Comanda: selectați * din sys.options WHERE tip = „SISTEM” și nume precum „securitate%”
Pentru a verifica consola web a Apache Drill, trebuie să mergem la localhost: 8047 în browserul web.
Puteți rula interogarea dvs. și din fila Interogare.
Pentru a rula drill în modul distribuit, trebuie să editați ID-ul clusterului și să adăugați informații despre ZooKeeper în drill-override.conf după cum urmează.
Apoi, trebuie să pornim serviciul ZooKeeper pe fiecare nod. După aceea, trebuie să porniți serviciul drillbit pe fiecare nod cu această comandă.
Comanda: ./bin/drillbit.sh start
Comanda: jps
Acum, folosim comanda de mai jos pentru a porni coaja de foraj.
Acum, putem executa interogările noastre pe cluster în modul distribuit.
Aceasta este prima postare de blog dintr-o serie de bloguri Apache Drill în două părți. Al doilea blog din serie vine în curând.
Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.
Postări asemănatoare:
Drilling Down On Apache Drill Part 2
tutorial pl sql pentru începători