Cum se execută scripturi Hive?

Acesta este un tutorial despre cum să rulați Hive Scripts. Rularea acestui script va reduce timpul și efortul pe care îl depunem pentru a scrie și a executa fiecare comandă manual.

Fiind un pachet de depozitare de date construit deasupra Hadoop, Apache Hive se obișnuiește din ce în ce mai mult pentru analiza datelor, extragerea datelor și modelarea predictivă. Organizațiile sunt în căutarea unor profesioniști cu o fermitate fermă . În această postare, să vedem cum să rulăm Hive Scripts. În general, folosim scripturile pentru a executa simultan un set de instrucțiuni. Scripturile Hive sunt folosite cam în același mod. Aceasta va reduce timpul și efortul pe care îl depunem pentru a scrie și a executa fiecare comandă manual.

Scripturile Hive sunt acceptate în versiunile Hive 0.10.0 și mai sus. Deoarece versiunea Hive 0.90 este instalată în CDH3, nu putem rula Hive Scripts în CDH3. Puteți încerca pașii de mai jos în CDH4 deoarece are instalată versiunea Hive 0.10.0. Știți cum să creați un script Hive? Dacă nu, faceți clic pe pentru a obține mai multe clarificări.





Master-Hive-Now

Acum, să vedem cum să scriem scripturile în Hive și să le rulăm în CDH4:



Pasul 1: Scrierea unui script Hive.

Pentru a scrie Hive Script, fișierul trebuie salvat cu extensia .sql. Deschideți un terminal în distribuția Cloudera CDH4 și dați următoarea comandă pentru a crea un script Hive.
Comanda: sudo gedit sample.sql

La executarea comenzii de mai sus, va deschide fișierul cu lista tuturor comenzilor Hive care trebuie executate.



În acest script, un tabel va fi creat, descris și datele vor fi încărcate și recuperate din tabel.

1. Crearea tabelului în Hive:

Comanda: creați produs de masă (productid: int, nume de produs: șir, preț: float, categorie: șir) format de rânduri câmpuri delimitate terminate de „,”

Aici, produsul este numele tabelului și {productid, numele produsului, prețul, categoria} sunt coloanele acestui tabel.

Câmpurile terminate cu „,” indică faptul că coloanele din fișierul de intrare sunt separate prin simbolul „,”.

diferența dintre supraîncărcarea metodei și suprascrierea în java

În mod implicit, înregistrările din fișierul de intrare sunt separate printr-o nouă linie.

2. Descrierea tabelului:

Comanda: descrie produsul

3. Încărcarea datelor în tabel.

Pentru a încărca mai întâi datele în tabel, trebuie să creăm un fișier de intrare care conține înregistrările care trebuie inserate în tabel.

Să creăm un fișier de intrare.

Comanda: sudo gedit input.txt

Editați conținutul fișierului așa cum se arată în figură.

4. Preluarea datelor:

Pentru a prelua datele, este utilizată comanda select.

Comanda: Selectați * din produs

Comanda de mai sus este utilizată pentru a recupera valoarea tuturor coloanelor prezente în tabel. Scriptul ar trebui să fie așa cum este arătat în imaginea de mai jos.

Acum, am terminat cu scrierea scriptului Hive. Fișierul sample.sql poate fi acum salvat.

Pasul 2: Rularea scriptului Hive

Următoarea este comanda pentru a rula scriptul Hive:

Comanda: stup -f /home/cloudera/sample.sql

În timp ce executați scriptul, asigurați-vă că este prezentă întreaga cale a locației fișierului Script.

Putem vedea că toate comenzile sunt executate cu succes.

Acesta este modul în care scripturile Hive sunt rulate și executate în CDH4.

Hive este o componentă critică a Hadoop, iar expertiza dvs. în Hive vă poate oferi locuri de muncă Hadoop bine plătite! Edureka are un curs special organizat Hadoop, care vă ajută să stăpâniți concepte precum MapReduce, Yarn, Pig, Hive, HBase, Oozie, Flume și Sqoop. Faceți clic pe butonul de mai jos pentru a începe.

Ai o întrebare pentru noi? Vă rugăm să le menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Comenzi Hive

Modele de date Hive