Comenzi de top Hive cu exemple în HQL



Acest blog discută comenzile Hive cu exemple în HQL. CREAȚI, DROP, TRUNCATE, ALTER, SHOW, DESCRIBE, UTILIZAȚI, ÎNCĂRCAȚI, INSERAȚI, ALĂTURAȚI-vă și multe alte comenzi Hive

În această postare de blog, să discutăm comenzile de top Hive cu exemple. Aceste comenzi Hive sunt foarte importante pentru a configura fundația .

Edureka 2019 Ghidul de carieră tehnică este disponibil! Cele mai tari roluri de locuri de muncă, căi de învățare precise, perspective industriale și multe altele în ghid. Descarca acum.

Ce este Hive?

Apache Hive este un sistem de depozitare de date care este construit pentru a funcționa pe Hadoop. Este folosit pentru interogarea și gestionarea seturilor de date mari care se află în stocarea distribuită. Înainte de a deveni un proiect open source al Apache Hadoop, Hive își are originea în Facebook. Oferă un mecanism pentru proiectarea structurii pe datele din Hadoop și pentru interogarea acestor date folosind un limbaj asemănător SQL numit HiveQL (HQL).





Hive este utilizat deoarece tabelele din Hive sunt similare cu tabelele dintr-o bază de date relațională. Dacă sunteți familiarizat cu SQL, este un tort. Mulți utilizatori pot interoga simultan datele folosind Hive-QL.

Ce este HQL?

Hive definește un limbaj de interogare simplu de tip SQL pentru interogarea și gestionarea seturilor de date mari numite Hive-QL (HQL). Este ușor de utilizat dacă sunteți familiarizat cu limbajul SQL. Hive permite programatorilor care sunt familiarizați cu limbajul să scrie cadrul personalizat MapReduce pentru a efectua analize mai sofisticate.



Utilizări ale stupului:

1. Stocarea distribuită Apache Hive.

2. Hive oferă instrumente care permit extragerea / transformarea / încărcarea ușoară a datelor (ETL)

3. Oferă structura pe o varietate de formate de date.



4. Prin utilizarea Hive, putem accesa fișierele stocate în sistemul de fișiere distribuite Hadoop (HDFS este folosit pentru interogarea și gestionarea seturilor de date mari aflate în) sau în alte sisteme de stocare a datelor, cum ar fi Apache HBase.

Limitările stupului:

& bull Hive nu este conceput pentru procesarea tranzacțiilor online (OLTP), este utilizat doar pentru procesarea analitică online.

& bull Hive acceptă suprascrierea sau reținerea datelor, dar nu actualizările și ștergerile.

& bull În Hive, interogările secundare nu sunt acceptate.

De ce Hive este folosit în ciuda porcului?

Următoarele sunt motivele pentru care Hive este utilizat în ciuda disponibilității Pig:

  • Hive-QL este o linie declarativă de limbaj SQL, PigLatin este un limbaj de flux de date.
  • Porc: un limbaj și un mediu de flux de date pentru explorarea seturilor de date foarte mari.
  • Hive: un depozit de date distribuit.

Componentele stupului:

Metastore:

Hive stochează schema tabelelor Hive într-un Hast Metastore. Metastore este utilizat pentru a păstra toate informațiile despre tabelele și partițiile care se află în depozit. În mod implicit, metastore-ul este rulat în același proces ca și serviciul Hive, iar metastore-ul implicit este DerBy Database.

SerDe:

Serializer, Deserializer oferă instrucțiuni pentru a colabora cu privire la modul de procesare a unei înregistrări.

Comenzi Hive:

Limbajul de definire a datelor (DDL)

Instrucțiunile DDL sunt utilizate pentru a construi și modifica tabelele și alte obiecte din baza de date.

Comanda DDL Funcţie
CREA Este folosit pentru a crea un tabel sau o bază de date
SPECTACOL Este folosit pentru a afișa baza de date, tabelul, proprietățile etc.
VÂRSTĂ Este folosit pentru a face modificări la tabelul existent
DESCRIE Descrie coloanele tabelului
TRUNCHIA Folosit pentru a trunchia și șterge definitiv rândurile tabelului
ȘTERGE Șterge datele din tabel, dar pot fi restaurate

Accesați Hive shell dând comenzii sudo hive și introduceți comanda 'crea Bază de date nume> ' pentru a crea noua bază de date în Hive.

Creați baza de date Hive utilizând comenzile Hive

Pentru a afișa bazele de date din depozitul Hive, introduceți comanda „ arată baze de date ”.

Baza de date creează într-o locație implicită a depozitului Hive. În Cloudera, magazinul de baze de date Hive într-un / utilizator / stup / depozit.

cum se utilizează Microsoft Visual Studio

Comanda de utilizare a bazei de date este UTILIZARE

Copiați datele de intrare în HDFS de la local utilizând comanda copiere De la local.

Când creăm un tabel în stup, acesta se creează în locația implicită a depozitului stupului. - „/ user / hive / warehouse”, după crearea tabelului putem muta datele din HDFS în tabelul hive.

Următoarea comandă creează un tabel cu locația „/user/hive/warehouse/retail.db”

Notă : retail.db este baza de date creată în depozitul Hive.

Descrie oferă informații despre schema tabelului.

Limbaj de manipulare a datelor (DML)

Instrucțiunile DML sunt folosite pentru recuperarea, stocarea, modificarea, ștergerea, inserarea și actualizarea datelor în baza de date.

Exemplu:

Declarații LOAD, INSERT.

Sintaxă:

ÎNCĂRCAȚI datele de intrare în tabel [nume de tablă]

Operația de încărcare este utilizată pentru a muta datele în tabelul Hive corespunzător. Dacă cuvântul cheie local este specificat, apoi în comanda de încărcare va da calea sistemului de fișiere local. Dacă cuvântul cheie local nu este specificat, trebuie să folosim calea HDFS a fișierului.

cum se folosește goto în c ++

Iată câteva exemple pentru comanda LOAD data LOCAL

După încărcarea datelor în tabelul Hive putem aplica Declarațiile de manipulare a datelor sau funcțiile agregate preluăm datele.

Exemplu de numărare a numărului de înregistrări:

Funcția de agregare de numărare este utilizată, numărați numărul total de înregistrări dintr-un tabel.

Tabelul „creați extern”:

creați extern cuvântul cheie este utilizat pentru a crea un tabel și oferă o locație în care va crea tabelul, astfel încât Hive să nu utilizeze o locație implicită pentru acest tabel. Un EXTERN tabelul indică orice locație HDFS pentru stocarea sa, mai degrabă decât stocarea implicită.

Introduceți comanda:

introduce comanda este utilizată pentru a încărca tabelul Hive de date. Inserările pot fi realizate pe o masă sau pe o partiție.

& bull INSERT OVERWRITE este utilizat pentru a suprascrie datele existente în tabel sau partiție.

& bull INSERT INTO este utilizat pentru a adăuga datele la datele existente într-un tabel. (Notă: INSERT INTO sintaxa funcționează din versiunea 0.8)

Exemplu pentru comanda „Partitioned By” și „Clustered By”:

‘Partiționat de „Este folosit pentru a împărți tabelul în partiție și poate fi împărțit în cupe folosind„ Grupat de ‘Comanda.

Când inserăm erorile de aruncare a datelor Hive, modul de partiție dinamică este strict și partiția dinamică nu este activată (de Jeff la site-ul dresshead ). Deci, trebuie să setăm următorii parametri în shell Hive.

set hive.exec.dynamic.partition = true

Pentru a activa partițiile dinamice, în mod implicit, este fals

set hive.exec.dynamic.partition.mode = nonstrict

Partiția se face în funcție de categorie și poate fi împărțită în cupe folosind comanda „Clustered By”.

Declarația „Drop Table” șterge datele și metadatele pentru un tabel. În cazul tabelelor externe, doar metadatele sunt șterse.

Declarația „Drop Table” șterge datele și metadatele pentru un tabel. În cazul tabelelor externe, doar metadatele sunt șterse.

Încărcați datele inpath locale „aru.txt” în numele tabelului tabelului și apoi verificăm tabelul angajat1 folosind Select * din comanda nume tabel

Pentru a număra numărul de înregistrări din tabel utilizând Select numara(*) din txnrecords

Agregare:

Selectați numărul (categoria DISTINCT) din numele tabletei

Această comandă va număra diferitele categorii de tabele „cate”. Aici există 3 categorii diferite.

Să presupunem că există o altă categorie de tabel în care f1 este numele câmpului categoriei.

Gruparea:

Comanda de grupare este utilizată pentru a grupa setul de rezultate cu una sau mai multe coloane.

Selectați categoria, suma (suma) din înregistrările txt grupați după categorie

Se calculează suma aceleiași categorii.

Rezultatul unui tabel este stocat într-un alt tabel.

Creați tabelul newtablename așa cum selectați * din oldtablename

Alăturați-vă comenzii:

Aici se creează încă un tabel în nume „E-mailuri”

Alăturați-vă operațiunii :

O operație de alăturare este efectuată pentru a combina câmpurile din două tabele utilizând valori comune fiecăruia.

Înscriere în partea stângă :

Rezultatul unei îmbinări externe la stânga (sau pur și simplu la stânga) pentru tabelele A și B conține întotdeauna toate înregistrările tabelului „stânga” (A), chiar dacă condiția de asociere nu găsește nicio înregistrare potrivită în tabelul „dreapta” (B).

Alăturați-vă la dreapta :

O îmbinare exterioară dreaptă (sau îmbinarea dreaptă) seamănă foarte mult cu o îmbinare exterioară stângă, cu excepția tratamentului tabelelor inversat. Fiecare rând din tabelul „dreapta” (B) va apărea în tabelul alăturat cel puțin o dată.

Alăturați-vă complet :

Tabelul alăturat va conține toate înregistrările din ambele tabele și va completa NULL-uri pentru meciurile lipsă de ambele părți.

ridicând un număr la o putere în java

Odată terminat cu hive putem folosi comanda quit pentru a ieși din shell-ul hive.

Ieșind din Hive

Hive este doar o parte din marele puzzle numit Big Data și Hadoop. Hadoop este mult mai mult decât doar Hive. Faceți clic mai jos pentru a vedea ce alte abilități ar trebui să însușiți în Hadoop.

Ai o întrebare pentru noi? Vă rugăm să o menționați în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Formarea în 7 moduri Big Data vă poate schimba organizația

Modele de date Hive