Hive este un sistem de depozitare de date pentru Hadoop care facilitează rezumarea ușoară a datelor, interogări ad-hoc și analiza seturilor de date mari stocate în sistemele de fișiere compatibile Hadoop. Hive structurează datele în concepte de baze de date bine înțelese, cum ar fi tabele, rânduri, coloane și partiții. Acceptă tipuri primitive, cum ar fi Numere întregi, Flotări, Duble și Șiruri. Hive acceptă, de asemenea, matrici asociative, liste, structuri, iar API-ul Serialize și Deserialized este utilizat pentru a muta date în și din tabele.
Să analizăm în detaliu modelele de date Hive
Modele de date Hive:
Modelele de date Hive conțin următoarele componente:
diferența dintre agil și devops
- Baze de date
- Mese
- Partiții
- Găleți sau clustere
Partiții:
Partiție înseamnă împărțirea unui tabel într-o parte cu granulație grosieră pe baza valorii unei coloane de partiție, cum ar fi „date”. Acest lucru face mai rapidă interogarea pe felii de date
converti dublu în java int
Deci, care este funcția partiției? Tastele de partiție determină modul în care sunt stocate datele. Aici, fiecare valoare unică a cheii de partiție definește o partiție a tabelului. Partițiile sunt numite după date pentru comoditate. Este similar cu „Blocarea împărțirii” în HDFS.
Cupe:
Găleatele oferă o structură suplimentară datelor care pot fi utilizate pentru interogări eficiente. O îmbinare a două tabele care sunt colectate pe aceleași coloane, inclusiv coloana de îmbinare, poate fi implementată ca o asociere pe hartă. Bucketing-ul după ID-ul folosit înseamnă că putem evalua rapid o interogare bazată pe utilizator executând-o pe un eșantion randomizat din setul total de utilizatori.
aruncă vs aruncă vs aruncabil în java
Ai o întrebare pentru noi? Vă rugăm să le menționați în secțiunea de comentarii și vă vom răspunde.
Postări asemănatoare: