Introducere în Apache Hive



Apache Hive este un pachet de depozitare a datelor construit deasupra Hadoop și este utilizat pentru analiza datelor. Hive este destinat utilizatorilor care se simt confortabil cu SQL.

Apache Hive este un pachet de depozitare a datelor construit deasupra Hadoop și este utilizat pentru analiza datelor. Hive este destinat utilizatorilor care se simt confortabil cu SQL. Este similar cu SQL și se numește HiveQL, utilizat pentru gestionarea și interogarea datelor structurate. Apache Hive este folosit pentru a abstractiza complexitatea Hadoop. Acest limbaj permite, de asemenea, programatorilor tradiționali de mapare / reducere să conecteze maperele și reductoarele lor personalizate. Caracteristica populară a Hive este că nu este nevoie să învățați Java.





Hive, un cadru de depozitare a datelor la scară peta-octet open source bazat pe Hadoop, a fost dezvoltat de echipa de infrastructură de date de pe Facebook. Hive este, de asemenea, una dintre tehnologiile utilizate pentru a răspunde cerințelor de pe Facebook. Hive este foarte popular cu toți utilizatorii interni de pe Facebook și este folosit pentru a rula mii de joburi pe cluster cu sute de utilizatori, pentru o mare varietate de aplicații. Clusterul Hive-Hadoop de pe Facebook stochează mai mult de 2PB de date brute și încarcă în mod regulat 15 TB de date zilnic.

Să vedem câteva dintre caracteristicile sale care îl fac popular și ușor de utilizat:



  • Permite programatorilor să conecteze mapere și reductoare personalizate.
  • Are infrastructură Data Warehouse.
  • Oferă instrumente pentru a permite ETL de date ușor.
  • Definește limbajul de interogare de tip SQL numit QL.

Caz de utilizare Apache Hive - Facebook:

Hive Use Case - Facebook

Înainte de a implementa Hive, Facebook s-a confruntat cu o mulțime de provocări, deoarece dimensiunea datelor generate a crescut sau, mai degrabă, a explodat, ceea ce face foarte dificilă gestionarea lor. RDBMS tradițional nu a reușit să facă față presiunii și, ca urmare, Facebook a căutat opțiuni mai bune. Pentru a rezolva această problemă iminentă, Facebook a încercat inițial să utilizeze Hadoop MapReduce, dar cu dificultăți în programare și cunoștințe obligatorii în SQL, a făcut din aceasta o soluție impracticabilă. Hive le-a permis să depășească provocările cu care se confruntau.

Cu Hive, acum sunt capabili să efectueze următoarele:



  • Mesele pot fi porționate și găsite
  • Flexibilitatea și evoluția schemei
  • Sunt disponibile drivere JDBC / ODBC
  • Tabelele Hive pot fi definite direct în HDFS
  • Extensibil - Tipuri, formate, funcții și scripturi

Huse Use Case in Healthcare:

Unde să folosiți Hive?

java diferență între hashmap și hashtable

Apache Hive poate fi utilizat în următoarele locuri:

  • Exploatarea datelor
  • Procesare jurnal
  • Indexarea documentelor
  • Intelligence de afaceri orientat spre client
  • Modelarea predictivă
  • Testarea ipotezei

Arhitectura stupului:

Hive constă din următoarele componente majore:

  • Metastore - Pentru a stoca metadatele.
  • JDBC / ODBC - Compilator de interogări și motor de execuție pentru a converti interogările SQL într-o secvență de MapReduce.
  • SerDe și ObjectInspectors - Pentru formate și tipuri de date.
  • UDF / UDAF - Pentru funcții definite de utilizator.
  • Clienți - Similar cu linia de comandă MySQL și o interfață de utilizare web.

Componentele stupului:

Metastore:

Metastore stochează informații despre tabele, partiții, coloane în tabele. Există 3 moduri de stocare în Metastore: Embedded Metastore, Local Metastore și Remote Metastore. În cea mai mare parte, Remote Metastore va fi utilizat în modul de producție.

Limitările stupului:

clasă vs interfață în java

Hive are următoarele limitări și nu poate fi utilizat în astfel de circumstanțe:

  • Nu este conceput pentru procesarea tranzacțiilor online.
  • Oferă o latență acceptabilă pentru navigarea interactivă a datelor.
  • Nu oferă interogări în timp real și actualizări la nivel de rând.
  • Latența pentru interogările Hive este în general foarte mare.

Ai o întrebare pentru noi? Menționați-le în secțiunea de comentarii și vă vom răspunde.

Postări asemănatoare:

Comenzi Hive