QUÈ ÉS HIVE

Hive és un sistema de magatzem de dades que s'utilitza per analitzar dades estructurades. Està construït al cim de Hadoop. Va ser desenvolupat per Facebook.

Hive ofereix la funcionalitat de llegir, escriure i gestionar grans conjunts de dades que resideixen a l'emmagatzematge distribuït. Executa consultes semblants a SQL anomenades HQL (llenguatge de consultes Hive) que es converteixen internament en treballs de MapReduce.

Amb Hive, podem saltar el requisit de l'enfocament tradicional d'escriure programes MapReduce complexos. Hive admet el llenguatge de definició de dades (DDL), el llenguatge de manipulació de dades (DML) i les funcions definides per l'usuari (UDF).

Característiques de Hive

Aquestes són les següents característiques de Hive:

Hive és ràpid i escalable.
Proporciona consultes semblants a SQL (és a dir, HQL) que es transformen implícitament en treballs de MapReduce o Spark.
És capaç d'analitzar grans conjunts de dades emmagatzemats a HDFS.
Permet diferents tipus d'emmagatzematge, com ara text sense format, RCFile i HBase.
Utilitza la indexació per accelerar les consultes.
Pot funcionar amb dades comprimides emmagatzemades a l'ecosistema Hadoop.
Admet funcions definides per l'usuari (UDF) on l'usuari pot proporcionar la seva funcionalitat.

Limitacions de Hive

Hive no és capaç de gestionar dades en temps real.
No està dissenyat per al processament de transaccions en línia.
Les consultes Hive contenen una alta latència.

Diferències entre Rusc i Porc

Rusc	Porc
Hive és utilitzat habitualment pels analistes de dades.	El porc és utilitzat habitualment pels programadors.
Segueix consultes semblants a SQL.	Segueix el llenguatge de flux de dades.
Pot gestionar dades estructurades.	Pot gestionar dades semiestructurades.
Funciona al costat del servidor del clúster HDFS.	Funciona al costat del client del clúster HDFS.
El rusc és més lent que el porc.	El porc és comparativament més ràpid que Hive.

TechCodeview

Característiques de Hive

Limitacions de Hive

Diferències entre Rusc i Porc