Hive és un sistema de magatzem de dades que s'utilitza per analitzar dades estructurades. Està construït al cim de Hadoop. Va ser desenvolupat per Facebook.
Hive ofereix la funcionalitat de llegir, escriure i gestionar grans conjunts de dades que resideixen a l'emmagatzematge distribuït. Executa consultes semblants a SQL anomenades HQL (llenguatge de consultes Hive) que es converteixen internament en treballs de MapReduce.
Amb Hive, podem saltar el requisit de l'enfocament tradicional d'escriure programes MapReduce complexos. Hive admet el llenguatge de definició de dades (DDL), el llenguatge de manipulació de dades (DML) i les funcions definides per l'usuari (UDF).
Característiques de Hive
Aquestes són les següents característiques de Hive:
- Hive és ràpid i escalable.
- Proporciona consultes semblants a SQL (és a dir, HQL) que es transformen implícitament en treballs de MapReduce o Spark.
- És capaç d'analitzar grans conjunts de dades emmagatzemats a HDFS.
- Permet diferents tipus d'emmagatzematge, com ara text sense format, RCFile i HBase.
- Utilitza la indexació per accelerar les consultes.
- Pot funcionar amb dades comprimides emmagatzemades a l'ecosistema Hadoop.
- Admet funcions definides per l'usuari (UDF) on l'usuari pot proporcionar la seva funcionalitat.
Limitacions de Hive
- Hive no és capaç de gestionar dades en temps real.
- No està dissenyat per al processament de transaccions en línia.
- Les consultes Hive contenen una alta latència.
Diferències entre Rusc i Porc
Rusc | Porc |
---|---|
Hive és utilitzat habitualment pels analistes de dades. | El porc és utilitzat habitualment pels programadors. |
Segueix consultes semblants a SQL. | Segueix el llenguatge de flux de dades. |
Pot gestionar dades estructurades. | Pot gestionar dades semiestructurades. |
Funciona al costat del servidor del clúster HDFS. | Funciona al costat del client del clúster HDFS. |
El rusc és més lent que el porc. | El porc és comparativament més ràpid que Hive. |