logo

Tutorial d'Apache Spark

Tutorial d'Apache Spark

El tutorial d'Apache Spark proporciona conceptes bàsics i avançats de Spark. El nostre tutorial Spark està dissenyat per a principiants i professionals.

Spark és un motor d'anàlisi unificat per al processament de dades a gran escala que inclou mòduls integrats per a SQL, streaming, aprenentatge automàtic i processament de gràfics.

El nostre tutorial de Spark inclou tots els temes d'Apache Spark amb introducció a Spark, instal·lació de Spark, Arquitectura de Spark, components de Spark, RDD, exemples en temps real de Spark, etc.

Què és Spark?

Apache Spark és un marc informàtic de clúster de codi obert. El seu objectiu principal és gestionar les dades generades en temps real.

Spark es va construir a la part superior de Hadoop MapReduce. Es va optimitzar per funcionar a la memòria, mentre que enfocaments alternatius com MapReduce d'Hadoop escriuen dades a i des dels discs durs de l'ordinador. Per tant, Spark processa les dades molt més ràpidament que altres alternatives.

Història d'Apache Spark

El Spark va ser iniciat per Matei Zaharia a l'AMPLab de la UC Berkeley el 2009. Va ser de codi obert el 2010 amb una llicència BSD.

El 2013, el projecte va ser adquirit per Apache Software Foundation. El 2014, Spark va sorgir com un projecte Apache de primer nivell.

Característiques d'Apache Spark

    Ràpid- Proporciona un alt rendiment tant per a lots com per a dades de streaming, utilitzant un programador DAG d'última generació, un optimitzador de consultes i un motor d'execució física.Fàcil d'usar- Facilita escriure l'aplicació en Java, Scala, Python, R i SQL. També ofereix més de 80 operadors d'alt nivell.Generalitat- Proporciona una col·lecció de biblioteques que inclouen SQL i DataFrames, MLlib per a l'aprenentatge automàtic, GraphX ​​i Spark Streaming.Pes lleuger- És un motor d'anàlisi unificat lleuger que s'utilitza per al processament de dades a gran escala.Corre per tot arreu- Es pot executar fàcilment a Hadoop, Apache Mesos, Kubernetes, autònom o al núvol.

Ús de Spark

    Integració de dades:Les dades generades pels sistemes no són prou coherents com per combinar-les per analitzar-les. Per obtenir dades coherents dels sistemes, podem utilitzar processos com Extraure, transformar i carregar (ETL). Spark s'utilitza per reduir el cost i el temps necessaris per a aquest procés ETL.Processament del flux:Sempre és difícil gestionar les dades generades en temps real, com ara els fitxers de registre. Spark és prou capaç d'operar fluxos de dades i rebutja operacions potencialment fraudulentes.Aprenentatge automàtic:Els enfocaments d'aprenentatge automàtic són més factibles i cada cop més precisos gràcies a la millora del volum de dades. Com que Spark és capaç d'emmagatzemar dades a la memòria i pot executar consultes repetides ràpidament, facilita el treball en algorismes d'aprenentatge automàtic.Analítica interactiva:Spark és capaç de generar la resposta ràpidament. Per tant, en comptes d'executar consultes predefinides, podem gestionar les dades de manera interactiva.

Requisit previ

Abans d'aprendre Spark, has de tenir uns coneixements bàsics d'Hadoop.

Públic

El nostre tutorial Spark està dissenyat per ajudar a principiants i professionals.

Problemes

Us assegurem que no trobareu cap problema amb aquest tutorial de Spark. Tanmateix, si hi ha algun error, si us plau, publiqueu el problema al formulari de contacte.