- Redshift és un servei de magatzem de dades ràpid i potent, totalment gestionat i a escala de petabytes al núvol.
- Els clients poden utilitzar Redshift per només 0,25 dòlars l'hora sense compromisos ni costos inicials i escalar fins a un petabyte o més per 1.000 dòlars per terabyte per any.
OLAP
OLAP és un Sistema de processament d'analítica en línia utilitzat per la Desplaçament al vermell .
Exemple de transacció OLAP:
Suposem que volem calcular el benefici net per a EMEA i Pacífic per al producte de ràdio digital. Això requereix treure un gran nombre de registres. A continuació es mostren els registres necessaris per calcular un benefici net:
- Suma de ràdios venudes a EMEA.
- Suma de ràdios venudes al Pacífic.
- Cost unitari de la ràdio a cada regió.
- Preu de venda de cada ràdio
- Preu de venda - cost unitari
Les consultes complexes són necessàries per obtenir els registres indicats anteriorment. Les bases de dades d'emmagatzematge de dades utilitzen diferents tipus d'arquitectura tant des de la perspectiva de la base de dades com des de la capa d'infraestructura.
Configuració Redshift
Redshift consta de dos tipus de nodes:
Node únic: Un sol node emmagatzema fins a 160 GB.
Multinode: Multi-node és un node que consta de més d'un node. És de dos tipus:
Gestiona les connexions dels clients i rep les consultes. Un node líder rep les consultes de les aplicacions client, analitza les consultes i desenvolupa els plans d'execució. Es coordina amb l'execució paral·lela d'aquests plans amb el node de càlcul i combina els resultats intermedis de tots els nodes, i després retorna el resultat final a l'aplicació client.
Un node de càlcul executa els plans d'execució i, a continuació, els resultats intermedis s'envien al node líder per a l'agregació abans de tornar-los a l'aplicació client. Pot tenir fins a 128 nodes de càlcul.
Entendrem el concepte de node líder i nodes de càlcul mitjançant un exemple.
Redshift warehouse és una col·lecció de recursos informàtics coneguts com a nodes, i aquests nodes estan organitzats en un grup conegut com a clúster. Cada clúster s'executa en un motor Redshift que conté una o més bases de dades.
Quan inicieu una instància de Redshift, comença amb un únic node de 160 GB. Quan vulgueu créixer, podeu afegir nodes addicionals per aprofitar el processament paral·lel. Teniu un node líder que gestiona els múltiples nodes. El node líder gestiona la connexió del client així com els nodes de càlcul. Emmagatzema les dades en nodes de càlcul i realitza la consulta.
Per què Redshift és 10 vegades més ràpid
El desplaçament al vermell és 10 vegades més ràpid per les raons següents:
En lloc d'emmagatzemar dades com una sèrie de files, Amazon Redshift organitza les dades per columna. Els sistemes basats en files són ideals per al processament de transaccions, mentre que els sistemes basats en columnes són ideals per a l'emmagatzematge i l'anàlisi de dades, on les consultes sovint impliquen agregats realitzats sobre grans conjunts de dades. Com que només es processen les columnes implicades en les consultes i les dades de columna s'emmagatzemen en un suport d'emmagatzematge de manera seqüencial, els sistemes basats en columnes requereixen menys E/S, millorant així el rendiment de les consultes.
Els magatzems de dades en columna es poden comprimir molt més que els magatzems de dades basats en files perquè dades similars s'emmagatzemen seqüencialment al disc. Amazon Redshift utilitza múltiples tècniques de compressió i sovint pot aconseguir una compressió significativa en relació amb els magatzems de dades de relació tradicionals.
Amazon Redshift no requereix índexs ni vistes materialitzades, de manera que requereix menys espai que els sistemes tradicionals de bases de dades relacionals. Quan carregueu dades en una taula buida, Amazon Redshift fa mostres de les vostres dades automàticament i selecciona la tècnica de compressió més adequada.
Amazon Redshift distribueix automàticament les dades i carrega la consulta entre diversos nodes. Un Amazon Redshift fa que sigui fàcil afegir nous nodes al vostre magatzem de dades, i això ens permet aconseguir un rendiment de consultes més ràpid a mesura que el vostre magatzem de dades creix.
Característiques de redshift
Les característiques de Redshift es mostren a continuació:
creació de matrius de cadenes en java
Redshift és senzill de configurar i operar. Podeu implementar un nou magatzem de dades amb només uns quants clics a la consola AWS i Redshift us proporcionarà automàticament la infraestructura. A AWS, totes les tasques administratives estan automatitzades, com ara les còpies de seguretat i la rèplica, cal centrar-vos en les vostres dades, no en l'administració.
Redshift fa una còpia de seguretat automàtica de les vostres dades a S3. També podeu replicar les instantànies a S3 en una altra regió per a qualsevol recuperació de desastres.
Amazon Redshift és el servei de magatzem de dades més rendible, ja que només heu de pagar pel que feu servir.
Els seus costos comencen amb 0,25 dòlars per hora sense compromís i sense costos inicials i es poden escalar fins a 250 dòlars per terabyte per any.
Amazon Redshift és l'únic servei de magatzem de dades que ofereix preus sota demanda sense costos inicials, i també ofereix preus d'instància reservada que estalvia fins a un 75% proporcionant un termini d'1 a 3 anys.
Podeu triar qualsevol dels dos nodes per optimitzar el Redshift.
El node de càlcul dens pot crear magatzems de dades d'alt rendiment mitjançant l'ús de CPU ràpides, una gran quantitat de memòria RAM i discs d'estat sòlid.
Si voleu reduir el cost, podeu utilitzar el node d'emmagatzematge Dens. Crea un magatzem de dades rendible mitjançant l'ús d'un disc dur més gran.
Amazon Redshift augmenta o redueix automàticament els nodes segons els canvis de necessitat. Amb només uns quants clics a la consola AWS o amb una única trucada a l'API es pot canviar fàcilment el nombre de nodes d'un magatzem de dades.
És una característica de Redshift que us permet executar les consultes amb exabytes de dades a Amazon S3. Amazon S3 és una informació segura i rendible per emmagatzemar dades il·limitades en un format obert.
És una característica de Redshift significa que les consultes múltiples poden accedir a les mateixes dades a Amazon S3. Us permet executar les consultes als múltiples nodes independentment de la complexitat d'una consulta o de la quantitat de dades.
Amazon Redshift és l'únic magatzem de dades que s'utilitza per consultar el llac de dades d'Amazon S3 sense carregar dades. Això proporciona flexibilitat emmagatzemant les dades d'accés freqüent a Redshift i les dades no estructurades o d'accés poc freqüent a Amazon S3.
Amb un parell de paràmetres de configuració, podeu configurar Redshift perquè utilitzi SSL per protegir les vostres dades. També podeu habilitar el xifratge, totes les dades escrites al disc es xifraran.
Amazon Redshift proporciona emmagatzematge de dades en columna, compressió i processament paral·lel per reduir la quantitat d'E/S necessària per realitzar consultes. Això millora el rendiment de les consultes.