Datawarehouse en la nube

Gráfico de Pareto

Los data warehouses han sido elementos básicos de la elaboración de informes y de la analítica de negocio durante décadas. Sin embargo, no estaban diseñados para gestionar el explosivo crecimiento de datos de hoy en día o para seguir el ritmo de las necesidades cambiantes de los usuarios finales. Todo eso cambió cuando surgió el data warehouse en la nube. Los data warehouses en la nube ofrecen a negocios de todos los tamaños las ventajas y la flexibilidad de las que no disfrutaban antes. Ya no están limitados por los centros de datos físicos, las empresas pueden ahora aumentar o reducir sus data warehouses dinámicamente para ajustarse rápidamente a los presupuestos y a los requisitos de negocio en constante cambio. Las arquitecturas modernas en la nube combinan tres elementos básicos: el poder del data warehousing, la flexibilidad de las plataformas de Big Data y la elasticidad de la nube por una fracción del precio de las soluciones tradicionales. En este post se describen los principales data warehouses en la nube, las diferencias más significativas de cada proveedor y un enfoque comprobado que los hace accesibles, efectivos y eficientes para todos sus usuarios de datos.

Amazon Redshift

Redshift es un servicio de data warehouse en la nube a escala de petabytes y totalmente administrado. Puede empezar con muy poco, unos cuantos gigabytes de datos, y escalarlo a petabytes. Esto le permite extraer nuevos conocimientos a partir de los datos de sus clientes y de su negocio. El primer paso para crear un data warehouse de Redshift es el lanzamiento de un conjunto de nodos, conocido como un clúster de Amazon Redshift. Una vez lanzado el clúster, puede cargar su conjunto de datos y ejecutar luego consultas de análisis de datos. Independientemente del tamaño de su conjunto de datos, Amazon Redshift ofrece un rápido rendimiento de las consultas mediante herramientas basadas en SQL conocidas y aplicaciones de Business Intelligence.

Microsoft Azure Synapse Analytics

Azure Synapse Analytics es un servicio de analítica más moderno que integra data warehouses empresariales y analítica de Big Data. Le brinda la libertad de consultar datos usando recursos tanto sin servidor bajo demanda como aprovisionados. Azure Synapse ofrece una experiencia unificada para ingerir, preparar, gestionar y proporcionar datos para sus necesidades de Business Intelligence (BI) y aprendizaje automático (ML). En la base de Azure Synapse se encuentra un motor de procesamiento SQL distribuido y nativo en la nube. Se creó con base en servidor SQL para admitir las cargas de trabajo de data warehouse empresariales más exigentes. Azure SQL Data Warehouse (SQL DW), al igual que otras soluciones de MPP en la nube, separa almacenamiento y procesamiento, y los factura por separado. Azure Synapse guarda datos de tablas relacionales con almacenamiento en columnas y abstrae máquinas físicas pues representa la potencia del proceso en forma de unidades de data warehouses (DWU). Esto permite que sus usuarios escalen los recursos informáticos fácilmente, sin problemas y con libertad.

Google BigQuery

BigQuery es un data warehouse sin servidor totalmente administrado que escala automáticamente para satisfacer las necesidades de almacenamiento y de procesamiento. Con BigQuery, obtiene una base de datos ANSI SQL y en columnas que puede analizar de terabytes a petabytes de datos a una velocidad increíble. BigQuery también le permite realizar análisis de datos geoespaciales utilizando SQL conocido con BigQuery GIS. Además, puede crear y poner en funcionamiento rápidamente modelos de lenguaje automático en datos estructurados o semiestructurados a gran escala utilizando un SQL simple con BigQuery ML. También admite la gestión de cuadros de mando interactiva y en tiempo real con BigQuery BI Engine. La arquitectura de BigQuery está compuesta por varios elementos: Borg es el proceso; Colossus, el almacenamiento distribuido; Júpiter, la red, y Dremel, el motor de ejecución.

Snowflake Cloud Data Platform

Snowflake es un data warehouse en la nube de MPP totalmente administrado que se ejecuta en AWS, GCP y Azure. Si es usuario de Snowflake, puede activar tantos almacenes virtuales como sean necesarios para paralelizar y aislar el rendimiento de consultas individuales. Snowflake permite una simultaneidad muy alta pues separa el almacenamiento y el proceso, lo que garantiza que muchos almacenes pueden acceder simultáneamente a la misma fuente de datos. Interactúa con el data warehouse de Snowflake a través de un navegador web, la línea de comandos, una plataforma analítica, o a través de ODBC, JDBC u otros controladores compatibles de Snowflake. La plataforma es compatible con el procesamiento relacional conforme a ACID y tiene soporte nativo para formatos de almacenamiento de documentos como JSON, Avro, ORC (columnas de fila optimizadas), Parquet y XML.

Documento redactado por Enrique Colomer Alós en Fuifi para Grupo Alfatec.