Diferencias entre Data Warehouse y Data Lake

Hay numerosas diferencias entre Data Warehouse y un Data Lake, vamos a tratar de resumiralas.

Un Data Lake conserva todos los datos, no sólo los que podrían utilizarse actualmente, sino también aquellos que podrían necesitarse en un futuro. Por otra parte, está el Data Warehouse que estudia muy bien qué datos incluir, cuáles son las fuentes de los datos. Además, se necesita dedicar tiempo para entender el negocio y así seleccionar y perfilar los datos necesarios. El Data Warehouse al final, contiene un modelo de datos altamente estructurado, diseñado para la generación de informes. El Data Lake utiliza un hardware muy diferente al del Data Warehouse. En el Data Lake, se almacenan datos tanto estructurados como no estructurados y la ampliación a terabytes y petabytes es mucho más económico que en el caso del Data Warehouse. Es por eso, que en este último se mira tanto qué datos son necesarios para conservar, y cuales eliminar, ya que supone un costoso almacenamiento.

Un Data Lake soporta todos los tipos de datos, es decir, en este se guardan todos los datos, independientemente de la fuente y la estructura, y además, se mantienen en su forma bruta, transformándolos sólo cuando van a ser utilizados. En el Data Warehouse los datos almacenados son muchos más críticos para el negocio y la realización de informes. Por ejemplo, los datos de imágenes, comentarios en redes sociales, textos, etc, no suelen ser tenidos en cuenta, ya que, su almacenamiento es muy costoso.

Los Data Lakes son más flexibles que los Data Warehouses. Uno de los mayores problemas que presenta un Data Warehouse, está en el momento que se necesita realizar un cambio importante. Todo cambio se convierte en una tarea realmente difícil, ya que adaptar un Data Warehouse supone invertir mucho tiempo en el desarrollo de la estructura del almacén. Hoy día, las organizaciones demandan respuestas rápidas a sus preguntas comerciales, y en muchos casos, no pueden esperar a que el Data Warehouse se adapte. En cambio, el Data Lake, al almacenar todos los datos en bruto, permite el acceso de cualquier usuario para que los explote y analice en función de sus necesidades, encontrando la manera de responder a sus preguntas a su ritmo.

El Data Warehouse proporciona unos resultados más limpios, estructurados y fiables. Sin embargo, en el Data Lake, al disponer de datos en bruto y sin estructurar, al hacer las consultas, usuarios no demasiado cualificados, recibirán información rápida, pero no del todo precisa, tal y como la obtendrían de un Data Warehouse. Normalmente, para usuarios de perfil Data scientist, este problema no existe en el Data Lake, ya que ellos crean sus reglas y estructuran la información para preparar sus análisis y modelos. El verdadero problema reside en el 80% del resto de usuarios, quienes simplemente buscan tener acceso a ciertos kpis diarios.

Tanto los Data Warehouses como los Data Lakes están destinados a convivir en las empresas que deseen basar sus decisiones en datos. Como se puede entender, ambos son complementarios, no sustitutivos, pudiendo ayudar a cualquier negocio a conocer mejor el mercado y el consumidor, de cara a poder realizar estrategias basadas en el conocimiento de estos, con comunicaciones cada vez más personalizadas, es decir, ser más customer centric.

Documento redactado por Enrique Colomer Alós en Fuifi para Grupo Alfatec.