¿Qué es un DATA LAKE?

Un Data Lake es un repositorio de almacenamiento que contiene una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un Data Warehouse jerárquico que almacena datos en ficheros/bases de datos o carpetas , un Data Lake utiliza una arquitectura plana para almacenar cualquier tipo de datos desde cualquier origen.

A cada elemento de un Data Lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando se presenta una cuestión de negocios que debe ser resuelta, podemos solicitarle al Data Lake los datos que estén relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta de negocio.

¿Cuáles son los beneficios de un Data Lake?

El principal beneficio de un Data Lake es la centralización de fuentes de contenido dispares. Hoy en día ya no solo disponemos de información en fichero o bases de datos, si no que tenemos nuevas arquitecturas como las bases de datos no relacionales. Una vez reunidas (de sus «silos de información»), estas fuentes pueden ser combinadas y procesadas utilizando Big Data, búsquedas y análisis que de otro modo hubieran sido imposibles. Las fuentes de contenido dispares a menudo contienen información confidencial que requerirá la implementación de las medidas de seguridad apropiadas en el Data Lake .

Las medidas de seguridad en el Data Lake pueden ser asignadas de manera que se otorga acceso a cierta información a los usuarios del Data Lake que no tienen acceso a la fuente de contenido original. Estos usuarios tienen derecho a la información, pero no pueden acceder a ella en su fuente por alguna razón.

Es posible que algunos usuarios no necesiten trabajar con los datos en el origen de contenido original, sino consumir los datos resultantes de los procesos incorporados a dichos orígenes. Puede haber un límite de licencias para el origen de contenido original que impide que algunos usuarios obtengan sus propias credenciales. En algunos casos, la fuente de contenido original se ha bloqueado, está obsoleta o se desactivará en breve, sin embargo, su contenido sigue siendo valioso para los usuarios del Data Lake.

Una vez que el contenido está en el Data Lake , puede normalizarse y enriquecerse. Esto puede incluir extracción de metadatos, conversión de formatos, aumento, extracción de entidades, reticulación, agregación, des-normalización o indexación.

Los datos se preparan «según sea necesario», lo que reduce los costes de preparación sobre el procesamiento inicial (tal como sería requerido por los Data Warehouses). Una estructura de Big Data permite escalar este procesamiento para incluir los conjuntos de datos más grandes posibles.

Los usuarios, de diferentes departamentos, potencialmente dispersos por todo el mundo, pueden tener acceso flexible a un Data Lake y a su contenido desde cualquier lugar. Esto aumenta la reutilización del contenido y ayuda a la organización a recopilar más fácilmente los datos necesarios para impulsar las decisiones empresariales.

La información es poder, y un Data Lake pone la información de toda la empresa en manos de muchos más empleados para hacer a la organización un todo más inteligente, más ágil y más innovadora.

Documento redactado por Enrique Colomer Alós en Fuifi para Grupo Alfatec.