Estrategia para integrar datos de terceros en tu propio data lake: Una perspectiva del Chief Analytics Officer

aldo valadez

Chief Data and Analytics Officer @ sigma alimentos. I develop COEs in Analytics, M.L. and A.I.

Fecha de publicación: 14 jul 2023

¿Qué es un Data Lake?

Un data lake es un repositorio de almacenamiento centralizado y de gran escala que permite conservar una gran cantidad de datos en su formato original hasta que sean requeridos. Los data lakes son capaces de almacenar datos no estructurados, semi-estructurados y estructurados, lo que los convierte en una opción atractiva para las organizaciones que manejan una gran cantidad con diversidad de datos.

¿Qué tipos de conjuntos de datos puedo poner en un Data Lake?

La versatilidad de un data lake radica en su capacidad para almacenar cualquier tipo de datos. Esto incluye datos estructurados, como bases de datos relacionales y datos de aplicaciones de ERP, datos semi-estructurados como CSV, logs, XML, JSON y datos no estructurados, como emails, documentos, audio y video. Además, los data lakes también son capaces de manejar datos en tiempo real y datos de series de tiempo.

Esto es especialmente relevante en la era actual del Big Data, donde los datos pueden provenir de una multitud de fuentes diferentes y en una variedad de formatos. La capacidad de almacenar todos estos datos en un solo lugar facilita el análisis y la extracción de información valiosa.

¿Qué hace un Data Lake al guardar los datos?

Un data lake mantiene los datos en su formato original hasta que se necesitan. Esta es una diferencia fundamental entre un data lake y un data warehouse. Mientras que un data warehouse requiere que los datos estén “limpios”, transformados y estructurados antes de ser almacenados (un proceso conocido como ETL), un data lake almacena los datos en su estado natural.

Esto significa que cuando los datos entran en un data lake, se asignan metadatos a los datos para ayudar a categorizarlos y se almacenan en su forma original. Cuando se necesita acceder a estos datos, se pueden transformar y estructurar de acuerdo a los requerimientos específicos de la tarea en cuestión. Esto se conoce como el proceso de "schema-on-read", en contraposición al "schema-on-write" de los data warehouses.

¿Qué es un proceso de ETL?

ETL es la abreviatura de Extract, Transform, Load, un proceso que se utiliza para tomar datos de una o más fuentes, convertirlos a un formato que puede ser analizado y luego cargarlos en un data warehouse.

Extract implica la recolección de datos de diversas fuentes. Transform se refiere a la conversión de los datos al formato requerido para el análisis, lo cual puede implicar la limpieza de los datos, la resolución de inconsistencias y la estructuración de los datos de manera adecuada. Load se refiere al proceso de transferir los datos transformados al data warehouse.

Integración de Datos de Terceros: Una Estrategia en Detalle

La integración de datos de terceros en tu propio data lake puede ser una tarea compleja. No solo se trata de añadir datos a un repositorio; se trata de garantizar que estos datos sean útiles, accesibles y gobernados adecuadamente. Aquí te dejo una estrategia paso a paso para abordar este proceso.

Recomendado por LinkedIn

Data Warehouse vs Data Lake

Luis Adrian Contreras Cancino Hace 1 año

Big Data y el proceso ETL (parte2)

Antonio Marco Hace 3 años

Data Warehouse, Mart, Lake & Cube ergo, BIG DATA

Carlos Sbarra Hace 5 años

Identificación y Validación de las Fuentes de Datos

El primer paso para integrar datos de terceros en tu data lake es identificar y validar las fuentes de datos que deseas integrar. Estas pueden variar desde bases de datos externas hasta fuentes de datos en tiempo real. Es importante validar la calidad y la relevancia de estos datos para tu organización. ¿Los datos están completos? ¿Son precisos y confiables? ¿Aportan valor a tu organización y a tus objetivos comerciales?

Diseño de la Arquitectura de Integración

Una vez que hayas validado tus fuentes de datos, es importante diseñar una arquitectura de integración que facilite la extracción, transformación y carga de estos datos en tu data lake. Esta arquitectura debería considerar factores como la velocidad de los datos (¿son en tiempo real o en batches?), la naturaleza de los datos (¿son estructurados, semi-estructurados o no estructurados?) y el volumen de los datos.

Implementación de Herramientas y Procesos de ETL

Con tu arquitectura de integración diseñada, el siguiente paso es implementar las herramientas y los procesos necesarios para extraer, transformar y cargar tus datos de terceros en tu data lake. Esto puede implicar herramientas de ETL, así como herramientas de procesamiento de datos en tiempo real.

En este punto, también es importante considerar el proceso de transformación de los datos. ¿Necesitan los datos ser limpiados y/o normalizados antes de ser cargados en el data lake? ¿Qué metadatos necesitan ser asignados a los datos para facilitar su categorización y recuperación?

Mantenimiento y Monitoreo Continuos

Una vez que los datos de terceros estén en tu data lake, es esencial realizar un mantenimiento y monitoreo continuos. Esto puede implicar la monitorización de la calidad de los datos, la implementación de procesos para corregir cualquier problema y la actualización de los datos según sea necesario.

Gobierno de Datos

Finalmente, es fundamental tener en cuenta el gobierno de los datos. Esto incluye garantizar la seguridad de los datos, el cumplimiento de las regulaciones de privacidad y la gestión de los permisos de acceso. Al integrar datos de terceros, es importante ser consciente de cualquier restricción o requerimiento legal relacionado con estos.

La integración de datos de terceros en tu propio data lake no es una tarea fácil, pero con la estrategia adecuada, puedes maximizar el valor de estos datos para tu organización. Como Chief Analytics Officer, tu rol es liderar esta estrategia, garantizando que tu organización pueda aprovechar al máximo los beneficios de la era del Big Data.

Geoffrey Porto

Head of Data & Analytics at AF Seguros | AI/LLM Researcher at IAtros | B.S.c Physics Student and PhD Student in Computer Science (Causal ML Researcher) | MSc in Artificial Intelligence | B.Sc Industrial Engineer

1 año

Excelente tema mi estimado Aldo. Creo que otro tema relevante, seria que escribieras sobre linaje de datos en un Datalakehouse. Saludos!

Recomendar

Responder

Efren Franco Ibarra

Great Experience in Digital Transformation process with Big Data & AI Analytics , Saas Solutions, KYC & ID verification platforms for On Boarding process to reduce fraud - Financial Services, Telecom, Retail Industries

1 año

Excelente explicación Aldo, saludos¡¡

Recomendar

Responder

1 reacción

Ver más comentarios

Inicia sesión para ver o añadir un comentario.

Más artículos de aldo valadez

Más allá de los RPAs, ¿Dónde está el valor?

22 nov 2024

Más allá de los RPAs, ¿Dónde está el valor?

La automatización robótica de procesos (RPA) ha sido una herramienta valiosa para automatizar tareas rutinarias y de…

1 comentario
¿Qué viene en cuanto a datos para el 2025?

1 nov 2024

¿Qué viene en cuanto a datos para el 2025?

Hace dos semanas platicamos sobre las tendencias que venían para el 2025 en cuanto a analítica, ahora veamos que viene…
Construyendo el futuro: Cómo la alfabetización de datos y la I.A. generativa impulsarán la democracia analítica en 2025

25 oct 2024

Construyendo el futuro: Cómo la alfabetización de datos y la I.A. generativa impulsarán la democracia analítica en 2025

Sigo leyendo muchisimo sobre lo que nos depara el 2025, esta vez les traigo una entrega donde mezclé varios papers…

3 comentarios
¿Qué viene para el 2025 en analítica e I.A.?

18 oct 2024

¿Qué viene para el 2025 en analítica e I.A.?

No se si ya pudieron leer la guía de planeación 2025 para analítica e I.A.

1 comentario
No uses la I.A. generativa todo el tiempo.

27 sept 2024

No uses la I.A. generativa todo el tiempo.

La inteligencia artificial generativa (GenAI) ha capturado la atención de muchas organizaciones debido a su capacidad…

1 comentario
Comenzando con la Generación Aumentada por Recuperación (RAG): Potenciando la IA Generativa en la Empresa

13 sept 2024

Comenzando con la Generación Aumentada por Recuperación (RAG): Potenciando la IA Generativa en la Empresa

La inteligencia artificial generativa (GenAI) está transformando la manera en que las empresas abordan la toma de…

3 comentarios
Cómo crear y mantener una base de conocimiento para humanos e I.A.: Estrategias y Beneficios

30 ago 2024

Cómo crear y mantener una base de conocimiento para humanos e I.A.: Estrategias y Beneficios

En el mundo empresarial actual, la gestión del conocimiento se ha vuelto esencial no solo para la efectividad de los…
Más Allá de FinOps: Optimización de Costos en la Nube

23 ago 2024

Más Allá de FinOps: Optimización de Costos en la Nube

La adopción de la nube pública ha transformado la manera en que las organizaciones manejan su infraestructura y…
Prácticas de Calidad de Datos para Preparar tu Organización para la Inteligencia Artificial

16 ago 2024

Prácticas de Calidad de Datos para Preparar tu Organización para la Inteligencia Artificial

En el mundo empresarial actual, la inteligencia artificial (IA) está desempeñando un papel cada vez más crucial en la…

3 comentarios
Mejores Prácticas para la Migración de la Gobernanza de Datos y Análisis a la Nube

5 jul 2024

Mejores Prácticas para la Migración de la Gobernanza de Datos y Análisis a la Nube

La migración de datos y analítica a la nube se ha convertido en una prioridad estratégica para muchas organizaciones…

4 comentarios

See all articles

Estrategia para integrar datos de terceros en tu propio data lake: Una perspectiva del Chief Analytics Officer

aldo valadez

Chief Data and Analytics Officer @ sigma alimentos. I develop COEs in Analytics, M.L. and A.I.

Recomendado por LinkedIn

Más artículos de aldo valadez

Otros usuarios han visto

Data Warehouse, Mart, Lake & Cube ergo, BIG DATA

¿Cómo iniciar con el Análisis de Big Data y no morir en el intento?

Desmitificando las Diferencias: Data Warehouse, Data Lake, Data Lakehouse, Delta Lake y Delta Lakehouse

Optimización de Datos: La iniciativa CUBO iQ® ETL para transformar tu estrategia de negocios.

3 Pecados Capitales cometidos en los procesos ETL

Analítica avanzada: No más ETL, no más Data Warehouses para el nuevo desafío de conocimiento en tiempo real

Integración de datos con Synapse Analytics

Database Data Warehousing - Analytic Views

Construyendo el data stack perfecto (Parte 2): Creando el Data Warehouse

Excel y Big Data

Ver temas

Recomendado por LinkedIn

Más artículos de aldo valadez

Más allá de los RPAs, ¿Dónde está el valor?

¿Qué viene en cuanto a datos para el 2025?

Construyendo el futuro: Cómo la alfabetización de datos y la I.A. generativa impulsarán la democracia analítica en 2025

¿Qué viene para el 2025 en analítica e I.A.?

No uses la I.A. generativa todo el tiempo.

Comenzando con la Generación Aumentada por Recuperación (RAG): Potenciando la IA Generativa en la Empresa

Cómo crear y mantener una base de conocimiento para humanos e I.A.: Estrategias y Beneficios

Más Allá de FinOps: Optimización de Costos en la Nube

Prácticas de Calidad de Datos para Preparar tu Organización para la Inteligencia Artificial

Mejores Prácticas para la Migración de la Gobernanza de Datos y Análisis a la Nube

Otros usuarios han visto

Data Warehouse, Mart, Lake & Cube ergo, BIG DATA

¿Cómo iniciar con el Análisis de Big Data y no morir en el intento?

Desmitificando las Diferencias: Data Warehouse, Data Lake, Data Lakehouse, Delta Lake y Delta Lakehouse

Optimización de Datos: La iniciativa CUBO iQ® ETL para transformar tu estrategia de negocios.

3 Pecados Capitales cometidos en los procesos ETL

Analítica avanzada: No más ETL, no más Data Warehouses para el nuevo desafío de conocimiento en tiempo real

Integración de datos con Synapse Analytics

Database Data Warehousing - Analytic Views

Construyendo el data stack perfecto (Parte 2): Creando el Data Warehouse

Excel y Big Data

Ver temas