Entendiendo los conceptos de Data Fabrics, Data Mesh y Gráficos de Conocimiento

Entendiendo los conceptos de Data Fabrics, Data Mesh y Gráficos de Conocimiento

Por casi una década o más hemos visto como proveedores, consultores y clientes suelen mencionar una serie de términos de estructuras de datos. Si "big data" era el problema para resolver, entonces un “data fabrics” (tejido de datos) parecia ser una solución adecuada, y así.

Para entender mejor el tema, tenemos que remontarnos a 1998 cuando John Mashey, entonces científico jefe de Silicon Graphics, usó el término "big data" para describir la ola de grandes conjuntos de datos menos estructurados y su impacto en la infraestructura. 

Años después, Apache Hadoop ganó popularidad después de que un ingeniero escribió una publicación en el blog del New York Times en 2009 sobre la automatización de una tarea de integración de PDF usando Hadoop.

A su vez el término “data lake” (lago de datos), se puso de moda a principios de la década del 2010 para describir un medio informal de hacer que los datos de varios tipos fueran accesibles para los equipos de analistas. Los primeros lagos de datos incluían un repositorio distribuido orientado a Hadoop (inspirado en los primeros clústeres de productos distribuidos de Google y su sistema de archivos) para análisis simples.

Cuando las empresas a menudo parecían descuidar sus lagos de datos, los críticos se apuraron a etiquetarlos como "pantanos de datos". Sin embargo, la adopción de lagos de datos continuó sin cesar, en parte porque los data warehouses a menudo tampoco se administraban del todo bien.


Data Fabrics

En 2014, SAP empezó a utilizar lo que denominaba "in-memory data fabric" para describir un almacén de datos virtual, un elemento clave de su línea de productos de "vista de cliente en 360 grados" de HANA. 

Gartner, por su parte, utiliza el término "data fabric" hasta el día de hoy como un medio integral de integración de datos heterogéneos. En una publicación de 2021 sobre arquitectura de estructura de datos indicaba:

“Data fabric es un concepto de diseño que sirve como una capa integrada (tejido) de datos y procesos de conexión. Es una arquitectura de datos que utiliza análisis continuos sobre activos de metadatos existentes, detectables e inferidos para respaldar el diseño, la implementación y el uso de datos integrados y reutilizables en todos los entornos, incluidas las plataformas híbridas y de múltiples nubes.”


Luego agrega:

“Data fabric aprovecha las capacidades tanto humanas como de las máquinas para acceder a los datos en el lugar en que se encuentren o respaldar su consolidación cuando corresponda. Identifica y conecta continuamente datos de aplicaciones dispares para descubrir relaciones únicas y relevantes para el negocio entre los datos disponibles”.


Posteriormente Gartner publica informes sobre la gestión de datos "habilitada por IA" y cómo está cambiando el panorama de la gestión de datos.  

Así, Data Fabric se convierte en la abreviatura para referirse a nuevas técnicas de gestión de datos más potentes.


Data Meshes

El director de tecnología emergente Zhamak Dehghani en Thoughtworks y su equipo propusieron el concepto de una "malla de datos" (data mesh) como una alternativa distribuida y articulada por dominio a los data warehouses y data lakes. La metáfora que usa Thoughtworks involucra dos planos de datos: uno operativo y el otro analítico. Una canalización de datos (principalmente extraer > cargar) conecta los dos planos. Los medios de presentación de informes y visualización, incluidos SQL y cuadros de mando, están a su vez conectados al plano analítico.

El concepto de Data Mesh de Thoughtworks se concentra en un enfoque orientado al dominio en lugar de la arquitectura analítica. Los propietarios de datos de dominio se vuelven responsables de entregar sus datos como un producto a los usuarios. “Datos como producto” significa que los datos ofrecidos tienen la calidad, integridad y disponibilidad necesarias para que los usuarios puedan confiar en ellos.

Según este punto de vista un producto de datos es un "quantum arquitectónico". Tal producto es la unidad más pequeña de arquitectura que puede funcionar cohesivamente por sí misma. Cada producto por este motivo incluye su propio código, datos, metadatos e infraestructura.

Un objetivo general de una plataforma de Data Mesh compuesta por estos cuantos específicos de dominio es el análisis de autoservicio escalable. Cada plataforma contiene tres planos: uno para el aprovisionamiento de infraestructura, un segundo para la experiencia del desarrollador y un tercero para la supervisión. 

Thoughtworks también prevé una gobernanza federada para administrar políticas en todas las plataformas.

Con todo, el concepto de Data Mesh aún se encuentra en sus primeras etapas. Las empresas que han explorado este camino dicen que un Data Mesh no es un destino, sino un viaje. Cuando se decide implementarlo, gran parte del esfuerzo inicial se dedica a encontrar, determinar el mejor uso y asignar todos los recursos que demanda una malla de datos. 


Gráficos de Conocimiento

Por otro lado, el término “Knowledge Graph” (gráfico de conocimiento) comenzó a ganar popularidad desde que Google acuñó el término en el 2012. En el transcurso de la última década, más del 90% de los gigantes del sector tecnológico del mundo han creado y utilizado gráficos de conocimiento. De hecho, los líderes en la industria farmacéutica, gubernamental, de servicios financieros, de fabricación y minorista en línea suelen utilizarlos.

Más específicamente, el "gráfico de conocimiento" es una base de datos que recopila millones de datos sobre palabras clave que las personas buscan con frecuencia en la red mundial y la intención detrás de esas palabras clave, según el contenido ya disponible. Con el gráfico de conocimiento, los usuarios pueden obtener información sobre personas, hechos y lugares que están interconectados de una forma u otra.

No hay texto alternativo para esta imagen

Ejemplo de un gráfico de conocimiento en base a Steve Jobs


Las implementaciones clásicas y mas destacadas de los gráficos de conocimiento utilizan evoluciones del stack de la web semántica, que se ha desarrollado y madurado durante dos décadas. La inspiración original de Tim Berners-Lee para la web semántica fue una "red de datos", con contenido, ontologías y datos relacionales, todos descritos en la misma forma articulada de entidad + relación o sujeto-predicado-objeto.

Hay muchas otras conceptualizaciones de gráficos de conocimiento, demasiadas para enumerarlas en una breve publicación de blog. Algunas de estas alternativas prevén una automatización completa a través de la PNL estadística independiente y métodos relacionados que no se ha demostrado que funcionen por sí solos.


Conclusión

Un análisis de Google Trends de la popularidad de búsqueda de los tres términos durante el último año clasifica los gráficos de conocimiento en primer lugar, Data Mesh en segundo lugar, con una tendencia creciente, y Data Fabrics en tercer lugar.

No hay texto alternativo para esta imagen

Lo primero que hay que decir es que ninguno de estos enfoques es fácil de adoptar. Por un lado una estructura de datos implica el menor cambio organizacional y ofrece la menor inversión. En cambio, una malla de datos da la mayor consideración a los desarrolladores y la forma en que trabajan actualmente. 

Por su lado, los gráficos de conocimiento tienen su herencia en la representación del conocimiento y la programación lógica, que no son los temas más familiares para el personal de TI. Estos requieren más del arte de la persuasión y la capacidad de encontrar una audiencia receptiva con un presupuesto que se puede arriesgar, pero los beneficios de una implementación sólida pueden ser sustanciales. Quizás por ello se ve su mayor popularidad en las búsquedas.

La elección final dependerá de cómo se aprecien los beneficios y una comprensión matizada de todos ellos.

¿Quieres empezar a sacar provecho a tus datos? Con Splunk, plataforma líder de inteligencia operacional, puedes empezar a utilizar tus datos para la generación de distintas gráficas y reportes que te permitirán tomar decisiones mucho mejor informadas.

Si te interesa, puedes contactarnos a hopit@valuetech.cl

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas