En este extenso (por no decir infinito) campo de los datos seguramente se ha encontrado durante los últimos años con el concepto de arquitectura de datos moderna y un sin número de publicaciones entre imágenes, artículos y escritos en dónde podemos resumir la “modernidad” de la arquitectura de datos en el uso de recursos en la nube, tales como orquestadores, lagos de datos, sistemas de procesamiento distribuidos y tendencias entorno a la administración del ciclo de vida como Data/ML Ops; y si bien estos elementos representan evolución y nos ayudan a resolver problemas de cómputo, almacenamiento y desarrollo, allí no radica la verdadera modernidad. Solo hemos trasladado los problemas de siempre a una infraestructura más robusta que nos permite trabajar con datos a mayor escala.
Problemas como la falta de gobernanza real, más allá de la implementación de un sistema de catalogación, los silos de datos, calidad deficiente, políticas incipientes de gestión de datos en las grandes organizaciones, falta de responsables reales (por lo general es TI o la oficina del CDO), poca velocidad de respuesta al cambio y un falso auto servicio de datos, son problemas que aún existen, persisten y no logramos resolverlos con las tecnologías que nos brindan los grandes fabricantes. Y aquí está el punto, no son los grandes fabricantes ni sus productos los responsables de cambiar el paradigma y de resolver estos problemas. La responsabilidad real está en el tipo de estrategia de datos que las organizaciones logran desplegar.
Gracias a uno de los miembros de nuestro equipo de trabajo, que en algún momento me compartió un artículo que hacia una crítica profesional a las debilidades de los lagos de datos monolíticos, me embarque en un viaje de profundización hacia un nuevo paradigma, que desde mi punto de vista, es realmente disruptivo y reta nuestras ideas tradicionales en el enfoque de la arquitectura y la gestión de datos; ideas que con la modernidad de las plataformas tecnológicas no hemos logrado evolucionar más allá de las dimensiones de capacidad de cómputo y el almacenamiento de diversos y grandes volúmenes de datos.
Hoy estamos frente a un nuevo paradigma en la gestión de datos denominado Data Mesh (Malla de Datos); este enfoque realmente logra generar una ruptura en la forma como la gestión de datos aborda los desafíos que de manera general describí en líneas anteriores. Data Mesh consigue por fin aclarar la ruta hacia lo que significa ser una organización realmente impulsada por datos (Data driven) que tiene como objetivo aumentar y mejorar distintos aspectos de las áreas funcionales o de negocio como las denominamos comúnmente.
Así las cosas, Data Mesh va más allá de componentes técnicos y de infraestructura, nos propone hablar de Arquitectura de Datos Distribuida Moderna, donde el dato y su tratamiento ya no es más responsabilidad de TI o el CDO, ahora es responsabilidad de las diferentes áreas de negocio generadoras de datos. Esto convierte el dato en un producto de vital y real importancia y las capacidades de ingeniería y ciencia de datos dejan de ser exclusivas de las oficinas digitales o las oficinas de tecnología dónde tenemos poco o nada de conocimiento de negocio. Este nuevo paradigma impulsa la idea de abandonar la centralización de los datos (lagos de datos monolíticos) para llevar el dominio y responsabilidad del dato a las áreas de negocio. Esto significa que en lugar de enviar los datos de los dominios (unidades y/o procesos de negocio) a una plataforma o lago de datos de propiedad central, las unidades de negocio o dominios deben almacenar y exponer sus conjuntos de datos de una manera que sea fácil de consultar y explotar.
A partir de este punto puede imaginarse toda una generación de microservicios de datos, pipelines o tuberías totalmente desacopladas, datos como producto y equipos multifuncionales e independientes en las áreas de negocio que tienen ingenieros y científicos de datos integrados generando un valor real y cuidando de la calidad de los datos, de los que ahora son propietarios. Todo esto bajo un gobierno central y una infraestructura de datos de autoservicio compartida real y distribuida en el uso. Interesante, ¿verdad?
Los invito a profundizar en este nuevo y moderno enfoque leyendo la reciente publicación de O’Reilly titulada Data Mesh, escrito por Zhamak Dehghani, a quien podemos denominar sin duda como la gestora o responsable de este nuevo e interesante paradigma en la gestión de datos. Paradigma que Igerencia y su equipo de profesionales ya está adoptando y profundizando para poderle ayudar a usted querido lector en la gestión de datos de su organización.
By
Felipe Moreno
Director UEN-BI & BA
Commentaires