¿Necesita su organización tecnología ‘data fabric’?

Los tejidos de datos han ganado importancia en el último año a medida que más organizaciones buscan aprovechar sus datos y propiedad intelectual en soluciones de IA generativa. Los tejidos de datos ayudan a abordar los retos de centralizar los datos en las unidades de negocio y los conjuntos de datos alojados en nubes públicas, centros de datos y soluciones SaaS. Como resultado, más IA, modelos de aprendizaje automático y personas pueden utilizar datos en tiempo real de forma más rápida y sencilla.

Cuando el año pasado escribí sobre los tejidos de datos, las mallas de datos y las bases de datos en la nube, me centré en cómo los responsables de datos podían explicar estas tecnologías a los ejecutivos de las empresas sin ahogarse en la jerga. Sentí empatía con los directores de datos que se enfrentaban a la resistencia de ejecutivos que recordaban inversiones similares en big data, lagos de datos, lakehouses y migraciones a la nube.

La cuestión para muchas grandes empresas puede no ser si necesitan una estructura de datos, sino cómo evaluarlas, cuáles responden a las necesidades del negocio y cómo implantarlas de forma eficiente. La evaluación de las ofertas de nuevos proveedores no es una tarea trivial; el informe 2024 Forrester Wave on Enterprise Data Fabric informa de dos docenas de nuevos proveedores que ofrecen capacidades de tejido desde su evaluación de 2022.

Por qué las grandes empresas necesitan ‘data fabric

Consideremos un par de escenarios empresariales en los que los data fabric aportarían valor.

En primer lugar, un gran fabricante global que ejecuta SAP para sus finanzas busca construir flujos de trabajo operativos de extremo a extremo habilitados para genAI con datos en sus otros sistemas empresariales, plataformas SaaS y bases de datos en la nube. La empresa necesita una forma sencilla de conectar estas diferentes fuentes de datos para realizar análisis en tiempo real y permitir que los empleados utilicen los mensajes de IA generativa para buscar información. SAP Datasphere es su solución a los retos de integración.

El segundo ejemplo es una agencia gubernamental que utiliza una plataforma low-code para la gestión de casos y flujos de trabajo interdepartamentales, pero que ahora necesita integrarse con los almacenes de datos de sus sistemas de recursos humanos y financieros. La empresa investiga dos plataformas de automatización de procesos empresariales de bajo código, Appian Data Fabric y Pega Process Fabric. Ambas ayudan a integrar datos y flujos de trabajo entre sus plataformas y el ecosistema más amplio de soluciones empresariales.

Otras soluciones de tejido de datos que aparecen en la Wave de Forrester son Cloudera, Informatica, Denodo, Google, Hewlett Packard Enterprise IBM, InterSystems, K2view, Microsoft, Oracle, Qlik, Solix Technologies, Teradata y TIBCO Software.

“Una estructura de datos integra diversas fuentes de datos estructurados y no estructurados para proporcionar una visión y un acceso unificados en toda la empresa y acelerar así el conocimiento del negocio”, afirma Armon Petrossian, CEO y cofundador de Coalesce. “Al implementar un data fabric es importante tener en cuenta la escalabilidad para manejar grandes volúmenes de datos, la flexibilidad para diferentes tipos de datos y medidas de seguridad robustas”.

Los data fabric adoptan un enfoque centrado en las aplicaciones y las personas, centralizando el acceso y proporcionando servicios de gestión. Un data fabric responde a la pregunta ¿cómo pueden los ingenieros de datos simplificar los patrones de acceso estándar para las aplicaciones consumidoras sin una gestión de datos adicional y un trabajo de ingeniería excesivo?

“Una estructura de datos es una solución diseñada para integrar, gestionar y orquestar datos en diversas fuentes y entornos”, afirma Kaycee Lai, fundador de Promethium. “Ofrece una visión unificada y coherente de los datos relevantes en una empresa junto con capacidades que permiten el descubrimiento de datos sin fisuras, la integración virtual de datos y la entrega de productos de datos”.

Lai comparte tres indicadores para las organizaciones que necesitan un tejido de datos:

  • La empresa está experimentando silos de datos y fragmentación.
  • Los usuarios empresariales necesitan análisis en tiempo real para tomar decisiones inmediatas.
  • La dirección quiere habilitar la IA generativa y potenciar la analítica de autoservicio para los usuarios empresariales.

“Cuando te decides por una arquitectura de tejido de datos, estás adoptando una estrategia de datos centralizada”, afirma Hema Raghavan, responsable de Ingeniería y cofundador de Kumo AI. “Si su empresa se ha organizado en líneas de negocio (LOB), y si los datos, perspectivas y modelos de una LOB pueden ayudar a otra, una arquitectura de data fabric le ayudará a obtener valor rápidamente en diferentes partes de su empresa”.

En qué se diferencian los ‘data fabric’ de las plataformas de integración de datos

Muchas organizaciones ya han invertido en plataformas de integración de datos para ayudar a mover datos entre bases de datos, lagos de datos y otros sistemas. Las tecnologías de data pipelines y data streaming introducen capacidades de automatización y procesamiento de datos en tiempo real, mientras que las plataformas de integración como servicio (iPaaS) ayudan a conectar datos y flujos de trabajo entre sistemas.

Entonces, ¿en qué se diferencian los data fabric de estos otros tipos de plataformas?

Un data fabric es una combinación de arquitectura de datos y soluciones de software dedicadas que conectan, gestionan y gobiernan metadatos y datos en diferentes sistemas de TI y aplicaciones empresariales”, afirma JG Chirapurath, director de Marketing y Soluciones de SAP BTP. “La implementación de una estrategia de data fabric permite a los usuarios de datos de una organización acceder a los datos en tiempo real, mantener una fuente integral del conocimiento colectivo de una organización y automatizar sus procesos de gestión de datos”.

Así pues, aunque la integración de datos en tiempo real y la realización de transformaciones de datos son capacidades clave de los data fabric, su capacidad definitoria consiste en proporcionar un acceso centralizado, estandarizado y gobernado a las fuentes de datos de una empresa.

“Al evaluar los tejidos de datos, es esencial comprender que se interconectan con varias fuentes de datos empresariales, lo que garantiza que los datos estén disponibles de forma rápida y sencilla, a la vez que se mantienen estrictos controles de datos”, afirma Simon Margolis, director de Tecnología asociado de AI/ML en SADA. “A diferencia de otras soluciones de agregación de datos, un data fabric funcional sirve de ‘ventanilla única’ para la distribución de datos entre servicios, simplificando el acceso de los clientes, la gobernanza y los procesos de control experto”.

Así pues, los data fabric combinan características de otras plataformas de gobierno de datos y dataops. Suelen ofrecer funciones de catalogación de datos para que los usuarios finales puedan encontrar y descubrir los conjuntos de datos de la organización. Muchos ayudarán a los responsables del gobierno de datos a centralizar el control de acceso, al tiempo que proporcionan a los ingenieros de datos herramientas para mejorar la calidad de los datos y crear repositorios de datos maestros. Otras capacidades diferenciadoras son la seguridad de los datos, las funciones de privacidad de datos y las características de modelado de datos.

Ventajas empresariales y técnicas de la unificación de datos

La unificación de datos implica un amplio conjunto de capacidades para los usuarios finales de las empresas y los profesionales de datos. Los líderes empresariales buscan capacidades simplificadas y de autoservicio, mientras que los profesionales de datos necesitan capacidades de automatización y operación para gestionar los conjuntos de datos y tipos de datos dispares de la organización de forma estándar. Para las organizaciones con muchas fuentes y plataformas de datos, la unificación puede conectar eficazmente datos fiables con mayores capacidades empresariales.

“Un tejido de datos robusto revoluciona la exploración de datos al integrar las mejores prácticas de la industria, garantizando procesos estructurados y fiables”, afirma Hillary Ashton, directora de Producto de Teradata. “Este enfoque inteligente mejora la fiabilidad de sus datos, impulsando en última instancia un mayor valor empresarial”.

Una forma de evaluar y justificar las inversiones en tejido de datos es revisar las complejidades, el coste y el tiempo para poner los datos a disposición de las iniciativas de ciencia de datos. Los científicos de datos y los ingenieros dedican entre el 50% y el 80% de su tiempo a la lucha contra los datos, y los esfuerzos de unificación de datos pueden ayudar a reducir los esfuerzos repetidos para unir y limpiar las fuentes de datos.

“La realidad es que más de la mitad de los proyectos de IA no pasan a producción debido a la falta de una base sólida de datos empresariales”, afirma Midhat Shahid, vicepresidente de Gestión de Productos en IBM. “Sin una visión unificada de los datos a través de silos y sistemas dispares, las organizaciones luchan por integrar y gestionar sus datos de manera efectiva. Una arquitectura data fabric es esencial para que las organizaciones desbloqueen el valor de los datos a través de entornos de TI de nube híbrida”.

La unificación debe ofrecer a los profesionales de TI y datos opciones para trabajar a través de diferentes tipos de datos, integraciones listas para usar con plataformas comunes, capacidades de automatización para estandarizar conjuntos de datos y herramientas para integrarse con el desarrollo de aplicaciones y las iniciativas de ciencia de datos.

“La unificación de datos significa la capacidad de recopilar todos los datos estructurados, no estructurados y semiestructurados en una única vista del catálogo de datos, estén o no almacenados físicamente en la plataforma”, afirma John Ottman, presidente ejecutivo de Solix Technologies. “Con esta capacidad unificada de datos, los profesionales pueden establecer un gobierno de datos y transacciones ACID con control de versiones a lo largo del ciclo de vida de los datos”. Los data fabric aportan valor al permitir las transformaciones de datos requeridas por aplicaciones downstream como machine learning, analítica avanzada, IA generativa y otras aplicaciones NoSQL que buscan monetizar los datos empresariales”.

Retos de la implantación de los ‘data fabric’

Los data fabric suenan demasiado bien para ser verdad, así que pedí a los profesionales que compartieran algunos de los desafíos de implementación.

“Muchas empresas que implementan data fabric subestiman significativamente la complejidad de su arquitectura de datos existente y simplemente se sumergen en soluciones de data fabric sin una comprensión integral de sus silos de datos”, dice Ashton de Teradata. “El segundo mayor error es pasar por alto la importancia de la gobernanza, la confianza y la seguridad de los datos, que son elementos críticos para garantizar la calidad y el cumplimiento de los datos”.

Para implantar con éxito una solución de tejido de datos, los equipos de TI deben definir una declaración de visión, perfilar los objetivos, priorizar las necesidades empresariales y evaluar las capacidades técnicas de las plataformas. Dado que los objetivos son la centralización y la unificación, garantizar la gobernanza y la seguridad es una prioridad en la planificación de la implantación de una estructura de datos.

Definir los requisitos de datos y los modelos subyacentes es un área en la que hay que profundizar. Jay Allardyce, director general de Datos y Análisis de insightsoftware, afirma: “A pesar de ofrecer un enfoque estandarizado, la mayoría de las soluciones de data fabric carecen inicialmente de un contexto específico de dominio”.

Por ejemplo, los sistemas de planificación de recursos empresariales (ERP) almacenan abundante información sobre las finanzas, los productos y las cadenas de suministro de la organización, mientras que las plataformas de datos de clientes (CDP ) ayudan a centralizar la información sobre clientes y clientes potenciales procedente de múltiples sistemas de marketing y ventas. ¿Hasta qué punto pueden los tejidos de datos representar los datos ricos e interconectados almacenados en estos dominios?

“En última instancia, no va a haber un único tejido de datos que se adapte a las necesidades de todo el mundo, porque los datos son tan diversos y únicos como las personas que los utilizan”, afirma Anais Dotis-Georgiou, defensora principal de los desarrolladores en InfluxData. “Pretender que un único tejido de datos podría ser suficiente para cualquier organización es como decir que una única cadena de suministro podría servir para todas las empresas. Independientemente de su dominio, necesitará expertos que puedan comprender las características idiosincrásicas de los datos, los desafíos únicos asociados con la ingeniería de datos y cómo aprovechar esos datos para tareas significativas de ciencia de datos”.

Otro reto para los equipos tecnológicos es no prestar suficiente atención a la gestión del cambio y la adopción por parte del usuario final.

David Cassel, autor y CTO de 4V Services, afirma: “Los propietarios de los datos pueden temer que no se respeten los requisitos de seguridad o que compartir los datos amenace su papel en la organización. Es importante convencerles de que no perderán el control a medida que más personas se beneficien de sus datos”.

Identificar qué datos deben centralizarse y aplicar las mejores prácticas de gobierno de datos son pasos esenciales en el plan de implantación.

“Las organizaciones necesitan romper los silos de datos mediante la automatización de la integración de los datos esenciales y aumentar la madurez de los metadatos para catalogar, perfilar e identificar continuamente los datos más utilizados”, dice Emily Washington, SVP de gestión de productos en Precisely. “También es fundamental establecer políticas y prácticas sólidas de gobierno de datos para garantizar la calidad, la seguridad y el cumplimiento de los datos, y crear formas fáciles de usar para que esos datos estén fácilmente disponibles para una toma de decisiones segura en toda la empresa”.

Otra recomendación viene de Jerod Johnson, evangelista tecnológico senior de CData. “Tendrá que trabajar con sus usuarios de datos y determinar cuándo necesitan datos en tiempo real y cuándo es mejor disponer de datos históricos, y tendrá que diseñar su sistema, políticas y procesos en consecuencia”, recomienda.

¿Quién necesita una estructura de datos?

“Los tejidos de datos son caros, pero no deje que eso le distraiga del papel que los datos en tiempo real con bajas latencias pueden desempeñar en la mejora de la experiencia del cliente”, dice Khawaja Shams, fundador y CEO de Momento.

Cualquier iniciativa de unificación de datos que conecte cientos o más plataformas de datos, aplicaciones, SaaS y otros servicios no es fácil, rápida ni barata. Si lo fueran, ya habríamos resuelto los retos con almacenes de datos, plataformas de big data, lagos de datos, lakehouses y otras plataformas de gestión de datos.

Pero la IA está aumentando la importancia de unificar los datos, y las plataformas están haciendo un poco de unificación por sí mismas al reunir la integración de datos, las operaciones de datos, la automatización, las capacidades empresariales de autoservicio y la gobernanza de datos bajo un paraguas de tejido de datos. Las organizaciones que sienten el peso de más datos y la fricción en la entrega de capacidades analíticas deben investigar los tejidos de datos como una solución potencial.



Source link