Press "Enter" to skip to content

Can AI solve IT’s eternal data problem?

La inteligencia artificial y el aprendizaje automático ya brindan mucho valor práctico a las empresas, desde la detección de fraude hasta los chatbots y el análisis predictivo. Pero las audaces habilidades de escritura creativa de ChatGPT han elevado las expectativas de AI/ML a nuevas alturas. Los líderes de TI no pueden evitar preguntarse: ¿Podría AI/ML finalmente estar listo para ir más allá de las soluciones puntuales y abordar los problemas empresariales centrales?

Considere el problema de TI más grande, antiguo y confuso de todos: administrar e integrar datos en toda la empresa. Hoy, ese esfuerzo pide a gritos la ayuda de las tecnologías AI/ML, ya que el volumen, la variedad, la variabilidad y la distribución de datos en las plataformas locales y en la nube ascienden en una curva exponencial interminable. Como dice Stewart Bond, vicepresidente de integración de datos e inteligencia de software de IDC: “Necesita máquinas que puedan ayudarlo a administrar eso”.

¿Puede AI/ML realmente ayudar a imponer orden en el caos de datos? La respuesta es un sí calificado, pero el consenso de la industria es que solo estamos arañando la superficie de lo que algún día se puede lograr. Los titulares de software de integración como Informatica, IBM y SnapLogic han agregado capacidades de IA/ML para automatizar diversas tareas, y una multitud de empresas más nuevas como Tamr, Cinchy y Monte Carlo colocan la IA/ML en el centro de sus ofertas. Ninguno se acerca a ofrecer soluciones de IA/ML que automaticen la gestión de datos y los procesos de integración de principio a fin.

Eso simplemente no es posible. Ningún producto o servicio puede conciliar todas las anomalías de los datos sin la intervención humana, y mucho menos reformar una arquitectura de datos empresariales confusa. Lo que estas nuevas soluciones impulsadas por AI/ML pueden hacer hoy es reducir sustancialmente el trabajo manual en una variedad de esfuerzos de integración y disputa de datos, desde la catalogación de datos hasta la creación de canalizaciones de datos para mejorar la calidad de los datos.

Esas pueden ser victorias notables. Pero para tener un impacto real y duradero, se requiere un enfoque de CDO (director de datos), en lugar del impulso de obtener herramientas de integración para proyectos únicos. Antes de que las empresas puedan priorizar qué soluciones de IA/ML aplicar y dónde, necesitan una vista coherente y de arriba hacia abajo de todo su patrimonio de datos (datos de clientes, datos de productos, datos de transacciones, datos de eventos, etc.) y una comprensión completa de los metadatos. definir esos tipos de datos.

El alcance del problema de los datos empresariales

La mayoría de las empresas hoy en día mantienen una gran extensión de almacenes de datos, cada uno asociado con sus propias aplicaciones y casos de uso, una proliferación que la computación en la nube ha exacerbado, a medida que las unidades de negocios lanzan rápidamente aplicaciones en la nube con sus propios silos de datos. Algunos de esos almacenes de datos pueden usarse para transacciones u otras actividades operativas, mientras que otros (principalmente almacenes de datos) sirven a quienes se dedican al análisis o la inteligencia comercial.

Para complicar aún más las cosas, “todas las organizaciones del planeta tienen más de dos docenas de herramientas de gestión de datos”, dice Noel Yuhanna, vicepresidente y analista principal de Forrester Research. “Ninguna de esas herramientas se comunica entre sí”. Estas herramientas manejan todo, desde catalogación de datos hasta MDM (gestión de datos maestros), gobierno de datos, observabilidad de datos y más. Algunos proveedores han infundido sus productos con capacidades AI/ML, mientras que otros aún no lo han hecho.

En un nivel básico, el propósito principal de la integración de datos es mapear el esquema de varias fuentes de datos para que diferentes sistemas puedan compartir, sincronizar y/o enriquecer datos. Este último es imprescindible para desarrollar una vista de 360 ​​grados de los clientes, por ejemplo. Pero tareas aparentemente simples, como determinar si los clientes o las empresas con el mismo nombre son la misma entidad, y qué detalles de qué registros son correctos, requieren intervención humana. A menudo se recurre a expertos en dominios para ayudar a establecer reglas para manejar varias excepciones.

Esas reglas generalmente se almacenan dentro de un motor de reglas integrado en el software de integración. Michael Stonebraker, uno de los inventores de la base de datos relacional, es uno de los fundadores de Tamr, que ha desarrollado un sistema MDM impulsado por ML. Stonebraker ofrece un ejemplo del mundo real para ilustrar las limitaciones de los sistemas basados ​​en reglas: una importante empresa de medios que creó un sistema MDM “casero” que ha estado acumulando reglas durante 12 años.

“Han escrito 300.000 reglas”, dice Stonebraker. “Si le preguntas a alguien, cuántas reglas puedes asimilar, un número típico es 500. Empújame fuerte y te daré 1,000. Tuerce mi brazo y te doy 2,000. Pero 50 000 o 100 000 reglas son completamente inmanejables. Y la razón por la que hay tantas reglas es que hay tantos casos especiales”.

Anthony Deighton, director de productos de Tamr, afirma que su solución MDM supera la fragilidad de los sistemas basados ​​en reglas. “Lo bueno del enfoque basado en el aprendizaje automático es que cuando agrega nuevas fuentes o, lo que es más importante, cuando la forma de los datos cambia, el sistema puede adaptarse a esos cambios con gracia”, dice. Sin embargo, al igual que con la mayoría de los sistemas de ML, se requiere una capacitación continua que utilice grandes cantidades de datos y aún se necesita el juicio humano para resolver las discrepancias.

AI/ML no es una bala mágica. Pero puede proporcionar una automatización muy valiosa, no solo para MDM, sino en muchas áreas de integración de datos. Sin embargo, para sacar el máximo provecho, las empresas deben poner su casa en orden.

Tejiendo AI/ML en la estructura de datos

“Tejido de datos” es la frase operativa que se usa para describir la colcha loca de datos útiles en toda la empresa. Explorar ese tejido comienza con saber dónde están los datos y catalogarlos. Esa tarea se puede automatizar parcialmente utilizando las capacidades de IA/ML de soluciones tales como el motor CLAIRE con infusión de IA/ML de Informatica o Watson Knowledge Catalog de IBM. Otros proveedores de software de catalogación incluyen Alation, BigID, Denodo y OneTrust.

El mensaje del director de investigación de Gartner, Robert Thanaraj, a los CDO es que “necesitan diseñar su estructura. Usted compra los componentes tecnológicos necesarios, construye y orquesta de acuerdo con los resultados deseados”. Ese tejido, dice, debería estar “impulsado por metadatos”, tejido a partir de una compilación de toda la información destacada que rodea a los datos empresariales en sí.

Also Read:  Do more with R: RStudio addins and keyboard shortcuts

Su consejo para las empresas es “invertir en el descubrimiento de metadatos”. Esto incluye “los patrones de personas que trabajan con personas en su organización, los patrones de personas que trabajan con datos y las combinaciones de datos que utilizan. ¿Qué combinaciones de datos rechazan? ¿Y qué patrones de dónde se almacenan los datos, patrones de dónde se transmiten los datos?

Jittesh Ghai, director de productos de Informatica, dice que el motor CLAIRE de Informatica puede ayudar a las empresas a obtener información sobre los metadatos y actuar en consecuencia. “Aplicamos capacidades de IA/ML para entregar datos predictivos… al vincular todas las dimensiones de los metadatos para dar contexto”. Entre otras cosas, esta inteligencia de datos predictiva puede ayudar a automatizar la creación de canalizaciones de datos. “Generamos automáticamente el mapeo de los elementos comunes de varios elementos de origen y lo adherimos al esquema del sistema de destino”.

Stewart Bond de IDC señala que la plataforma de integración SnapLogic tiene una funcionalidad de canalización similar. “Debido a que están basados ​​en la nube, observan… a todos sus otros clientes que han creado canalizaciones, y pueden descubrir cuál es el siguiente mejor Snap: ¿Cuál es la siguiente mejor acción que debe tomar en esta canalización, en función de lo que cientos o miles de otros clientes lo han hecho”.

Bond observa, sin embargo, que en ambos casos el sistema hace recomendaciones en lugar de que el sistema actúe de forma independiente. Un ser humano debe aceptar o rechazar esas recomendaciones. “Todavía no se está produciendo mucha automatización allí. Diría que incluso en el mapeo, todavía hay muchas oportunidades para más automatización, más IA”.

Mejora de la calidad de los datos

Según Bond, donde AI/ML está teniendo el mayor impacto es en la mejor calidad de los datos. Yuhanna de Forrester está de acuerdo: “AI/ML realmente está impulsando una mejor calidad de los datos”, dice. Esto se debe a que ML puede descubrir y aprender de patrones en grandes volúmenes de datos y recomendar nuevas reglas o ajustes que los humanos no tienen el ancho de banda para determinar.

Los datos de alta calidad son esenciales para las transacciones y otros sistemas operativos que manejan datos vitales de clientes, empleados, proveedores y productos. Pero también puede facilitar mucho la vida de los científicos de datos inmersos en el análisis.

A menudo se dice que los científicos de datos dedican el 80 % de su tiempo a limpiar y preparar datos. Michael Stonebraker no está de acuerdo con esa estimación: cita una conversación que tuvo con una científica de datos que dijo que pasa el 90 % de su tiempo identificando las fuentes de datos que quiere analizar, integrando los resultados y limpiando los datos. Luego dedica el 90 % del 10 % restante del tiempo a corregir errores de limpieza. Cualquier solución de limpieza de datos o catalogación de datos AI/ML que pueda devolverle una parte de ese tiempo es un cambio de juego.

La calidad de los datos nunca es un ejercicio de una sola vez. La naturaleza cambiante de los datos y los muchos sistemas por los que pasan han dado lugar a una nueva categoría de soluciones: el software de observación de datos. “Lo que hace esta categoría es observar los datos a medida que fluyen a través de las tuberías de datos. Y está identificando problemas de calidad de datos”, dice Bond. Él llama a las nuevas empresas Anomolo y Monte Carlo como dos jugadores que afirman estar “usando AI/ML para monitorear las seis dimensiones de la calidad de los datos”: precisión, integridad, consistencia, singularidad, puntualidad y validez.

Si esto suena un poco como la prueba continua esencial para los desarrolladores, no es una coincidencia. Cada vez más empresas están adoptando dataops, donde “hace pruebas continuas de los tableros, los trabajos de ETL, las cosas que hacen que esas canalizaciones se ejecuten y analicen los datos que están en esas canalizaciones”, dice Bond. “Pero también agregas control estadístico a eso”.

El problema es que observar un problema con los datos es posterior al hecho. No puede evitar que los datos incorrectos lleguen a los usuarios sin detener las canalizaciones. Pero como dice Bond, cuando un miembro del equipo de operaciones de datos aplica una corrección y la captura, “entonces una máquina puede hacer esa corrección la próxima vez que ocurra esa excepción”.

Más inteligencia por venir

Los proveedores de software de administración e integración de datos continuarán agregando funciones útiles de inteligencia artificial y aprendizaje automático a un ritmo rápido para automatizar el descubrimiento, el mapeo, la transformación, la canalización, la gobernanza, etc. Bond señala, sin embargo, que tenemos un problema de caja negra: “Todos los proveedores de datos dirán que su tecnología es inteligente. Parte de ella sigue siendo humo y espejos. Pero hay algunas cosas reales de AI/ML que suceden en lo más profundo del núcleo de estos productos”.

La necesidad de esa inteligencia es clara. “Si vamos a aprovisionar datos y lo vamos a hacer a escala de petabytes en este entorno heterogéneo, multinube y fragmentado, necesitamos aplicar IA a la gestión de datos”, dice Ghai de Informatica. Ghai incluso tiene un ojo puesto en la familia GPT-3 de OpenAI de modelos de lenguaje grande. “Para mí, lo más emocionante es la capacidad de comprender instrucciones de texto humano”, dice.

Sin embargo, ningún producto posee la inteligencia para racionalizar el caos de datos o limpiar datos sin ayuda. “No será posible una estructura completamente automatizada”, dice Thanaraj de Gartner. “Tiene que haber un equilibrio entre lo que se puede automatizar, lo que se puede aumentar y lo que aún podría ser compensado por los humanos en el circuito”.

Stonebraker cita otra limitación: la grave escasez de talento de IA/ML. No existe una solución de IA/ML llave en mano para la gestión e integración de datos, por lo que se necesita experiencia en IA/ML para una implementación adecuada. “Dejados a su suerte, los empresarios cometen el mismo tipo de errores una y otra vez”, dice. “Creo que mi mayor consejo es que si no eres sencillo en estas cosas, consigue un socio que sepa lo que está haciendo”.

La otra cara de esa afirmación es que si su arquitectura de datos es básicamente sólida y tiene el talento disponible para garantizar que puede implementar soluciones de IA/ML correctamente, se puede eliminar una cantidad sustancial de tedio para los administradores de datos, analistas y científicos. A medida que estas soluciones se vuelvan más inteligentes, esas ganancias solo aumentarán.

Derechos de autor © 2023 IDG Communications, Inc.

Be First to Comment

Leave a Reply

Your email address will not be published. Required fields are marked *