½¿É«µ¼º½

Nuestra red

²Ñ¨¢²õ

C¨®mo est¨¢n obteniendo los ½¿É«µ¼º½datos adecuados para la IA

Noticia
23 jun. 202510 minutos

El ¨¦xito de una iniciativa de IA depende en gran medida de la calidad de los datos subyacentes. Por ello, los responsables de TI est¨¢n mejorando sus estrategias de data lake, warehouse y lakehouse para sentar las bases de dicho ¨¦xito.

AI-Driven Workflow, Automating Data Management Analytics and Business Reports with KPIs, Predictive Insights, and Big Data Integration. Businessman touching Virtual Screen with Decision-Making Tech.
Cr¨¦ditos: Shutterstock

La calidad de los datos es fundamental para el éxito de cualquier iniciativa de TI, lo cual es especialmente cierto en el caso de los proyectos de IA. Si bien los datos de mala calidad siempre darán peores resultados, lo que está en juego es especialmente importante en el caso de la IA, donde unos datos deficientes pueden provocar graves pérdidas económicas, multas reglamentarias y daños a la reputación. Sin embargo, unos datos de buena calidad que alimenten una iniciativa de éxito pueden proporcionar una ventaja estratégica significativa y, posiblemente, revolucionaria.

Satya Jayadev, vicepresidente y director de informática de Skyworks Solutions, fabricante de semiconductores para redes inalámbricas, declara que “en el mundo de la IA, si entra basura, sale basura al cuadrado”. Por eso, considera que “el secreto de cualquier buen sistema de IA es lo bien que se construyen las capas de datos. Es importante construir esa arquitectura e infraestructura, comprender la fuente de los datos, generar los datos y crear una plataforma de datos única”.

No sólo lo piensa este especialista, sino muchos otros que también creen que esta estrategia significa redoblar la apuesta que lleve a la implementación de un datalake, un data warehouses o un data lakehouse como fuente única de verdad para la IA, ya sea aprendizaje automático (ML) tradicional, IA generativa o IA agencial.

Cuando el Big Data irrumpió en escena hace más de una década, los datalakes surgieron para dar cabida a los datos no estructurados como fuente de información analítica. Un data lakehouse, a veces denominado acelerador de consultas, contiene datos no estructurados como un datalake, pero añade capas de estructura, como un data warehouses, para ofrecer información de forma más rápida y económica.

Los directores de informática están poniendo en práctica estas y otras tecnologías de datos para garantizar que los canales de datos sean robustos y tengan el nivel de calidad necesario para obtener un valor transformador de sus estrategias de IA.

Mejores datos = mejor IA

Las organizaciones que han tomado medidas para organizar mejor sus datos son más propensas a conseguir una madurez de los datos, un atributo clave de las empresas que tienen éxito con la IA. IDC define la madurez de los datos como el uso de procesos avanzados de calidad de los datos, catalogación y metadatos, y gobernanza de los datos. Su encuesta Office of the CDO Survey revela que las empresas con madurez de datos son mucho más propensas que otras organizaciones a disponer de soluciones de IA generativa en producción. 

“Las organizaciones están dando prioridad a la calidad de los datos para impulsar la productividad de los trabajadores de datos y mejorar la precisión y la relevancia de los resultados generados por la IA”, afirma Stewart Bond, vicepresidente de servicios de software de integración e inteligencia de datos de IDC.

Además, la misma investigación de IDC revela que preparar los datos para obtener resultados óptimos de IA incide con gravedad en los resultados finales de la empresa, ya que multiplica por cinco la retención de clientes y genera importantes ganancias en beneficios, eficiencia e ingresos.

Para Jayadev, de Skyworks Solutions, un data lakehouse construido con tecnología Databricks es el centro del trabajo de calidad de los datos.

“El data lakehouse es, en cierto sentido, los cimientos de un rascacielos. Recopilamos todos los datos, los clasificamos y agrupamos para crear capas de calidad de datos de bronce, plata y oro”, explica dicho especialista. Y añade: “Tenemos petabytes de datos almacenados en el data lakehouse, y cada día llegan terabytes desde nuestra fábrica y otras fuentes”.

Gallo recopila datos antiguos

Jayadev y Skyworks Solutions no son los únicos. Gallo, el gigante productor de vino y otras bebidas, ha implementado un data warehouses y un data lakehouse para obtener información de IA, según el director de informática Robert Barrios. La empresa ha construido un almacén de datos SAP S/4HANA que se divide en data marts separados para datos de consumidores, finanzas y abastecimiento. Además, Gallo ha implementado un data lakehouse AWS Redshift para datos que no son de SAP, al que ha aplicado metadatos para determinar su estructura.

Según Barrios, Gallo también está utilizando IA generativa para mejorar la calidad de los datos, lo que le ha permitido identificar desviaciones de las cadenas estándar y rellenar los huecos de datos. Por ejemplo, cuando un atributo de una entrada de datos de un cliente se sale de la norma, la IA generativa puede detectar el atributo correcto y sustituirlo por el erróneo. El mismo procedimiento que se aplica a las características del vino. Por ejemplo, uno puede describirse como “picante”, cuando el término aceptado es “pimienta”. Al extender el contexto, la IA generativa cambia el término incorrecto por el correcto.

Para la IA generativa, Gallo utiliza AWS Bedrock. Esto le permite trabajar con sus propios LLM en lugar de LLM públicos, de modo que sus datos no se exponen de manera pública.

El siguiente paso de Gallo es documentar cómo toma las decisiones y, a continuación, introducir esa información en agentes de IA que puedan tomar decisiones por sí mismos, lo que es una implementación de la IA basada en agentes. “No es diferente de un agente deportivo o inmobiliario. Le dices al agente lo que quieres y él lo encuentra por ti”, afirma Barrios.

Los datos farmacéuticos encuentran su hogar en el ‘lakehouse’

Servier Pharmaceuticals centralizó sus datos en un data lakehouse de Google Cloud Platform (GCP) Big Query. Éste proporciona una plataforma de datos común para seis carteras de TI corporativas que dan servicio a grupos que van desde I+D hasta equipos de producto y relaciones públicas corporativas, cada uno de los cuales implementa la IA en mayor o menor medida. Según Mark Yunger, director de TI de Servier Pharmaceuticals, fabricante de tratamientos contra el cáncer y otras enfermedades de difícil detección, el lakehouse y sus etiquetas de metadatos ofrecen una ventaja añadida, como es romper los silos de datos que, de otro modo, separarían los datos utilizados por los diferentes equipos.

“Creamos una taxonomía y una nomenclatura de datos racionales en torno a todos esos datos dispares para poder utilizarlos en algoritmos de IA, asegurándonos de que los que introducimos son buenos. Eso nos ayuda a garantizar que nuestros resultados son correctos”, afirma Yunger, quien añade que los análisis de IA son especialmente beneficiosos para el análisis y la obtención de información sobre ventas y marketing.

En la industria farmacéutica, las patentes son de extrema importancia. Eso significa que Servier debe proteger sus propias patentes con diligencia y evitar infringir las de otras empresas.

“Tenemos que ser conscientes de lo que incluimos en los conjuntos de datos públicos”, afirma Yunger. A partir de esta precaución, Servier ha creado una versión privada de ChatGPT en Microsoft Azure para garantizar que los equipos se beneficien del acceso a las herramientas de IA, al tiempo que se mantiene la confidencialidad y se protege la información. A juicio de Yunger, la implementación de la IA genérica se utiliza para acelerar la creación de documentos internos y correos electrónicos.

Además, los datos personales que puedan aparecer en los ensayos farmacéuticos deben tratarse con la máxima precaución para cumplir con la Ley de IA de la Unión Europea, que prohíbe a las organizaciones vigilar de manera activa a una persona sin su consentimiento.

Según Yunger, hay mucho en juego. “Muchas cosas podrían salir muy mal. Si tienes problemas de cumplimiento, eso podría traducirse en multas importantes, de ahí la importancia de asegurarte de que cumples las normas”, añade.

AES obtiene datos energéticos de la fuente

AES, una empresa de generación de energía sostenible, ha creado CEDAR, una plataforma de datos para IA en GCP que agrega y gestiona los datos operativos de sus instalaciones de energía limpia, según explica Alejandro Reyes, director digital de la compañía.

“CEDAR armoniza la forma en que se recopilan y definen los datos. Los hace iguales en toda nuestra línea de productos”, afirma Reyes. Mediante el uso de Atlan, una herramienta de catalogación de datos, y Qualytics, otra de calidad de datos basada en ML, CEDAR aplica normas a los datos para que puedan servir como fuente única para la IA independientemente de su uso en finanzas, ingeniería, mantenimiento u otra unidad corporativa, explica Reyes.

Farseer de AES, por la que recibió el premio ½¿É«µ¼º½100 Award 2024, es una plataforma basada en IA que aprovecha los datos de CEDAR para proporcionar a AES información sobre la demanda del mercado, las condiciones meteorológicas previstas, la capacidad energética y los ingresos esperados. Según Reyes, esta información permite a AES determinar cuánta energía debe poner en el mercado y a qué precio. Además, AES utiliza Google Gemini y Microsoft Copilot, y está explorando la IA basada en agente para gestionar los procesos administrativos.

Todo se basa en los datos

Aunque datalake, data warehouses o data lakehouse no son nada nuevo, el impulso por obtener valor empresarial de la IA los está poniendo en el punto de mira, lo que exige una gobernanza de datos de primer nivel.

“La IA no es TI tradicional, sino una herramienta transformadora: todo el mundo quiere acceder a ella. El reto era implementar la gobernanza para poder abrir los datos y la plataforma de IA a la empresa para que pudiera crear todos sus casos de uso”, afirma Jayadev, de Skyworks Solutions.

Según Yunger, de Servier, desear eso no lo convierte en realidad: se necesitan profesionales de TI cualificados. En los 18 meses transcurridos desde que comenzó su proyecto de gobernanza de datos, Yunger afirma que el mayor obstáculo al que se enfrenta es salvar la brecha de talento. “Es una combinación de talento —capacidad y habilidades— y procesos. Es necesario encontrar el adecuado para impulsar y acelerar estos pasos”.

Para lograr lo que él denomina “IA sostenible”, Reyes, de AES, aconseja encontrar un delicado equilibrio: implementar la gobernanza de datos, pero de forma que no altere los patrones de trabajo. De ahí que aconseje asegurarse de que todo el mundo en la empresa comprenda que los datos deben tratarse como un activo valioso: dado lo mucho que hay en juego con la IA, hay una razón de peso para catalogarla y gestionarla con precisión.

Barrios, de Gallo, refuerza la idea de una base de datos única y sólida. “Si tienes un montón de bases diferentes, podría convertirse en un juego de naipes. No basta con una única base por sí sola. Es fundamental contar con el apoyo de la parte comercial de la empresa”, afirma.

Por eso, para concluir, aconseja asociarse “con el negocio para asegurarse de que disponen de métricas que muestren cómo le va. Ya puede tener el mejor data lakehouse, pero lo primordial es contar con gente que sepa utilizarlo”.

Stan Gibson is an award-winning technology editor, writer, and speaker, with 36 years of experience covering information technology. Formerly executive editor at eWeek and PC Week, he is currently principal at Stan Gibson Communications, where he continues to write and speak about all aspects of IT.

²Ñ¨¢²õ temas de este autor