"Tenemos datos" — la mayor mentira en los proyectos de IA

"Tenemos datos". Esta frase la escucho en la primera reunión de prácticamente cada proyecto de IA. Suele decirla alguien de la dirección o el director de TI. La dice con convicción. Y casi siempre resulta ser falsa.

No porque mienta. Sino porque "tenemos datos" en el lenguaje de la organización significa algo completamente diferente a "tenemos datos listos para ser utilizados por la IA".

Cuatro sistemas, cero consistencia

El escenario típico que veo en empresas medianas y grandes es el siguiente: los datos de clientes están en el CRM, los datos operativos en el ERP, los datos financieros en un sistema separado, y los reportes se crean en Excel a partir de exportaciones de esas tres fuentes. Nadie se ha sentado nunca a reconciliar esos datos entre sí. Cada sistema tiene su propia lógica, sus propios formatos, sus propias definiciones de campos.

Cuando pide que consoliden esos datos en un solo lugar, resulta que:

El mismo cliente tiene tres identificadores diferentes en tres sistemas.
Los datos de dirección están en diferentes formatos y con distintos grados de actualización.
Parte de los campos está completa, parte no — y nadie sabe por qué.
La documentación de la estructura de datos no existe, o es de 2019 y no corresponde al estado actual.

Esto no es la excepción. Es la norma.

La verdad sale cuando alguien se sienta con los datos

El momento en que la ilusión de "tenemos datos" se rompe es siempre el mismo: cuando alguien — una persona, no una máquina — se sienta e intenta ejecutar una tarea concreta con esos datos. No un reporte. No un dashboard. Una tarea de negocio concreta que iba a ser automatizada por la IA.

Y entonces comienza una serie de preguntas: "¿De dónde saco este valor?", "¿Por qué este campo está vacío?", "¿Esto es actual o histórico?", "¿Quién es el propietario de estos datos?". A la mayoría de estas preguntas nadie tiene respuesta — porque nadie las había hecho antes. Los datos estaban, los sistemas funcionaban, la gente se las arreglaba haciendo un workaround tras otro.

La IA no hace workarounds. La IA necesita datos consistentes, completos y con una estructura clara. Y ahí comienza el problema.

"Tenemos datos" vs. "los datos están listos"

Son dos frases fundamentalmente diferentes. "Tenemos datos" significa: en algún lugar de la organización existen registros digitales relacionados con nuestra actividad. "Los datos están listos" significa: esos registros son consistentes, completos, documentados, disponibles en un solo lugar y aptos para ser utilizados con un propósito concreto.

Entre una cosa y otra hay un abismo. Y ese abismo tiene un costo. He visto proyectos en los que el 70% del presupuesto de "implementación de IA" se fue en ordenar los datos. No en el modelo, no en la integración, no en UX — en tener algo con qué trabajar.

Ese no es un mal escenario. Es un escenario honesto. El mal escenario es aquel en el que nadie verifica los datos, construye un proof of concept sobre datos de demostración, y luego se sorprende de que en producción nada funciona.

Por qué las empresas se mienten a sí mismas

Porque la verdad es incómoda. Decirle a la dirección "no tenemos datos listos para IA" es decir que años de inversión en sistemas de TI no proporcionaron el fundamento que necesitamos. Es una conversación difícil. Es mucho más fácil decir "tenemos datos" y pasar a la siguiente diapositiva con el cronograma de implementación.

Pero esa facilidad termina en el primer intento de usar esos datos en la práctica. Y entonces el proyecto se detiene (lo cual es costoso, pero honesto) o — lo que es peor — avanza a la fuerza, produciendo resultados que se ven bien pero no tienen respaldo en la realidad.

Qué hacer en su lugar

Antes de iniciar cualquier proyecto de IA, haga una auditoría de preparación de datos. No una auditoría de TI. No una revisión de sistemas. Una auditoría que responda preguntas simples:

¿Dónde están los datos necesarios para esta tarea concreta? No "qué datos tenemos" — porque esa pregunta no lleva a ningún lado. La pregunta es: qué datos necesitamos para esta única aplicación concreta y dónde están.
¿Son consistentes esos datos entre sistemas? ¿El cliente X en el CRM es el mismo cliente X en el ERP? ¿Los valores coinciden? ¿Los formatos son compatibles?
¿Hay documentación? No "documentación general del sistema", sino una descripción: qué significa cada campo, quién lo completa, con qué frecuencia se actualiza, cuáles son los valores permitidos.
¿Quién es el propietario de los datos? ¿Quién responde por su calidad? ¿Quién decide sobre los cambios? Si la respuesta es "nadie" — eso es lo primero que hay que solucionar.
¿Puede un ser humano ejecutar la tarea con esos datos? Es la prueba de la que escribí en el artículo anterior. Si el experto no puede, la IA no hará milagros.

El enfoque honesto es más barato

Sé que esto no es lo que la dirección quiere escuchar en el kick-off de un proyecto de IA. Pero una evaluación honesta del estado de los datos al inicio es mucho más barata que descubrir la verdad a mitad del proyecto. Los proyectos en los que dedico con el cliente el primer mes a un diagnóstico riguroso de los datos terminan en éxito con mucha mayor frecuencia que aquellos en los que construimos el modelo de inmediato "porque tenemos datos".

La industria de la IA ama las historias de éxito. Nadie cuenta los proyectos que murieron porque los datos resultaron inútiles. Y esos proyectos son la gran mayoría.

La próxima vez que alguien en una reunión diga "tenemos datos" — pregunte: "Muéstremelos. ¿Con qué exactamente va a trabajar la IA? ¿De dónde obtendremos esos datos? ¿Quién es responsable de ellos?". Si las respuestas no llegan rápida y concretamente — es la señal de que hay que empezar por los fundamentos, no por el modelo.

Si desea evaluar con rigor si los datos en su organización están listos para un proyecto de IA, le invito a conversar — Leszek Giza.

"Tenemos datos" — la mayor mentira en los proyectos de IA

Cuatro sistemas, cero consistencia

La verdad sale cuando alguien se sienta con los datos

"Tenemos datos" vs. "los datos están listos"

Por qué las empresas se mienten a sí mismas

Qué hacer en su lugar

El enfoque honesto es más barato

¿Interesado en consultoría de IA?

Artículos relacionados

Cuatro sistemas, cero consistencia

La verdad sale cuando alguien se sienta con los datos

"Tenemos datos" vs. "los datos están listos"

Por qué las empresas se mienten a sí mismas

Qué hacer en su lugar

El enfoque honesto es más barato

¿Interesado en consultoría de IA?

Artículos relacionados

Si un ser humano no puede hacerlo con sus datos, la IA tampoco puede

No necesita más herramientas de IA — necesita a alguien que diga "no"

Su piloto de IA "fue un éxito" — por eso nada salió de él