« Nous avons des données ». Cette phrase, je l'entends lors de la première réunion de quasiment chaque projet d'IA. C'est généralement quelqu'un de la direction ou le DSI qui la prononce. Il la dit avec conviction. Et presque à chaque fois, elle s'avère fausse.
Non pas parce qu'il ment. Mais parce que « nous avons des données » dans le langage de l'organisation signifie quelque chose de totalement différent de « nous avons des données prêtes à être exploitées par l'IA ».
Quatre systèmes, zéro cohérence
Le scénario typique que je rencontre dans les entreprises de taille moyenne et grande est le suivant : les données clients sont dans le CRM, les données opérationnelles dans l'ERP, les données financières dans un système séparé, et les rapports sont créés dans Excel à partir d'exports de ces trois sources. Personne ne s'est jamais assis pour réconcilier ces données entre elles. Chaque système a sa propre logique, ses propres formats, ses propres définitions de champs.
Quand vous demandez de rassembler ces données en un seul endroit, il s'avère que :
- Le même client a trois identifiants différents dans trois systèmes.
- Les données d'adresse sont dans des formats différents et à des degrés d'actualisation variés.
- Une partie des champs est remplie, une partie ne l'est pas — et personne ne sait pourquoi.
- La documentation de la structure des données n'existe pas, ou date de 2019 et ne correspond plus à l'état actuel.
Ce n'est pas l'exception. C'est la norme.
La vérité apparaît quand quelqu'un s'assoit devant les données
Le moment où l'illusion du « nous avons des données » éclate est toujours le même : quand quelqu'un — un humain, pas une machine — s'assoit et essaie d'exécuter une tâche concrète avec ces données. Pas un rapport. Pas un tableau de bord. Une tâche métier concrète qui devait être automatisée par l'IA.
Et alors commence une série de questions : « D'où vient cette valeur ? », « Pourquoi ce champ est vide ? », « C'est actuel ou historique ? », « Qui est le propriétaire de ces données ? ». À la plupart de ces questions, personne n'a de réponse — parce que personne ne les avait jamais posées. Les données étaient là, les systèmes fonctionnaient, les gens se débrouillaient en empilant les workarounds.
L'IA ne fait pas de workarounds. L'IA a besoin de données cohérentes, complètes et avec une structure claire. Et c'est là que le problème commence.
« Nous avons des données » vs. « les données sont prêtes »
Ce sont deux phrases fondamentalement différentes. « Nous avons des données » signifie : quelque part dans l'organisation, il existe des enregistrements numériques liés à notre activité. « Les données sont prêtes » signifie : ces enregistrements sont cohérents, complets, documentés, disponibles en un seul endroit et adaptés à un usage concret.
Entre les deux, il y a un gouffre. Et ce gouffre a un coût. J'ai vu des projets où 70 % du budget d'« implémentation de l'IA » a été consacré à la mise en ordre des données. Pas au modèle, pas à l'intégration, pas à l'UX — simplement à avoir de quoi travailler.
Ce n'est pas un mauvais scénario. C'est un scénario honnête. Le mauvais scénario, c'est celui où personne ne vérifie les données, construit un proof of concept sur des données de démo, puis s'étonne que rien ne fonctionne en production.
Pourquoi les entreprises se mentent à elles-mêmes
Parce que la vérité est inconfortable. Dire à la direction « nous n'avons pas de données prêtes pour l'IA » revient à dire que des années d'investissement dans les systèmes IT n'ont pas fourni le fondement dont nous avons besoin. C'est une conversation difficile. Il est beaucoup plus facile de dire « nous avons des données » et de passer à la diapositive suivante avec le calendrier de déploiement.
Mais cette facilité prend fin dès la première tentative d'utiliser ces données en pratique. Et alors le projet s'arrête (ce qui est coûteux, mais honnête) ou — pire encore — avance de force en produisant des résultats qui paraissent bons mais n'ont aucune assise dans la réalité.
Que faire à la place
Avant de lancer un quelconque projet d'IA, faites un audit de préparation des données. Pas un audit IT. Pas une revue des systèmes. Un audit qui répond à des questions simples :
-
Où sont les données nécessaires pour cette tâche concrète ? Pas « quelles données avons-nous » — car cette question ne mène nulle part. La question est : de quelles données avons-nous besoin pour cet unique cas d'usage concret, et où sont-elles.
-
Ces données sont-elles cohérentes entre les systèmes ? Le client X dans le CRM est-il le même client X dans l'ERP ? Les valeurs correspondent-elles ? Les formats sont-ils compatibles ?
-
Existe-t-il une documentation ? Pas une « documentation générale du système », mais une description : que signifie chaque champ, qui le remplit, à quelle fréquence il est mis à jour, quelles sont les valeurs autorisées.
-
Qui est le propriétaire des données ? Qui est responsable de leur qualité ? Qui décide des modifications ? Si la réponse est « personne » — c'est la première chose à corriger.
-
Un humain peut-il exécuter la tâche avec ces données ? C'est le test dont j'ai parlé dans l'article précédent. Si l'expert ne peut pas, l'IA ne fera pas de miracle.
L'approche honnête coûte moins cher
Je sais que ce n'est pas ce que la direction veut entendre lors du kick-off d'un projet d'IA. Mais une évaluation honnête de l'état des données au départ est infiniment moins coûteuse que la découverte de la vérité en plein milieu du projet. Les projets dans lesquels je consacre avec le client le premier mois à un diagnostic rigoureux des données aboutissent à un succès bien plus fréquemment que ceux dans lesquels nous construisons le modèle immédiatement « parce que nous avons des données ».
L'industrie de l'IA adore les success stories. Personne ne raconte les projets qui sont morts parce que les données se sont révélées inutilisables. Et ces projets-là constituent la grande majorité.
La prochaine fois que quelqu'un en réunion dira « nous avons des données » — demandez : « Montrez-moi. Sur quoi exactement l'IA va-t-elle travailler ? D'où obtiendrons-nous ces données ? Qui en est responsable ? ». Si les réponses ne viennent pas rapidement et concrètement — c'est le signal qu'il faut commencer par les fondations, pas par le modèle.
Si vous souhaitez évaluer rigoureusement si les données de votre organisation sont prêtes pour un projet d'IA, je vous invite à en discuter — Leszek Giza.